Современный скрапинг веб-сайтов с помощью Python [Райан Митчелл] (pdf) читать постранично, страница - 79
Книга в формате pdf! Изображения и текст могут не отображаться!
[Настройки текста] [Cбросить фильтры]
рассуждал автор, можно было бы считать по-настоящему
«мыслящим».
Ирония состоит в том, что за последние 60 лет мы перешли
от использования этих тестов для проверки машин к их
применению для тестирования самих себя и получили
странные результаты. Недавно Google отказалась от известной
своей сложностью системы reCAPTCHA, во многом из-за ее
тенденции блокировать легальных пользователей сайта27.
Другие капчи несколько проще. Например, в Drupal,
распространенной системе управления контентом на основе
PHP,
есть
популярный
модуль
капчи
(https://www.drupal.org/project/captcha),
способный
генерировать
тестовые
изображения
разной
степени
сложности. По умолчанию изображение выглядит так, как
показано на рис. 13.4.
Почему людям и машинам гораздо легче прочитать этот
текст капчи, по сравнению с другими?
• Символы не перекрываются и не пересекают границ
пространства друг друга по горизонтали. Другими словами,
вокруг каждого символа можно нарисовать правильный
прямоугольник, который не будет пересекать другие
символы.
• Нет фоновых изображений, линий и другого отвлекающего
мусора, который бы вводил в заблуждение OCR-программы.
• Для данного изображения это не очевидно, но в капче
используется всего несколько шрифтов. В тексте чередуется
чистый шрифт без засечек (на рисунке это символы 4 и M) и
шрифт, похожий на рукописный (символы m, C и 3).
• Высокий контраст между белым фоном и темными
символами.
Рис. 13.4. Пример текстового изображения, используемого по умолчанию в проекте Drupal
CAPTCHA
Тем не менее в этом изображении капчи есть несколько
помех, которые затрудняют чтение текста OCR-программами:
• используются не только буквы, но и цифры, что увеличивает
количество потенциально возможных символов;
• буквы со случайным наклоном легко читаются людьми, но
могут сбить с толку OCR-программы;
•
странноватый рукописный шрифт вызывает особые
трудности, а пара дополнительных линий в C и 3 и необычно
маленькая строчная буква m требуют дополнительного
обучения компьютера.
Запустив Tesseract для этого изображения с помощью
команды:
$ tesseract captchaExample.png output
получим следующий файл output.txt:
4N\,,,C
Последние комментарии
5 часов 36 минут назад
14 часов 39 минут назад
1 день 14 часов назад
1 день 14 часов назад
1 день 14 часов назад
1 день 14 часов назад