Оцифрованные книги, архивы, периодические издания – это преимущественно изображения. Для внесения изменений, копирования из них информации, картинки приходится превращать в редактируемые текстовые файлы. В этом помогут системы оптического распознавания текста. Разберёмся, как они работают, выявим слабые места.
Принцип функционирования
Система оптического распознавания текстов (optical character recognition, сокр. OCR) – способ превращения изображений текста (сканов, фотографий) в редактируемые документы. Применяется при:- написании студенческих работ – цитирование литературы;
- оцифровке библиотек, архивов;
- переводе материалов на иные языки;
- хранении книг, газет, журналов, документации в цифровом виде.
Текстовый документ занимает порой в десятки раз меньше места, чем его графическая версия.
Распознавание текста – это сложный многошаговый процесс. Состоит из этапов:
- Получения цифрового изображения путём сканирования или фотографирования, если нет исходного документа.
- Очистки картинки от дефектов: оптических (тени, засветы) и физических (повреждения носителя, сторонние предметы вроде пыли).
- Разделение полученного изображения на светлые области – фон и тёмные – нужно обработать.
- Определения структуры страницы: где какой тип блока расположен – буквы с цифрами, таблицы, картинки, сноски, колонки, списки.
- Разделение страницы на области и отдельные символы.
- Определение языка (-ов), шрифта (-ов).
- Анализ каждого символа и его сравнение с эталоном.
- Выбор наиболее подходящего знака, исходя из результатов сравнения.
Качество и скорость зависят от исходного материала, отточенности алгоритмов программы.
Типы анализа
Для распознания документов применяется два метода (принципа). Это:- Растровый – начертания знаков последовательно накладываются на растровые эталоны. С каким меньше различий, такой символ будет в результате. Применяется при работе с качественными исходниками.
- Векторный – в начертании символов выделяются простейшие геометрические фигуры, после сравниваются с шаблонами. Выбирается знак, имеющий максимум совпадений. Алгоритм применяется для документов низкого качества.
Программы для OCR обладают десятками наборов шаблонов для разных шрифтов, самообучающимися алгоритмами и технологиями выбора эффективнейшего из них.
Экскурс в историю
Первые патенты на оптическое распознавание текста выданы в конце 20-х – начале 30-х годов XX века. В 1950 году американский военный криптоаналитик Д. Шепард создаёт машину для считывания текста с картинки. Вследствие он основал компанию по выпуску интеллектуальных машин распознания текста. Далее создавались устройства для считывания номеров кредиток, сортировки почты.С 1970 создаются решения для определения символов, напечатанных различными шрифтами, в конце 70-х выходит первая компьютерная программа для OCR. Аналогичное решение с поддержкой кириллицы появилось в 1992 г. Годом позже компания ABBYY выпустила легендарный FineReader, получивший мировое признание.
Трудности работы систем оптического распознавания цифровых документов
OCR спустя 90 лет развития остаются несовершенными. Их основные недостатки:- Разная форма, начертание символов в зависимости от используемого шрифта. Особенно сказывается при работе с рукописными текстами и шрифтами.
- Искажение исходных символов вследствие дефектов бумаги, оптики сканера или камеры, световых эффектов (блики), повреждений носителей (пятна).
- Нарушение масштаба фрагментов картины при сканировании.
С остальными проблемами алгоритмы справляются хорошо, например, анализ структуры страницы: определение границ текстовых полей, таблиц, формул, размера букв.
Как вы считаете, материал был полезен?