Что являют собою системы оптического распознавания документов / Справочник

Оцифрованные книги, архивы, периодические издания – это преимущественно изображения. Для внесения изменений, копирования из них информации, картинки приходится превращать в редактируемые текстовые файлы. В этом помогут системы оптического распознавания текста. Разберёмся, как они работают, выявим слабые места.

Принцип функционирования

Система оптического распознавания текстов (optical character recognition, сокр. OCR) – способ превращения изображений текста (сканов, фотографий) в редактируемые документы. Применяется при:

написании студенческих работ – цитирование литературы;

оцифровке библиотек, архивов;

переводе материалов на иные языки;

хранении книг, газет, журналов, документации в цифровом виде.

Текстовый документ занимает порой в десятки раз меньше места, чем его графическая версия.

Распознавание текста – это сложный многошаговый процесс. Состоит из этапов:

Получения цифрового изображения путём сканирования или фотографирования, если нет исходного документа.

Очистки картинки от дефектов: оптических (тени, засветы) и физических (повреждения носителя, сторонние предметы вроде пыли).

Разделение полученного изображения на светлые области – фон и тёмные – нужно обработать.

Определения структуры страницы: где какой тип блока расположен – буквы с цифрами, таблицы, картинки, сноски, колонки, списки.

Разделение страницы на области и отдельные символы.

Определение языка (-ов), шрифта (-ов).

Анализ каждого символа и его сравнение с эталоном.

Выбор наиболее подходящего знака, исходя из результатов сравнения.

Качество и скорость зависят от исходного материала, отточенности алгоритмов программы.

Типы анализа

Для распознания документов применяется два метода (принципа). Это:

Растровый – начертания знаков последовательно накладываются на растровые эталоны. С каким меньше различий, такой символ будет в результате. Применяется при работе с качественными исходниками.

Растровый – начертания знаков последовательно накладываются на растровые эталоны. С каким меньше различий, такой символ будет в результате. Применяется при работе с качественными исходниками.

Векторный – в начертании символов выделяются простейшие геометрические фигуры, после сравниваются с шаблонами. Выбирается знак, имеющий максимум совпадений. Алгоритм применяется для документов низкого качества.

Векторный – в начертании символов выделяются простейшие геометрические фигуры, после сравниваются с шаблонами. Выбирается знак, имеющий максимум совпадений. Алгоритм применяется для документов низкого качества.

Программы для OCR обладают десятками наборов шаблонов для разных шрифтов, самообучающимися алгоритмами и технологиями выбора эффективнейшего из них.

Экскурс в историю

Первые патенты на оптическое распознавание текста выданы в конце 20-х – начале 30-х годов XX века. В 1950 году американский военный криптоаналитик Д. Шепард создаёт машину для считывания текста с картинки. Вследствие он основал компанию по выпуску интеллектуальных машин распознания текста. Далее создавались устройства для считывания номеров кредиток, сортировки почты.

С 1970 создаются решения для определения символов, напечатанных различными шрифтами, в конце 70-х выходит первая компьютерная программа для OCR. Аналогичное решение с поддержкой кириллицы появилось в 1992 г. Годом позже компания ABBYY выпустила легендарный FineReader, получивший мировое признание.

Трудности работы систем оптического распознавания цифровых документов

OCR спустя 90 лет развития остаются несовершенными. Их основные недостатки:

Разная форма, начертание символов в зависимости от используемого шрифта. Особенно сказывается при работе с рукописными текстами и шрифтами.
Искажение исходных символов вследствие дефектов бумаги, оптики сканера или камеры, световых эффектов (блики), повреждений носителей (пятна).
Нарушение масштаба фрагментов картины при сканировании.

С остальными проблемами алгоритмы справляются хорошо, например, анализ структуры страницы: определение границ текстовых полей, таблиц, формул, размера букв.

Что являют собою системы оптического распознавания документов

Содержание:

Принцип функционирования

Типы анализа

Экскурс в историю

Трудности работы систем оптического распознавания цифровых документов

Как вы считаете, материал был полезен?