Подготовьтесь к сдаче ЕГЭ интересно и эффективно!
Что являют собою системы оптического распознавания документов
1092

Что являют собою системы оптического распознавания документов

Содержание:




Оцифрованные книги, архивы, периодические издания – это преимущественно изображения. Для внесения изменений, копирования из них информации, картинки приходится превращать в редактируемые текстовые файлы. В этом помогут системы оптического распознавания текста. Разберёмся, как они работают, выявим слабые места.

Принцип функционирования

Система оптического распознавания текстов (optical character recognition, сокр. OCR) – способ превращения изображений текста (сканов, фотографий) в редактируемые документы. Применяется при:
  • написании студенческих работ – цитирование литературы;

  • оцифровке библиотек, архивов;

  • переводе материалов на иные языки;

  • хранении книг, газет, журналов, документации в цифровом виде.

Текстовый документ занимает порой в десятки раз меньше места, чем его графическая версия.

Распознавание текста – это сложный многошаговый процесс. Состоит из этапов:

  • Получения цифрового изображения путём сканирования или фотографирования, если нет исходного документа.

  • Очистки картинки от дефектов: оптических (тени, засветы) и физических (повреждения носителя, сторонние предметы вроде пыли).

  • Разделение полученного изображения на светлые области – фон и тёмные – нужно обработать.

  • Определения структуры страницы: где какой тип блока расположен – буквы с цифрами, таблицы, картинки, сноски, колонки, списки.

  • Разделение страницы на области и отдельные символы.

  • Определение языка (-ов), шрифта (-ов).

  • Анализ каждого символа и его сравнение с эталоном.

  • Выбор наиболее подходящего знака, исходя из результатов сравнения.

Качество и скорость зависят от исходного материала, отточенности алгоритмов программы.



Типы анализа

Для распознания документов применяется два метода (принципа). Это:
  • Растровый – начертания знаков последовательно накладываются на растровые эталоны. С каким меньше различий, такой символ будет в результате. Применяется при работе с качественными исходниками.

Растровый – начертания знаков последовательно накладываются на растровые эталоны. С каким меньше различий, такой символ будет в результате. Применяется при работе с качественными исходниками.


  • Векторный – в начертании символов выделяются простейшие геометрические фигуры, после сравниваются с шаблонами. Выбирается знак, имеющий максимум совпадений. Алгоритм применяется для документов низкого качества.

Векторный – в начертании символов выделяются простейшие геометрические фигуры, после сравниваются с шаблонами. Выбирается знак, имеющий максимум совпадений. Алгоритм применяется для документов низкого качества.

 Программы для OCR обладают десятками наборов шаблонов для разных шрифтов, самообучающимися алгоритмами и технологиями выбора эффективнейшего из них. 



Экскурс в историю

Первые патенты на оптическое распознавание текста выданы в конце 20-х – начале 30-х годов XX века. В 1950 году американский военный криптоаналитик Д. Шепард создаёт машину для  считывания текста с картинки. Вследствие он основал компанию по выпуску интеллектуальных машин распознания текста. Далее создавались устройства для считывания номеров кредиток, сортировки почты.

С 1970 создаются решения для определения символов, напечатанных различными шрифтами, в конце 70-х выходит первая компьютерная программа для OCR. Аналогичное решение с поддержкой кириллицы появилось в 1992 г. Годом позже компания ABBYY выпустила легендарный FineReader, получивший мировое признание.



Трудности работы систем оптического распознавания цифровых документов

OCR спустя 90 лет развития остаются несовершенными. Их основные недостатки:
  • Разная форма, начертание символов в зависимости от используемого шрифта. Особенно сказывается при работе с рукописными текстами и шрифтами.
  • Искажение исходных символов вследствие дефектов бумаги, оптики сканера или камеры, световых эффектов (блики), повреждений носителей (пятна).
  • Нарушение масштаба фрагментов картины при сканировании.

С остальными проблемами алгоритмы справляются хорошо, например, анализ структуры страницы: определение границ текстовых полей, таблиц, формул, размера букв.

Поделитесь в социальных сетях:
17 ноября 2021, 16:52


Как вы считаете, материал был полезен?

Для оценки комментариев необходимо «войти на сайт».
×