Системы оптического распознавания текста.
244
0
4 минуты
На стадии подготовки и обработки информации, особенно при
компьютеризации предприятия, автоматизации бухучета, возникает
задача ввода большого объема текстовой и графической информации в
ПК. Основными устройствами для ввода графической информации
являются: сканер, факс-модем и реже цифровая фотокамера. Кроме
того, используя программы оптического распознавания текстов, можно
вводить в компьютер (оцифровывать) также и текстовую информацию.
Современные программно-аппаратные системы позволяют
автоматизировать ввод больших объемов информации в компьютер,
используя, например, сетевой сканер и параллельное распознавание
текстов на нескольких компьютерах одновременно. Большинство
программ оптического распознавания текста (OCR Optical Character
Recognition) работают с растровым изображением, которое получено
через факс-модем, сканер, цифровую фотокамеру или другое
устройство. На первом этапе OCR должен разбить страницу на блоки
текста, основываясь на особенностях правого и левого выравнивания и
наличия нескольких колонок. Затем распознанный блок разбивается на
строки. Несмотря на кажущуюся простоту, это не такая очевидная
задача, так как на практике неизбежны перекос изображения страницы
или фрагментов страницы при сгибах. Даже небольшой наклон приводит
к тому, что левый край одной строки становится ниже правого края
следующей, особенно при маленьком межстрочном интервале.
Врезультате возникает проблема определения строки, к которой
относится тот или иной фрагмент изображения. Например, для букв j,
Й, ё при небольшом наклоне уже сложно определить, к какой строке
относится верхняя (отдельная) часть символа (в некоторых случаях ее
можно принять за запятую или точку). Потом строки разбиваются на
непрерывные области изображения, которые, как правило,
соответствуют отдельным буквам; алгоритм распознавания делает
предположения относительно соответствия этих областей символам; а
затем делается выбор каждого символа, в результате чего страница
восстанавливается в символах текста, причем, как правило, в
соответствующем формате. OCR-системы могут достигать наилучшей
точности распознавания свыше 99,9% для чистых изображений,
составленных из обычных шрифтов. На первый взгляд такая точность
распознавания кажется идеальной, но уровень ошибок все же удручает,
потому что, если имеется приблизительно 1500 символов на странице,
то даже при коэффициенте успешного распознавания 99,9% получается
одна или две ошибки на страницу. Втаких случаях на помощь приходит
метод проверки по словарю. То есть, если какого-то слова нет в
словаре системы, то она по специальным правилам пытается найти
похожее. Но это все равно не позволяет исправлять 100% ошибок, что
требует человеческого контроля результатов. Встречающиеся в
реальной жизни тексты обычно далеки от совершенства, и процент
ошибок распознавания для нечистых текстов часто недопустимо велик.
Грязные изображения здесь наиболее очевидная проблема, потому что
даже небольшие пятна могут затенять определяющие части символа или
преобразовывать один в другой. Еще одной проблемой является
неаккуратное сканирование, связанное с человеческим фактором, так
как оператор, сидящий за сканером, просто не в состоянии
разглаживать каждую сканируемую страницу и точно выравнивать ее по
краям сканера. Программное обеспечение OCR обычно работает с
большим растровым изображением страницы из сканера. Изображения со
стандартной степенью разрешения получаются сканированием с
точностью 9600 пикселей на дюйм. Изображение листа формата A4 при
этом разрешении занимает около 1МБ памяти.
Основное назначение
OCR-систем состоит в анализе растровой информации (отсканированного
символа) и присвоении фрагменту изображения соответствующего
символа. После завершения процесса распознавания OCR-системы должны
уметь сохранять форматирование исходных документов, присваивать в
нужном месте атрибут абзаца, сохранять таблицы, графику ит. д.
Современные программы распознавания поддерживают все известные
текстовые и графические форматы и форматы электронных таблиц, а
некоторые поддерживают такие форматы, как HTML и PDF. На данный
момент существует огромное количество программ, поддерживающих
распознавание текста как одну из возможностей. . Начнем обзор с
лидера в этой области FineReader. Новая технология Intelligent
Background Filtering (интеллектуальной фильтрации фона) позволяет
отсеять информацию о текстуре документа и фоновом шуме изображения:
иногда для выделения текста в документе используется серый или
цветной фон. ABBYY FormReader еще одна распознавалка от ABBYY. Эта
программа предназначена для распознавания и обработки форм, которые
могут быть заполнены вручную. OCR CuneiForm выгодно отличается
уровнем распознавания, особенно текстов низкого качества; удобным
интерфейсом с наличием встроенных мастеров помощников в работе;
встроенным текстовым редактором, не уступающим по своей
функциональности популярным текстовым процессорам, и многими
другими возможностями. способна распознавать любые полиграфические
и машинописные гарнитуры всех начертаний и шрифтов, получаемые с
принтеров, за исключением декоративных и рукописных. Также
программа способна распознавать таблицы различной структуры, в том
числе и без линий и границ; редактировать и сохранять результаты в
распространенных табличных форматах. Существенно облегчает работу и
возможность прямого экспорта результатов в MS Word и MS Excel (для
этого теперь не нужно сохранять результат в файл RTF, а затем
открывать его с помощью MS Word). Также программа снабжена
возможностями массового ввода возможностью пакетного сканирования,
включая круглосуточное, сканирования с удаленных компьютеров
локальной сети и организации распределенного параллельного
сканирования в локальной сети. Readiris Pro7 профессиональная
программа распознавания текста. отличается от аналогов высочайшей
точностью преобразования обычных (каждодневных) печатных
документов, таких как письма, факсы, журнальные статьи, газетные
вырезки, в объекты, доступные для редактирования (включая файлы
PDF). Основными достоинствами программы являются: возможность более
или менее точного распознавания картинок, сжатых по максимуму (с
максимальной потерей качества) методом JPEG, поддержка цифровых
камер и автоопределения ориентации страницы. OmniPage11 продукт
компании ScanSoft. . Разработчики утверждают, что их программа
практически со 100% точностью распознает печатные документы,
восстанавливая их форматирование, включая столбцы, таблицы,
переносы (в том числе переносы частей слов), заголовки, названия
глав, подписи, номера страниц, сноски, параграфы, нумерованные
списки, красные строки, графики и картинки. Есть возможность
сохранения в форматы Microsoft Office, PDF и в 20 других форматов,
распознавания из файлов PDF, редактирование прямо в формате PDF.
Система искусственного интеллекта позволяет автоматически
обнаруживать и исправлять ошибки после первого исправления вручную.
Новый специально разработанный модуль Despeckle позволяет
распознавать документы с ухудшенным качеством (факсы, копии, копии
копий ит. д.). Преимуществами программы являются возможность
распознавания цветного текста и возможность корректировки голосом.
Теперь версия OmniPage существует и для компьютеров Macintosh.
Понравилась работу? Лайкни ее и оставь свой комментарий!
Для автора это очень важно, это стимулирует его на новое творчество!