Лекции.ИНФО


Улучшение качества распознавания изображений сдвоенных страниц



Чтобы увеличить качество распознавания, разбейте сканируемые изображения так, чтобы каждой из пары сдвоенных страниц на изображении соответствовала отдельная страница пакета. Изображения могут быть разбиты как автоматически, так и вручную.

Чтобы разбивать изображения автоматически перед добавлением в пакет на стрелке возле кнопки Сканирование/Открыть в диалоге Опции, отметьте опцию - Делить разворот книги. Чтобы разбивать изображения вручную, отметьте опцию - Разбить изображение в меню Изображение. Устранение искажений, анализ оформления страницы и распознавание будут проходить отдельно для каждой страницы.

Неправильно отображаемые символы

Если в окне Текст программы FineReader символы отображаются неправильно (например, "?" или "?" на месте некоторых букв), это означает, что текущий шрифт не поддерживает полностью алфавит выбранного Вами языка распознавания. Выберите шрифт, который поддерживает все символы текста распознаваемой страницы (например, Arial Unicode или Bitstream Cyberbit) на закладке Форматирование (меню Свойства — Опции) в группе Шрифты, и распознайте документ заново.

Редактирование распознанного текста в Microsoft Word

Если Вы предпочитаете редактировать распознанный текст в Microsoft Word, а не в текстовом окне программы FineReader, Вы можете сделать так, чтобы неуверенно распознанные символы остались подсвеченными. В меню Сервис выберите пункт Форматы - на закладке RTF/DOC/Word XML отметьте опцию Цветом фона и/или Цветом символа в группе - Выделять неуверенно распознанные символы. В сохраненном файле все неуверенно распознанные символы будут подсвечены выбранными Вами на этой закладке цветами.

Теперь давайте остановимся немного подробнее на панелях программы и правилах работы с программой.

Основные панели

Главная панель программы Scan&Read

Мастер Scan&Read - запускает специальный режим сканирования и распознавания, во время которого система контролирует действия пользователя и подсказывает ему, что надо делать, чтобы получить тот или иной результат. Сканировать и распознать - запускает сканирование и распознавание документа. Сканировать и распознать несколько страниц - сканирует и распознает несколько страниц в цикле.

Открыть и распознать - позволяет открыть и распознать изображения, выбранные в диалоге Открыть (Open).

Открыть изображение - добавляет изображение в пакет, при этом копия изображения сохраняется в папке пакета.

Сканировать изображение - сканирует изображение. Сканировать несколько страниц - сканирует изображения в цикле. Чтобы остановить сканирование, в меню Файл выберите пункт Остановить сканирование. Опции - открывает закладку Сканирование/Открытие диалога Опции, на которой Вы может установить опции сканирования и предварительной обработки документа.

Распознать - распознает открытую страницу (или выделенные страницы) пакета.

Распознать все - распознает все нераспознанные страницы пакета.

Опции - открывает закладку Распознавание диалога

Опции, на которой Вы может установить опции распознавания документа.

Проверить - позволяет найти в тексте слова, содержащие неуверенно распознанные символы, и неправильно написанные слова.

Опции - открывает закладку Проверка диалога Опции, на которой Вы можете установить опции проверки документа.

Мастер сохранения результатов - открывает диалог Мастер сохранения результатов, в котором Вы можете выбрать приложение для сохранения и установить опции сохранения.

Сохранить текст в файл - сохраняет распознанный текст в файл на диск.

Передать страницы в - напрямую передает распознанный текст в выбранное приложение без сохранения его на диск. При передаче распознанного текста с нескольких страниц пакета сначала выделите их в окне Пакет.

Передать все страницы в - передает все распознанные страницы в выбранное приложение без сохранения их на диск.

Опции - открывает закладку Форматирование диалога Опции, на которой Вы можете установить опции сохранения документа.

 

Панель Изображение

Советы и примеры

PDF документ

Одним из наиболее популярных форматов представления электронных документов в Internet, архивах и т.д. является формат PDF (Portable Document Format).

Открыв PDF-файл в FineReader, Вы можете его распознать, отредактировать и сохранить либо в PDF, выбрав один из четырех режимов сохранения оформления документа (только текст и картинки, только изображение, текст поверх изображения картинки, текст под изображением картинки), либо в любом другом поддерживаемом формате сохранения.

Чтобы установить режимы сохранения в формате PDF:

- В меню Сервис выберите пункт Форматы.

- На закладке PDF диалога Форматы установите требуемый режим.

PDF является распространенным форматом для пересылки документов по электронной почте или публикации документов на web-сайтах. Естественно, что при публикации на web-сайтах очень важна высокая скорость открытия документов. Документ, сохраненный из программы FineReader в формате PDF, отвечает подобным требованиям. Структура PDF такова, что позволяет открывать в пользовательском браузере для просмотра первые страницы PDF документа, не дожидаясь, когда весь файл целиком будет загружен с web-сервера.

Сложная журнальная страница

Описание ситуации: плохое качество распознавания вследствие неправильного выделения блоков.

Решение: В результате автоматического анализа данной страницы были выделены лишние блоки (например, участки текста на картинке). Проверьте количество блоков, а также отредактируйте форму выделенных блоков.

Для этого воспользуйтесь инструментами на панели Изображение:

- чтобы удалить выделенные на картинке лишние блоки текста или предварительно, выделив блок, нажмите на клавиатуре кнопку Delete;

и - чтобы нарисовать блоки непрямоугольной формы;

и - чтобы нарисовать текстовый блок и блок-картинку, либо нарисуйте блок самостоятельно, как если вы рисовали просто прямоугольник в графическом редакторе и в контекстном меню (правой кнопкой мыши на блоке) выберите тип требуемого блока.

Замечание: При выделении текстовых блоков следите за тем, чтобы границы блоков совпадали с границами текста.

Книжный разворот

Описание ситуации: за одно сканирование сканируется пара страниц (книжный разворот), при этом каждая страница имеет свой угол наклона, что отрицательно сказывается на качестве распознавания, кроме того, обе страницы сохраняются на одну страницу в две колонки.

(DualPage.tif) При распознавании изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз, и строки должны быть горизонтальными. По умолчанию при распознавании программа автоматически определяет и корректирует ориентацию изображения. У изображений со сдвоенными страницами стандартная ориентация отсутствует, так как каждая страница имеет свой угол наклона.

Решение: В программе существует специальный режим, при котором изображение со сдвоенными страницами разрезается на две части и превращается в две отдельные страницы пакета. Это позволяет обработать каждую страницу: автоматически исправить угол наклона и сохранить распознанный текст с каждой страницы в отдельный файл (или на отдельную страницу).

Чтобы установить данный режим,перед добавлением изображения в пакет на закладке Сканирование/Открытие в группе Обработка изображений отметьте опцию - Делить книжный разворот.

Разрезать изображение со сдвоенными страницами на две части, которые впоследствии будут преобразованы в две отдельные страницы пакета, можно также с помощью опции - Разбить изображение.

Визитные карточки

Конечно, это очень удобно - вся важная информация о человеке сконцентрирована на листке бумаги небольшого формата. Но иногда пугает их количество, и мы тратим массу времени для того, чтобы их упорядочить, привести в систему, найти удобное средство хранения.

Удобный способ ввода и хранения визиток в компьютере с помощью программы FineReader. Все визитки обрабатываются и хранятся в пакете программы. Используя функцию полнотекстового поиска по распознанным страницам пакета, Вы можете найти нужную визитку (при этом поиск возможен по любой распознанной информации с визитки - по названию компании, фамилии, телефону и т.д.). Список найденных визиток показывается в окне Поиск. Чтобы открыть визитку, выберите запись в результатах поиска.

Вы можете пополнять пакет новыми визитками, редактировать уже распознанные визитки в окне Текст.

Положите несколько визитных карточек (столько, сколько уместится) в сканер.

Визитки должны быть разложены так, чтобы в результате была получена "табличная структура". Между рядами и колонками должно быть некоторое расстояние. Допустимо либо горизонтальное (более длинные стороны визиток расположены вдоль горизонтали), либо вертикальное размещение визиток на листе, но не оба сразу.

Установите следующие параметры сканирования:

1. разрешение - 400-600 dpi (обычно визитные карточки содержат текст, набранный мелким шрифтом, для хорошего распознавания которого требуется отсканировать документ с более высоким разрешением вместо обычных 300 dpi).

2. тип изображения - серый или цветной.

Нажмите кнопку - Сканировать.

Для повышения качества распознавания, полученные изображения с визитками следует разделить так, чтобы каждой визитке соответствовала отдельная страница пакета. В этом случае исправление перекоса строк, анализ и распознавание будет проводиться для каждой визитки. Для этого в меню Изображение выберите пункт - Разбить изображение. В открывшемся диалоге - Разбить изображение нажмите кнопку , а затем кнопку ОК. В окне Пакет появятся новые страницы: каждая страница будет содержать изображение одной визитки. При этом исходное изображение (содержащее несколько визиток) будет удалено из пакета.

Замечание: Если изображение было поделено на визитки неверно, то попробуйте поделить изображение вручную. Для этого воспользуйтесь кнопками и . Чтобы передвинуть или удалить разделитель, нажмите кнопку Выбор разделителя - , мышью переместите разделитель в нужное место. Для удаления разделителя переместите его за границы изображения. Чтобы удалить все разделители, нажмите кнопку.

Установите язык распознавания. Если требуется, установите несколько языков. При этом помните, что увеличение количества подключенных к распознаванию одного документа языков может привести к ухудшению качества распознавания. Не рекомендуется подключать более 2-3 языков. Перед запуском распознавания проверьте подключенные на закладке Форматирование шрифты: они должны содержать все символы языка распознавания. В противном случае распознанный текст будет неправильно отображен в окне Текст (в словах на месте некоторых букв стоят значки "?" или "?").

Нажмите кнопку - Распознать.

Программная распечатка

Описание ситуации: данный пример имеет две особенности, влияющие на качество распознавания:

- программа передает отступы от левого края листа не пробелами, а с помощью задания отступов абзаца; при экспорте в .txt левый отступ не сохраняется; некоторые строки объединяются в один абзац и при экспорте объединяются в одну строку;

- много ошибок при распознавании конструкций языков программирования.

Решение:

Для распознавания таких документов существует специальная опция программы Форматированный пробелами текст. Устанавливается в группе Тип страницы на закладке Распознавание диалога Опции (меню Сервис — Опции).

В этом случае в распознанном тексте сохранится деление на строки; отступы от левого края будут переданы пробелами; каждая строка выделена в отдельный абзац, а расстояния между абзацами переданы пустыми строками. Все это позволит сохранить исходное форматирование текста при сохранении в формате Txt.

Для хорошего распознавания распечаток программ требуется установить специальный язык распознавания. Для этого:

В списке языков на панели - Стандартная выберите значение Выбор из полного списка языков и в открывшемся диалоге Язык распознаваемого текста выберите пункт C++.

Замечание: Если распознаваемая программная распечатка помимо программного кода содержит текстовые комментарии, то для хорошего распознавания необходимо выбрать несколько языков распознавания: язык программирования и язык, на котором написаны комментарии.

 

Таблица с неполным количеством черных разделителей

Описание ситуации: все строки таблицы между черными горизонтальными линиями (разделителями) объединены в одну строку таблицы.

Если в таблице встречается смешанное разделение на строки и столбцы, при котором некоторые строки разделены черными разделителями, а некоторые нет, программа может разбить таблицу на строки неправильно.

Решение: Программу можно "заставить" выделять каждую строку текста в отдельную строку таблицы, отметив специальную опцию на закладке Распознавание (меню Сервис — Опции) в группе Таблицы: В каждой ячейке таблицы не более одной строки текста.

Сложная таблица

Описание ситуации: неправильный анализ таблиц со сложной нерегулярной структурой: неправильное разделение таблицы на строки и столбцы; неправильное выделение картинок в ячейках таблицы; плохое распознавание вертикального и инвертированного текста.

Решение: Воспользуйтесь инструментами ручной разметки таблиц, расположенными на панели Изображение:

- чтобы добавить вертикальную линию;

- чтобы добавить горизонтальную линию;

- чтобы удалить линию.

Для ячеек таблицы, содержащих только картинки, в диалоге Свойства блока (меню Вид — Свойства), отметьте пункт - Считать ячейку картинкой.

Для выделения картинок внутри ячеек с текстом в отдельные блоки, воспользуйтесь инструментом на панели Изображение: .

Для ячеек таблицы, содержащих вертикальный текст, в диалоге Свойства блока (меню Вид — Свойства) в поле Направление текста укажите направление текста в ячейке; для ячеек с инвертированным текстом отметьте пункт Инвертированный.

Список использованных источников

 

1. http://www.metod-kopilka.ru/page-2-2-23.html









Читайте также:

Последнее изменение этой страницы: 2016-03-22; Просмотров: 132;


lektsia.info 2017 год. Все права принадлежат их авторам! Главная