9. 7. Анализ макета страниц
Прежде чем FineReader приступит к собственно распознаванию текста, он должен «знать», какие именно области подлежат распознаванию, как расположены строки.
Определение ориентации текста при установке соответствующей опции производится автоматически, хотя можно сделать это и вручную путем поворота исходного изображения. Выделение областей распознавания текста решает еще две задачи: во-первых, отдельными блоками выделяются таблицы и рисунки, котоРЫе не подлежат распознаванию; во-вторых, четкое выделение блоков позволяет максимально корректно сохранить макет исход-
211
ной страницы при передаче распознанного документа во внешние приложения (такие, как MS Word и Adobe Acrobat).
Итак, нажимаем кнопку Распознать, при этом различные части нашего изображения, содержащие текст, таблицы или рисунки, оказались обведены рамками разных цветов и обозначены цифрами в углу каждой рамки. Цвет служит для обозначения типа блока — в стандартных настройках зеленый цвет для текста, красный для рисунков и синий для таблиц. Цветовое кодирование можно при желании изменить.
Блоки — это заключенные в рамки участки изображения. Блоки выделяют для того, чтобы указать программе, какие участки отсканированной страницы надо распознавать и в каком порядке. Также по ним воспроизводится исходное оформление страницы.
При обработке изображений выделяются блоки следующих типов: зона распознавания, текст, таблица, картинка и штрих-код (только в версии Office).
Обычно автоматический анализ макета страницы работает достаточно корректно, однако иногда приходится подправлять FineReader. Чаще всего это бывает необходимо, если нужно распознать только часть текста, расположенного на странице, или включить в конечный документ не все рисунки. Иногда приходится редактировать макет табличных блоков, поскольку некоторые таблицы оказываются слишком сложными по своей структуре.
Еще одной причиной, заставляющей пользователя редактировать макет, являются рисунки оригинала, содержащие текст, например графики с подписями осей. В таких случаях FineReader отдает предпочтение тексту и выделяет подписи как текстовый блок, оставляя сам график без внимания или же выделяя как рисунок какую-либо его часть. Естественным решением этой проблемы будет выделение всего графика как рисунка без распознавания подписей.
Более специфическим случаем ручного редактирования макета являются сложные математические или химические формулы. Внутренний формат текста в FineReader очень близок к формату RTF, поэтому он не умеет корректно работать с текстом, расположенным не в строчку (исключение составляют надстрочные символы и буквицы). При работе с документами, содержащими такие формулы, их приходится выделять как рисунки.
Ну, и совсем отдельно стоят случаи плохого оригинала.
FineReader испытывает естественные трудности при выделении некачественного макета на некачественных изображениях, содержащих много посторонних элементов. В частности, FineReader не любит комментарии, написанные от руки на полях оригинала, поскольку ухитряется углядеть там знакомые символы, выделить
212
их как текстовый блок и распознать, чем нарушает общую структуру основного текста. Многие подобные ошибки могут быть исправлены именно на этапе работы с макетом, поскольку сделать это проще, чем впоследствии редактировать готовый текст.
Изменять размеры или форму существующих блоков можно, потянув мышью за их границы. Изменить тип блока позволяет «всплывающее» меню, появляющееся после щелчка мышью по пиктограмме в углу блока, обозначающего его тип.
Для более сложного редактирования макета используются панели инструментов, расположенные слева от окна изображения. Они позволяют нарисовать новые блоки заданного типа, добавить или удалить часть блока, хотя удалить блок можно также с клавиатуры нажатием на клавишу [Del] после его выделения.
Итак, при автоматическом анализе макета страниц оригинальные изображения достаточно корректно разбиваются на блоки. Неточности, которые программа все-таки допускает, можно легко отредактировать с помощью панели инструментов.
9.8. РАСПОЗНАВАНИЕ ТЕКСТА
После создания макета и его редактирования можно приступить к распознаванию. Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. И первое, на что следует обратить внимание — язык распознавания, ведь FineReader поддерживает более сотни языков.
Язык, на котором будет проводиться распознавание, выбирается на основной панели инструментов.
Это интересно