9. 3. Организация работы в finereader
Основой работы FineReader является так называемый пакет, содержащий всю информацию о распознаваемом документе. Пакет представляет собой набор страниц документа и может содержать около тысячи страниц. В один пакет для удобства работы рекомендуется объединять изображения, логически связанные между собой, например страницы одной книги.
Пользователь импортирует в пакет изображение страниц со сканера или непосредственно из файлов графических форматов.
В окне Пакет виден список страниц, входящих в открытый пакет. Для просмотра страницы нужно щелкнуть мышью по ее изображению или номеру, при этом откроются файлы, которыми данная страница представлена в пакете. Страницы в окне Пакет могут быть представлены пиктограммами или уменьшенным изображением страницы.
Импортированные изображения подвергаются графической обработке. Если исходное изображение представляет собой негатив, оно может быть инвертировано, далее производится очистка от «мусора» — мелких дефектов изображения. Если не нужна цветность, то цветные изображения сводятся к черно-белым, что экономит место на диске и ускоряет процесс распознавания.
Следующий шаг — анализ макета страниц пакета, т. е. выделение областей, подлежащих распознаванию. На этом этапе FineReader анализирует ориентацию страницы и переворачивает изображение, если это необходимо, а также выделяет блоки — области, которые при дальнейшем анализе будут интерпретироваться как текст, таблицы или рисунки.
После анализа макета страниц, входящих в пакет, проводится собственно распознавание текста и таблиц. Именно технология распознавания является «сердцем» FineReader и обеспечивает ее уникальность, однако этот процесс совершенно незаметен пользователю — он видит только бегущее по тексту выделение и типовую строку состояния, указывающую, сколько информации обработано, а сколько осталось.
Далее производится проверка правописания, после чего «на суд» пользователя выносятся слова, которых нет в словаре системы, а также символы, в точности распознавания которых про-
205
грамма не уверена, при этом такие слова и буквы выделяются цветом.
Завершающий этап работы программы — сохранение и экспорт результатов распознавания. На самом деле, в сохранении результатов нет нужды, поскольку вся информация, включая распознанный текст и его форматирование, автоматически сохраняются в пакете вместе с исходным изображением и сведениями о макете страниц. Пользователь может просто закрыть FineReader, не опасаясь потери данных, однако отдельно сохраненный текст можно импортировать в различные форматы для дальнейшей работы с ним в других приложениях.
Это интересно
Каждый из описанных шагов — импорт изображений, анализ документа и распознавание, проверка орфографии и сохранение результатов — представлены кнопками в панели инструментов программы, что значительно упрощает работу.
Рассмотрим основные этапы работы с программой FineReader на примере версии FineReader 5.0 для ОС Windows.
9.4. ГЛАВНОЕ ОКНО ПРОГРАММЫ FINEREADER
Программа относительно проста в использовании (особенно если учесть сложность выполняемой ею задачи). Отключаемые панели инструментов снабжены всплывающими подсказками, информативная строка состояния поясняет назначение всех элементов управления, имеется мощная справочная система. После запуска программы FineReader (Пуск/Программы/ABBYY FineReader) открывается Главное окно (рис. 9.1) программы.
В верхней части Главного окна находится меню системы, под ним — панели инструментов. В программе их четыре: Стандартная, Форматирование, Изображение и Scan&Read. Спрятать или показать инструментальные панели можно через меню Вид/Панели инструментов или через локальное меню, которое открывается щелчком правой кнопки мыши на одной из инструментальных панелей. Панели, которые видны на экране, будут отмечены галочкой.
Внизу окна расположена информационная панель, которую называют также строкой состояния. Она отражает информацию о состоянии программы и производимых ею операциях, а также краткую справку о выбираемых пунктах меню и кнопках.