Системы оптического распознавания информации

В практической деятельности часто встречаются ситуации, когда необходимо перевести в электронный вид документ, напечатанный на бумаге. В этом случае можно просто набрать документ на компьютере, что довольно трудно, либо воспользоваться сканером — устройством, специально предназначенным для перевода документов в электронный вид. Для организации сканирования изображения помимо непосредственно сканера требуется одна из специальных программ систем оптического распознавания текста.

Системы оптического распознавания текста (Optical Character

Recognition — OCR-системы) предназначены для автоматического ввода печатных документов в компьютер.

Современные программы распознавания текста не только ошибаются реже, чем живой человек, но и обеспечивают проверку орфографии, автоматическое форматирование текста и массу других дополнительных удобств.

Последние годы ведущие позиции на российском рынке «распознавалок» удерживают программы FineReader и CuneiForm. Несмотря на свои замысловатые названия, обе программы отечественного производства вполне хорошего качества. По своим возможностям и сервису они примерно равноценны.

9.1. ВОЗМОЖНОСТИ ПРОГРАММЫ FINEREADER

Одной из популярных программ оптического распознавания текстов является программа FineReader, созданная компанией ABBYY Software House.

FineReader — омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами. Особенностью программы FineReader является высокая точность распознавания

И малая чувствительность к дефектам печати, что достигается бла-

201

годаря применению технологии «целостного целенаправленного адаптивного распознавания».

Программа позволяет распознавать с высокой точностью тексты более чем на 175 языках, выводить на печать исходное изображение и распознанный текст, сохранять отсканированное изображение в различных форматах, настраивать панели инструментов программы, а также отвечает требованиям совместимости с новыми операционными системами Microsoft и Macintosh. Версия программы FineReader 6.0 Professional совместима с Windows-2000, -ХР, a FineReader 5.0 Pro for Mac предназначена для владельцев компьютеров Apple Macintosh.

Кроме того, отсканированный файл можно сразу же отправить электронным письмом или загрузить в браузер в виде Web-странички.

Программа FineReader, начиная с третьей версии, оказалась настолько удачной, что завоевала широкое признание и в России, и за ее пределами. Именно в связи с выходом на мировую арену фирма получила свое новое имя ABBYY, ранее называясь Bit Software.

Программные продукты ABBYY FineReader представлены в настоящее время следующими программами: FineReader Sprint, FineReader 6.0 Professional, FineReader 6.0 Corporate Edition и ABBYY FineReader 5.0 Pro for Mac.

FineReader Sprint поставляется в комплекте со сканерами. Это продукт для тех, кто только начинает работать с системами распознавания OCR. Версия обладает ограниченной функциональностью по сравнению с версиями Professional и Corporate Edition.

FineReader 6.0 Corporate Edition разработана с учетом запросов корпоративных клиентов и поддерживает такие функции, как работа в локальной сети, пакетный поиск и индексирование, распознавание штрих-кодов и разбивка изображений. FineReader Scripting Edition позволяет создавать интегрированные решения, обладающие всеми возможностями Corporate Edition.

Интерфейс программы ABBYY FineReader 5.0 Pro for Mac, включая панели управления, пиктограммы и диалоговые окна, создавался непосредственно для Mac OS. Поддержаны все основные технологии Apple, включая QuickTime, Speech, Drag and Drop и Navigation Services. Продукт разработан компаниями ABBYY Software House и Sound & Vision.Inc.

Для автоматизации ввода платежных документов в банковских системах выпускается программа FineReader Банк, позволяющая значительно повысить эффективность работы. При создании платежного документа программа генерирует и печатает штрих-код, что позволяет при получении в банке документа и сканировании кода дополнительно идентифицировать данные.

В комплект ABBYY FineReader 6.0 Professional помимо дистрибутивного компакт-диска входят руководство пользователя и ли-

202

цензионный договор. Для установки программы необходим компьютер, отвечающий следующим требованиям:

• ПК с процессором Pentium 200 или более мощным;

• операционная система Microsoft Windows XP/2000/NT 4.0 (SP6или выше), Windows ME/98/95 (для работы с локализованным интерфейсом операционная система должна обеспечивать необходимую языковую поддержку);

• размер оперативной памяти для Windows XP/2000 — 64 Мбайт,Windows ME/98/95/NT 4.0 - 32 Мбайт;

• 160 Мбайт свободного места на жестком диске, включая

90 Мбайт для установки системы в минимальной конфигурации и

70 Мбайт для работы системы;

• браузер Microsoft Internet Explorer 5.0 или выше (на компакт-диске находится дистрибутив MS IE 5.5);

• 100 %-й Twain-совместимый сканер, цифровая камера илифакс-модем;

• дисковод для компакт-дисков;

• дисковод 3,5 дюйма или возможность произвести активациюпродукта через Интернет, по электронной почте или по телефону.

Это интересно

FineReader работает с более чем 30 моделями TWAIN-совместимых сканеров таких компаний, как Hewlett-Packard, Canon, Epson, Microtek.

Мастер установки FineReader предельно прост — пользователю предлагается выбрать язык интерфейса, вариант установки и каталог для файлов программы. Для инсталляции на диске должно быть свободно 90 Мбайт. Для удаления программы из компьютера имеются средства деинсталляции.

9.2. ТЕХНОЛОГИЯ РАСПОЗНАВАНИЯ

Сложность машинного распознавания текстов заключается в том, что его невозможно построить по жесткому алгоритму хотя бы потому, что для написания одной д той же буквы существует множество вариантов написания. Значит, чтобы компьютер корректно прочитал символы, он должен их «осмыслить».

Иными словами, для распознавания текста требуется моделирование рассуждений человека в подобной ситуации, а это принято обозначать термином «искусственный интеллект».

Это интересно