Самый важный параметр для программ распознавания — яркость. Опытные люди говорят, что изменения яркости примерно на 3% может изменить количество ошибок на целых 15 %.

Особенно важен подбор оптимальной яркости при сканировании достаточно большого объема текста низкого качества, ведь повозившись 10 ... 15 мин с настройками вы сэкономите часы муторной и канительной работы по вылавливанию ошибок. Подбор выполнить несложно: вы сканируете одну и ту же страничку текста 4...5 раз, изменяя яркость в обе стороны от среднего значения.

После этого каждое изображение распознавайте той программой, которая имеется в вашем распоряжении, и сосчитайте количество ошибок по каждому варианту. Те настройки более правильные, где ошибок меньше всего. Можно повторить цикл подбора уже вокруг варианта с меньшим количеством ошибок, уменьшая шаг отклонения. И не забудьте, что выискивать ошибки лучше спеллером (проверкой правописания), ведь читая текст с экрана многие ошибки можно просто не заметить.

Контрольные вопросы

1. Для чего используются программы оптического распознавания текста?

2. Перечислите принципы технологии распознавания.

3. Чем этап сканирования отличается от распознавания?

4. Как называются встроенные программы проверки правописания?

5. Как осуществить подбор оптимальной яркости при сканировании?

Глава 10

СИСТЕМЫ МАШИННОГО ПЕРЕВОДА

Глобализация мировой экономики и интеграционные процессы в Европе сделали проблему взаимопонимания различных народов особенно актуальной. К тому же всемирная сеть Интернет открыла доступ к мировым многоязычным информационным ресурсам, и все это в комплексе явилось мощным стимулом развития переводческих услуг.

10.1. СРЕДСТВА АВТОМАТИЗАЦИИ ПЕРЕВОДОВ

Традиционный перевод текстов, т.е. без применения средств автоматизации, перестает устраивать, поскольку требует больших затрат времени. Какие средства автоматизации перевода текстов появились благодаря возможностям компьютера?

Прежде всего, это текстовый редактор, сокративший время на последующее редактирование перевода, а также многочисленные электронные словари, позволяющие быстро и без труда находить требуемое значение любого слова и вставлять его в переведенный текст. Применение только этих средств обеспечило рост производительности перевода на 20...30% по сравнению с ручной работой.

Следующим шагом автоматизации перевода стало применение систем Translation Memory (TM) и технологий машинного перевода (МП). Принцип работы систем ТМ построен на сравнении текста, подлежащего переводу, с внутренней базой, хранящей разбитый на предложения параллельный текст на исходном языке и его перевод, полученный традиционным способом. При загрузке нового документа в ТМ-систему происходит его разделение на сегменты и сопоставление с текстами из базы. Часть этих сегментов оказывается уже переведенной ранее, и система визуализирует их как уже известные, другие — как частично совпадающие с БД, а некоторые — как требующие перевода.

Таким образом, переводчику не нужно тратить усилия на то, что он уже делал прежде. Подобные системы оказываются весьма

217

эффективными при переводе аналогичных документов, например повторяющейся технической документации: ее можно перевести один раз, а для последующих выпусков достаточно переводить лишь изменения в первоисточнике.

Наиболее известными системами ТМ в настоящее время являются Trados TWB и Transit. Они используются в большинстве переводческих бюро мира. В России они пока не получили широкого распространения в силу относительно высокой стоимости.

Технологии МП тоже нашли определенное место при автоматизации процесса переводов. Но наибольшую эффективность обеспечивает комплексное решение, опирающееся на все имеющиеся в настоящий момент лингвистические технологии машинного перевода.