3 Автоматизированная обработка текста

 

. Текстовое представление информации — одно из наиболее удобных для организации автоматической обработки. Связано это с тем, что в этой форме информация представляется в виде близком к исходному языку, что позволяет выполнять преобразования, связанные со смыслом текста.

Существует несколько наиболее распространенных автоматизированных операций, связанных с текстовым представлением.

Поиск

Задача поиска необходимой информации чаще всего формулируется как поиск фрагментов, содержащих некоторые понятия, в достаточно большом массиве. Большое значение этот вид автоматической обработки получил с ростом популярности межсетевой среды Интернет. Существует несколько подходов к организации такого поиска.

Первый подход опирается на поиск фрагмента текста, соответствующего некоторому образцу. Наиболее популярная форма задания этого образца — так называемые регулярные выражения. По сути, это описание фрагмента текста, удовлетворяющего некоторым условиям, по тем частям, которые в нем содержатся, и их порядку. Таким способом в большом текстовом массиве можно находить упоминания тех или иных слов, адреса, номера телефонов и т.п. шаблонные элементы.

Достоинство этого подхода — возможность применять его к массиву текста без предварительной обработки. Например, сразу при посимвольном получении текста.

Второй подход предусматривает предварительное создание специального вида базы для ускорения поискаиндекса. Такой способ применяется для ускорения поиска, если некоторые типовые поисковые запросы повторяются часто и нет возможности формировать/хранить весь массив текста. Например, при организации поисковой машины в среде Интернет.

Расшифровка или уточнение значений слова

Для решения такой задачи в самых разных видах применяют словарибазы информационных фрагментов, связанных с некоторыми ключевыми словами или словосочетаниями. Примером таких баз могут быть словари различных языков: англо-русский, русско-английский, толковый и другие виды словарей. Одно из самых распространенных применений словарей — проверка правописания слов при наборе.

Особым видом словарей являются тезаурусысловари, в которых слова связываются на основе каких-либо лексических отношений. Например: слова являются синонимами (смысловыми аналогами), антонимами (противоположны по смыслу) и т.п.

Этот вид словарей важен не только потому, что может помочь при подготовке текстов, но и потому, что это отразит смысл слов — для систем, моделирующих отдельные аспекты мышления человека.