Речевые технологии – следующий уровень сервиса

Молчанова Анастасия Александровна

Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова,

Студент,

E-mail: anastasiya.1395@mail.ru

 

Петрушенко Роман Вадимович

Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова,

Студент,

E-mail: Oboroten45@yandex.ru

 

Аннотация

В данной статье речь пойдет о новой распространяющейся технологии управления голосом. Будет рассказана история возникновения, тенденции развития речевых систем, основные принципы работы технологий управления голосом, проблемы. Описаны сферы применения в повседневной жизни, бизнесе и медицине.

Ключевые слова

Речевые технологии, управление голосом, голосовые технологии, синтез речи, сегментация, распознавание речи, обработка речи.

 

Введение

Создание систем автоматического распознавания речи достаточно актуальное направление в сфере развития информационных технологий. Мало кто задумывается о том, на сколько эти технологии уже распространены в нашей жизни. Но многие разработчики считают, что эра помощников с голосовым управлением уже не за горами.

Речевые технологии – это новейшие технологии XXI века, благодаря которым появилась возможность с помощью голоса управлять компьютерами, автомобилями, бытовой техникой.

История возникновения

В 1939 году была продемонстрирована первая в мире система автоматического распознавания речи в Ленинградском Государственном Университете Мясниковым.

Работы по компрессии и по автоматическому распознаванию речи шли еще в 50-х годах XX века.

В 60-х годах СССР опережал другие страны в разработках в области речевых технологий. С 70-х годов в разработке речевых систем США начали выходить на лидирующий план, но до середины 80-х уровень теоретических и прикладных разработок в СССР и США оставались приблизительно одинаковыми.

В 80-х годах прекратилось финансирование этого направления в СССР, в следствии чего разработка речевых систем резко прекратилась.

В настоящее время в области речевых технологий активно работают страны: США, Япония, Канада, Австралия.

Идеи и тенденции

Можно рассматривать голосовые технологии через три основные составляющие.

Первая – система синтеза речи.

Синтез речи – это технология, которая дает возможность воспроизвести текст, как можно более похожим естественным человеческим голосом. Чтобы синтезированная речь звучала натурально, следует решать такие задачи, как плавность звучания, интонации, правильная расстановка ударения, расшифровка сокращений. Примером синтеза речи может служить вся дискография, радио.

Вторая – система распознавания речи.

Распознавание речи – системы, которые позволяют преобразовывать в компьютерную форму, представленную слитную проблемно-ориентированную человеческую речь. В настоящее время разработаны системы, которые могут разобрать ограниченное количество слов. Задача, распознавания произвольного слитного устного текста, все еще не решена. В пример разбора речи информационными системами можно привести новый голосовой поиск от Google, так же и его ближайшего конкурента Яндекс, который запустил подобный сервис.

Третья – интерфейсная система.

Для совместного использования синтеза и распознавания речи нужно иметь некоторую систему, которая должна понимать, когда следует синтезировать, а когда распознавать полученную извне информацию. Иными словами, интерфейс. Речевому интерфейсу уделялось, мало внимания, поскольку многие разработчики считали, что для начала активного использования такой системы, будет достаточно создать хорошую программу распознавания речи. В качестве примера можно привести голосовой интерфейс – информационную систему дистанционного управления объектом GLASIS.