Основные принципы работы технологий управления голосом
Голосовое управление – это способ взаимодействия с устройствами при помощи голоса. Считается, что это следующая стадия управления техникой, после сенсорного ввода информации. Преимуществами голосового управления можно считать возможность удаленного и интерактивного взаимодействия с устройством, а также отсутствие с ним тактильного контакта. Голосовое управление происходит по следующим этапам - сегментация, распознавание речи, отклик на требуемую задачу.
Обработка речи начинается с определения уровня помех и искажений, полученного речевого сигнала. Далее в сигнале выделяются участки, которые содержат речь, и происходит оценка информации о формах слов. Этот этап называется сегментацией.
Далее параметры речи поступают в декодер, где сопоставляются входные речевые потоки информации с потоками, хранящимися в акустических и языковых моделях устройства. Там же определяется некоторая наиболее вероятная последовательность слов, которая в итоге будет являться результатом. Это этап распознавания речи.
Последнее – отклик на требуемую задачу. На этом этапе процессор, встроенный в используемое устройство, обрабатывает полученную команду. И если она совпадает с той, что хранится в его встроенной базе данных, то устройство выполняет требуемую задачу, если же команда отсутствует, то используемое оборудование оповестит о невозможности ее выполнения.
Проблемы развития речевых технологий
Основные проблемы, которые возникли перед разработчиками систем речевых технологий:
Невозможность полностью подавить внешний шум. Системы очень чувствительны к шуму окружающей среды. И любые внешние помехи препятствуют правильному распознанию речи.
Повышение точности распознания слитной речи. Поскольку сама система распознавания речи - это сложный процесс согласования данных, то любая, даже незначительная ошибка, может привести к получению неверного результата.
Чувствительность систем к речевым оборотам диктора. От дикции человека зависит очень многое, но так как система направлена на широкое использование, то функционал программы, отвечающий за распознавание речи, должен быть очень гибким.
Стоимость приложений. Технологии распознания голоса требуют больших инвестиционных вложений. Здесь необходимы крупные вложения, как в аппаратную часть, так и в средства разработки программного обеспечения.
Проблема идентификации пользователя по голосу. На данный момент системы распознания речи слишком неточны. В итоге, чем выше скорость отклика программы, тем выше шанс, что человек получит несанкционированный доступ к информации.