Автоматическое распознавание устной речи.

⇐ ПредыдущаяСтр 19 из 22Следующая ⇒

Несмотря на то, что проблемами распознавания устной речи учёные уже занимаются более 60 лет, до сих пор проблемы в полном объёме не решены. Под распознавание речи компьютером в полном объёме понимается такое распознавание, которое подобно восприятию речи человеком в любых условиях и при общении с любым человеком.

Решению проблемы распознавания речи в полном объёме мешают следующие факторы:

1. не существует чётких теоретических представлений, которые бы описывали весь комплекс преобразований, осуществляемых нервной системой при обработке речевых сигналов.

2. слитно произнесённая речь обладает следующими свойствами: а) границы слов размыты; б) соседние звуки влияют друг на друга, изменяют звуковые характеристики; в) знаменательные слова произносятся отчётливо, в то время как функциональные – нечётко или вообще могут исчезать.

3. в голосе говорящего человека всегда присутствует экстралингвистическая информация, свидетельствующая о его особом эмоциональном состоянии, указывающая на его пол, возраст, национальность и даже на состояние здоровья.

4. в процессе речевого общения кроме используемых слов большое значение имеют паралингвистические средства коммуникации: фонация (характеристики голоса человека), кинесика (мимика, жесты), проксемика (расстояние между людьми).

Первые промышленные системы распознавания речи появились во второй половине 80-х годов в Японии. Их называли системами надиктовки текста в компьютерах (диктографы). Имели узкую специализацию. Лидером в создании сегодня является фирма IBM с программным продуктом ViaVoice.

Системы распознавания речи работают по следующему алгоритму:

1. ввод устной речи

2. обработка данных (снимаются шумы)

3. деление звукового потока на сегменты

4. выделение в каждом сегменте минимальной акустической единицы

5. сравнение выделенной единицы с эталонами

Сегодня автоматическое распознавание речи может осуществляться только при наложении определённых ограничений на процесс распознавания: распознавание изолированно произнесённых слов; распознавание речи с предварительной настройкой на голос конкретного пользователя; распознавание речи с опорой на небольшой заранее определённый словарь.

Промышленные реализованные системы распознавания речи условно делятся на 4 группы:

1. средства речевого управления (ПК, мобильным устройством, в банкомате)

2. средства диктовки, позволяющие голосом вводить текстовую информацию

3. информационно-справочные системы, работающие в диалоговом режиме в качестве автоответчика (железнодорожная справка)

4. средства идентификации человека по образцу речи (голосовые пароли)

⇐ Предыдущая 13 14 15 16 17 181920 21 22 Следующая ⇒

Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2026 год. (0.187 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал