Низкая цена
Всего 249a за скачивание одной диссертации
Скидки
75 диссертаций за 4900a по акции. Подробнее
О проекте

Электронная библиотека диссертаций — нашли диссертацию, посмотрели оглавление или любые страницы за 3 рубля за страницу, пополнили баланс и скачали диссертацию.

Я впервые на сайте

Отзывы о нас

Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях : диссертация ... доктора технических наук : 05.13.11

Год: 2010

Номер работы: 89202

Автор:

Стоимость работы: 249 e

Без учета скидки. Вы получаете файл формата pdf

Оглавление и несколько страниц
Бесплатно

Вы получаете первые страницы диссертации в формате txt

Читать онлайн
постранично
Платно

Просмотр 1 страницы = 3 руб



Оглавление диссертации:

Глава 1. Организация и особенности человекомашинного взаимодействия в интерактивных многомодальных приложениях

Распознавание текущей ситуации, анализ поведения пользователя и удовлетворение его потребностей в ненавязчивой и практически незаметной форме является основной идеей в концепции окружающего интеллекта (ОИ). Решение этой задачи технологических коммуникаций Интеграция и напрямую зависит от развития трёх научнонаправлений: повсеместных вычислений, повсеместных многомодальных пользовательских интерфейсов [20]. и вычислительных, информационных разнообразных коммуникационных ресурсов в единую сре

Разработка средств эффективного взаимодействия человека с компьютером сегодня является одним из приоритетных направлений развития искусственного интеллекта и информатики в целом. Это связано с тем, что уже сейчас вычислительная техника не используются в полной мере из-за отсутствия проблемы вся полноценного, сдерживает привычного человеку, интерфейса систем для в взаимодействия пользователя с компьютером. Отсутствие решения этой развитие различных прикладных сервисы телекоммуникации, медицине

Вопросами автоматического распознавания речи ученые стали заниматься с момента появления компьютерных систем, поскольку командный интерфейс взаимодействия с первыми ЭВМ не обеспечивал приемлемой скорости и естественности в работе. За многие годы исследований было разработано большое количество методов и компьютерных программ, которые направлены на решение проблемы распознавания речи. Были достигнуты существенные результаты в дикторозависимом распознавании изолированной речи и теперь изучаются

В течение нескольких лет работы над созданием системы автоматического распознавания русской слитной речи был накоплен некоторый опыт и выявлен ряд проблем, с которыми сталкиваются разработчики речевых технологий [37, 65]. Существенное различие между обучающими речевыми данными и теми, что приходиться обрабатывать в реальных условиях - является основной причиной ошибок систем распознавания. Вариативность таких факторов как произношение, темп, стиль речи, а также окружающие шумы зачастую невозм

С развитием технологий «повсеместных space) к вычислений» речевым (ubiquitous технологиям computing) и разработкой так называемого «окружающего интеллектуального пространства» (ambient intelligence 65 предъявляются все более жесткие требования; в частности, система должна воспринимать речь диктора, свободно перемещающегося в помещении, то есть самостоятельно определять местонахождение источника полезного сигнала. Подавляющее большинство существующих систем распознавания речи способно обрабаты

Сегодня одним из приоритетных направлений развития информатики становится разработка средств эффективного взаимодействия человека с компьютером. Это связано с тем, что постоянно растущие возможности вычислительной техники и сетевых технологий уже сейчас не используются в полной мере из-за отсутствия полноценного общения компьютера и человека на естественном языке. Эта проблема сдерживает развитие различных прикладных различные управления систем сетевые и в телекоммуникации, используют медицин

В отличие от традиционных компьютерных интерфейсов на основе клавиатуры и мыши или одномодальных интерфейсов, многомодальные системы обеспечивают более гибкое использование входных потоков информации. Это дает возможность пользователю выбирать наиболее удобный способ передачи различной входной информации. Некоторые комбинации модальностей для передачи информации хорошо подходят для отдельных ситуаций и прикладных задач, но хуже или даже совсем неприменимы для других. Возможность выбора модаль

Создание новых многомодальных архитектур и систем обуславливается двумя предпосылками. Во-первых, когнитивная наука, изучающая человеческие механизмы восприятия и межчеловеческое взаимодействие, обеспечила фундаментальную информацию для моделирования пользователя, а также информацию о том, как должны наука предоставляет быть построены системы знания о моделях распознавания и организованы многомодальные архитектуры. В частности, когнитивная необходимые естественной интеграции информации, котор

При обработкой разработке и многомодальных связанные интерфейсов с возникают В новые ходе специфические проблемы, синхронизацией, совместной объединением многомодальной информации. проектирования многомодального интерфейса выполняется основной цикл работ, связанных с анализом: (1) способов взаимодействия модальностей, архитектур распределенных многомодальных систем, методов кодирования и хранения сигналов, средств для разработки и распространения программного обеспечения; (2) методов выб

Рассмотрим пять типовых архитектур многомодальных интерфейсов, получивших наиболее широкое распространение и использующих речь в качестве одного из способов передачи информации [31]. Интерфейс, объединяющий речь и жесты. Основной целью подобных систем является манипулирование пространственными объектами посредством указания на них пером или рукой (частный случай жестового ввода) с одновременным произнесением речевой команды. Наиболее часто данная комбинация используется в различных картографи

Исследованием проблемы распознавания речи и разработкой систем естественного взаимодействия человека с компьютером занимаются крупные коммерческие и академические организации, а также множество инициативных групп [70, 209]. Несмотря на огромное количество ресурсов, привлеченных к решению данной проблемы, достаточно надежных систем пока не создано. При этом крупные организации стремятся использовать гигантские языковые и речевые базы данных в своих технологиях. Вследствие чего обработка речи о

При разработке многомодальных интерфейсов В возникают новые специфические задачи, связанные с синхронизацией, совместной обработкой и объединением многомодальной информации. ходе проектирования многомодального интерфейса выполняется основной цикл работ, связанных с анализом и синтезом: (1) способов взаимодействия модальностей, архитектур распределенных многомодальных систем, методов кодирования и хранения сигналов, средств для разработки и распространения программного обеспечения; (2) методов

При переносе системы распознавания речи из лабораторных условий в обычные мы сталкиваемся с рядом новых проблем и особенностей речевого взаимодействия. Пожалуй, самым сложным случаем (и в то же время одним из самых распространенных) для автоматической системы будет ситуация cocktail party, когда в помещении находится большое число людей, свободно перемещающихся и разговаривающих между собой. В такой обстановке система записывает многомерный звуковой сигнал, содержащий все звуки источников, на

3.2. Метод спектрально-пространственной обработки звуковых сигналов Учитывая, что локализация диктора в интеллектуальном пространстве должна происходить в режиме реального времени, а длительность сеансов взаимодействия могут быть может не превышать вследствие большой нескольких десятков секунд, и большинство из проанализированных методов как оказалось на практике, не использованы использовать вычислительной набор сенсоров. сложности В необходимости простых приложениях измерение времени задер

Применение корреляционных методов возможно только при обеспечении синхронности многоканальной записи аудиопотоков. В случае же распределенных мероприятий и использования независимых устройств записи и обработки аудиосигналов наиболее эффективно применение методов на основе нормализации аудиоканалов, расчета относительной энергии сигнала и его спектра, учета фонетических закономерностей речи. В ходе разработки многоканальной системы записи и протоколирования речи распределенных участников ме

Применение корреляционных методов возможно только при обеспечении синхронности многоканальной записи аудиопотоков. В случае же распределенных мероприятий и использования независимых устройств записи и обработки аудиосигналов наиболее эффективно применение методов на основе нормализации аудиоканалов, расчета относительной энергии сигнала и его спектра, учета фонетических закономерностей речи. В связи с чем были исследованы и предложены два способа оценивания анализа речевой активности в многок

Представление словаря в виде списка слов и их транскрипций, что используется в большинстве современных систем распознавания речи и достаточно успешно подходит для английского, не годится для флективных языков по скорости обработки вследствие их богатой морфологии. Декомпозиция транскрипции каждой словоформы из словаря на основу и окончание с последующим объединением одинаковых последовательностей первых фонем основ и одинаковых транскрипций окончаний обеспечивает формирование компактной морфо

Автоматическое распознавание естественной речи предполагает работу со сверхбольшими словарями, размер которых превышает несколько миллионов словоформ, поэтому разработка средств компактного хранения, скоростного поиска и своевременного отсечения маловероятных гипотез в процессе декодирования является крайне актуальной задачей, особенно для русского языка с относительно высоким уровнем флективности. Для компактного представления это позволяет словаря сократить транскрипций размер флективных си

словаря распознавателя Текущая версия программного комплекса использует базовый список основ и концовок, а также правила анализа и синтеза словоформ, полученные путем обработки электронного варианта грамматического словаря русского языка А.А. Зализняка [26]. Для более компактного представления словаря используется не окончание, а так называемая концовка, правила выделения ее границы представлены в [67]. При обработке текстов из предметной области производится декомпозиция всех словоформ, а ун

В первую очередь будет рассмотрена методика подготовки всего комплекса баз данных, необходимых для работы системы распознавания речи, в том числе на уровне акустики, лексики и синтаксиса. Затем детально описаны алгоритмы, использованные при обработке речевого сигнала с помощью разработанного декодера на базе ДМТТГ. Рассмотрены этапы обработки и прохождения гипотезы распознавания по всему графу, а также в узле фонемы. В последнем разделе предложены некоторые изменения в структуре графа для кот

Ключевыми проблемами автоматической обработки речи является ее высокая вариативность, возникающая из-за междикторских различий и изменчивости окружающей акустической обстановки. Для учета вариативности и обучения моделей фонем и слов требуются гигантские текстовые и речевые материалы, подготовка которых требует скрупулезной экспертной работы. Поэтому современные системы распознавания, обученные на ограниченных речевых корпусах, записанных в лабораторных условиях, пока еще не показывают качест

Глава 5. Применение разработанных методов дистанционной обработки русской речи в многомодальных интерактивных приложениях

Глава посвящена практическому использованию разработанных в диссертации методов и программных средств обработки речевых сигналов и созданию информационных сервисов с многомодальным интерфейсом. В разделе

5.1 рассмотрено при В разделе разработанное

5.2 приводится программное описание обеспечение, интерактивных разработанного используемое приложений. проект

5.1. Программное обеспечение разработки многомодального интерфейса На основе предложенного конфигурирования комбинации приложений, методологического ресурсов и математического определены обеспечения проектирования многомодальных интерактивных приложений и программно-аппаратных и выходных к были для

5.1 входных модальностей В таблице разработанных интерактивных представлены относящихся различным классам информационно-управляющих ограничений UC, DC, ЕС, SC. сервисов. комбинации мо

Информационные системы массового обслуживания, такие как справочные автоматы все больше используются в различных областях. Однако назрела острая необходимость в удобных для пользователя, эргономичных и интуитивных способах взаимодействия с такими устройствами. Последнее десятилетие за рубежом активно проводятся исследования и разработки принципиально нового поколения справочных киосков - многомодальных интеллектуальных киосков, такие как системы MATCHKiosk компании AT&T [150], Touch'n'Spe

5.3.1. Технологическая сеть интеллектуального зала В здании института под интеллектуальный зал было оснащено помещение общей площадью 72 м . Схема зала и расположение основного оборудования представлены на рисунке

5.11. Видеомониторинг зала осуществляется с помощью 16 камер, установленных на стенах, потолке и столах, обеспечивая слежение за движущимися объектами, поиск лица и другие функции. Для локализации источников звука, записи и последующей обработки речи применяется установ

Интернет становятся расходах, всё приложения более для проведения при телеконференций и дистанционного обучения, так называемые системы E-meeting и E-lecture, популярными проведении форму распределенных а также мероприятий. Такие системы выбрать позволяют сэкономить на транспортных обучения, персонифицированную предоставляют ' удобные средства поиска и доступа к информации. К сожалению, современные корпоративные системы не позволяют полностью автоматизировать процесс информационной поддержк

На основе предложенного методологического ресурсов и математического определены обеспечения проектирования многомодальных интерактивных приложений и конфигурирования комбинации приложений, киоск программно-аппаратных и выходных к были для входных модальностей разработанных интерактивных оборудованием относящихся различным классам управление информационно-управляющих сервисов: многомодальный информационный самообслуживания; многомодальное интеллектуального зала; система протоколирования и