Низкая цена
Всего 249a за скачивание одной диссертации
Скидки
75 диссертаций за 4900a по акции. Подробнее
О проекте

Электронная библиотека диссертаций — нашли диссертацию, посмотрели оглавление или любые страницы за 3 рубля за страницу, пополнили баланс и скачали диссертацию.

Я впервые на сайте

Отзывы о нас

Методы и алгоритмы гибридного синтеза естественной русской речи на основе скрытых марковских моделей и метода Unit Selection : диссертация ... кандидата технических наук : 05.13.11

Год: 2013

Номер работы: 4481

Автор:

Стоимость работы: 249 e

Без учета скидки. Вы получаете файл формата pdf

Оглавление и несколько страниц
Бесплатно

Вы получаете первые страницы диссертации в формате txt

Читать онлайн
постранично
Платно

Просмотр 1 страницы = 3 руб



Оглавление диссертации:

3.2 Определение параметров модели на основе алгоритма Баум-Велша 51 53 54 54 55 58 60 61 62 65 67 71 73 74 Выводы 2 Автоматизация подготовки звуковой базы данных

2.1

2.2 Общая схема гибридной системы синтеза речи Методика подготовки речевого корпуса

2.2.1

2.2.2

2.2.3

2.3 Методика подготовки текстового корпуса Автоматический контроль параметров записи фонограмм . Автоматическая разметка звукового материала Методика создания модели голоса

2.3.1

Выбор критериев поиска оптимальной последовательности звуковых элементов: стоимость замены

3.2.

Выбор критериев поиска оптимальной последовательности звуковых элементов: стоимость связи .

3.2.

1.3 Поиск оптимальной последовательности звуковых элементов

3.2.2 Генерация речевого сигнала

3.2.

2.1 Алгоритм объединения отдельных звуковых элементов в единый звуковой поток

3.2.

2.2

3.2.

2.3 Алгоритм сглаживания энергетической огибающей Алгоритм модификации частотных и темпо-ритмических характеристик

3.2.3

3.3 Основные сложности и ограничения применения 78 81 84 86 Программные средства синтеза русской речи

3.3.1

3.3.2 Представление входных и выходных данных Структура системы

3.3.

В системе, основанной на просодическом ресинтезе, содержится подробная количественная информация о контурах частоты основного тона, длительности и энергии (интенсивности) предопределенного набора фраз, полученная на основе их естественно произнесенных эквивалентов. Контур частоты основного тона может быть представлен, например, в виде последовательности чисел, определяющих значение F0 на каждом периоде вокализованных участков или через каждые равные небольшие (например, Юме) интервалы времени

1.3.2 Генерация контура частоты основного тона д л я произвольного предложения В реальных системах синтеза речи состав и многообразие правил просодической стилизации, на основе которых происходит порождение тонального контура синтезируемого предложения, зависит как от реализованных возможностей блока лингвистической обработки текста, так и от того, что разработчики конкретной системы понимают под интонационной структурой предложения. В качестве минимальной интонационно-значимой информации мо

2.1 Генерация контура частоты основного тона на основе просодически ориентированных баз данных К данной группе, прежде всего можно отнести системы, в основе которых лежит узкая акустическая стилизация контуров частоты основного тона. Благодаря методам автоматического вычисления контуров F0 и автоматической сегментации речевого сигнала, существует возможность создания больших, ориентированных просодически баз данных, содержащих фиксированную информацию о значениях опорных точек огибающей часто

В системах тонального синтеза, в основе которых лежат акустические модели, огибающую частоты основного тона можно представить в виде последовательности определенных абстрактных элементов интонации, которые описываются в выходной транскрипции блока лингвистической обработки текста. Активное участие в создании таких систем принимают эксперты-лингвисты. В соответствии с теорией, представленной научным сообществом по изучению интонации, активно развивающейся на западе, можно выделить два основных

Синтез, основанный на правилах При реализации такой системы синтеза не требуется наличие звуковой базы данных. Основным требованием являются правила, подготовленные лингвистами-экспертами, на основе которых происходит генерация речи. Написание таких правил для конкретного языка выполняется путем изучения спек25 Таблица

1.1: Обзор технологий генерации речевого сигнала Синтез, основанный на правилах (1964г.) Синтез, основанный на речевом корпусе Конкатенативный синтез Синтез, нованный зв

2 Синтез, основанный на речевом корпусе В основе данного типа синтеза речи лежит размеченная звуковая база различных фраз (как состоящих из несвязных слов, так и из полноценных предложений), из которых извлекаются акустические единицы (аллофоны, дифоны и т.д.). Далее такие звуковые элементы соединяются вместе, в случае конкатенативного синтеза, или же используются для обучения моделей голоса в синтезе, основанном на моделях. В синтезе, основанном на речевом корпусе, коартикуляционная информа

2.1 Конкатенативный синтез При конкатенативном синтезе речи происходит последовательное выполнение двух основных шагов:

1) индексация имеющегося перечня акустических элементов в базе данных;

2) выбор соответствующих элементов из базы данных и их конкатенация на основе текста. Маловероятно, что целевая и записанная просодическая информация одна и та же, т.к. требуемые и записанные звуковые элементы различны. Ж е ­ лаемые просодические характеристики достигаются путем примен

3. Unit Selection В данном случае, количество фонемных реализаций не огра­ ничено одной, а представляет собой наборы для различных контекстов, и, следовательно, база данных занимает гораздо больший объем ( 5 - 1 0 часов или 750 - 1500 Мб). Под различными контекстами подразумеваются не только соседние фонемы, но и частота основного тона, длительность, позиция в слоге и т.д. Как результат, при синтезе мы получаем фонемную решетку, на основе которой определяется оптимальная последовательность.

4).

При конкатенативном синтезе ввиду ограниченности звуковой базы данных неизбежно приходится прибегать к модификации звукового сигнала для придания выбранным звуковым элементам, реализующим ту или иную фразу, требуемых темпо-ритмических и тональных характеристик. Для выполнения данной задачи существует множество алгоритмов [39,40], которые можно разделить на две большие группы: алгоритмы модификации во временной области и алгоритмы модификации в спектральной области.

1.4.

3.1 Модификация параметров речевого сигнала во временной области Основной идеей, лежащей в основе таких алгоритмов, является то, что речевой сигнал модифицируется во временной области без использования какихлибо параметрических моделей. Другими словами, изменение просодических параметров выполняется напрямую в речевом сигнале [6,7,42,50]. Существуют различные технологии работы с сигналом во временной области, классической и наилучшим образом себя зарекомендовавшей из которых является TD-PSOLA

3.3 Смешанная модификация параметров речевого сигнала В качестве доминирующего представителя данной категории алгоритмов можно выделить гармонико-шумовую модель (Harmonic plus Noise Model) [8,43, 44]. Данная модель выполняет преобразование вокализованных/невокализованных фреймов в набор частотных полос или даже заменяет бинарное решение вокализованный/невокализованный на частотозависимые отношения [42], которые позволяют более качественно моделировать смешанные звуки. Такой подход реализован

Оценка правдоподобия последовательности наблюдений Правдоподобие последовательности наблюдений О вычисляется как сумма вероятностей по каждому из состояний множества Q, представленного моделью А: p(0|A) = ^ p ( 0 , Q | A ) = allQ (

1.24) = £>(0|Q,A)P(Q|A). allQ (

1.25) Предполагая, что наблюдения независимы получим: v{0\Q,\) т = \{p{ot\quX) = = W0l)-W02).....M0r). ^ ^ Вероятность последовательности состояний Q — [qi,q2, •••JQT], 1 < Qt < N определяется следующим в

Определение оптимальной последовательности состояний Алгоритм, применяемый для определения оптимальной последовательности состояний, аналогичен алгоритму «вперед». Вместо того, чтобы вычислять значение вероятности последовательности наблюдений между всеми возможными путями, выполняется определение вероятности для лучшего пути, т.е. последовательности состояний, максимизирующей вероятность последовательности наблюдений: р(0\Х) = m&X7vqibqi(o1)aqiq2bq2(o2)...aqT_iqTbqT{oT). allQ (

1

3 Обучение модели Проблема обучения модели заключается в определении параметров Л = ( Д J3,7r), максимизирующих вероятность вектора наблюдений О. Задача нахождения глобального максимума не имеет аналитического решения [132], однако существует итеративный алгоритм, который позволяет решить данную задачу с определенной точностью. Параметры моделей могут быть определены на основе двух подходов: алгоритм Витерби и алгоритм Баум-Велша, представленных в двух последующих разделах. (£ = Т - 1 , Т - 2

3.1 Определение параметров модели на основе алгоритма Витерби Как было сказано выше, определение параметров модели на основе алгоритма Витерби является итеративным подходом. В случае отсутствия начальных параметров, алгоритм начинает свою работу с равномерной сегментации обучающих данных, т.е. с равномерного разбиения сегментов между состояниями. Отсегментированные данные затем используются для оценки распределения характеристик bj(-) каждого состояния. Второй проход выполняется с пр