Всё сдал! - помощь студентам онлайн Всё сдал! - помощь студентам онлайн

Реальная база готовых
студенческих работ

Узнайте стоимость индивидуальной работы!

Вы нашли то, что искали?

Вы нашли то, что искали?

Да, спасибо!

0%

Нет, пока не нашел

0%

Узнайте стоимость индивидуальной работы

это быстро и бесплатно

Получите скидку

Оформите заказ сейчас и получите скидку 100 руб.!


Распознавание ключевых слов в потоке речи при помощи фонетического стенографа

Тип Реферат
Предмет Информатика и программирование
Просмотров
801
Размер файла
18 б
Поделиться

Ознакомительный фрагмент работы:

Распознавание ключевых слов в потоке речи при помощи фонетического стенографа

Распознавание ключевых слов в потоке речи при помощи фонетического стенографа

Пилипенко В.В.

Введение

В связи с все более активным использованием естественного интерфейса и в частности голоса, для общения с техникой возросло и значение аудиозаписи как носителя информации. Появилась потребность в системах, способных быстро и эффективно обслуживать аудиоархивы и находить нужную информацию в большом объеме записи. Для этой цели предложено использовать алгоритмы поиска ключевых слов в потоке речи.

Задачей поиска ключевых слов является нахождение заданных фрагментов (это могут быть отдельные слова или целые фразы) в потоке речи. Первоначально для задания фрагментов использовались отрезки произнесенной речи, при этом по нескольким произнесениям формировался эталон ключевого слова. Неудобство такого метода проявлялось в том, что для введения в систему нового ключевого слова необходимо заранее его произнести или вырезать из известного потока речи.

Современные алгоритмы поиска ключевых слов используют задание ключевых слов последовательностью фонем или других элементарных единиц. При этом может использоваться преобразователь графема-фонема в соответствии с правилами данного языка и тогда ключевое слово задается текстом слова или фразы, что значительно расширяет область применения такой системы.

Широкое применение получили алгоритмы, в которых для моделирования элементарных единиц уровня фонемы применяются скрытые Марковские модели (СММ). Для поиска ключевых слов используются те же подходы, что и для распознавания слитной речи.

Модификация касается способа задания слов, отсутствующих в словаре системы. Предложено два способа задания неизвестных слов:

Моделирование незнакомых слов произвольными последовательностями фонем.

Использование Гауссовской Смеси Моделей (Gaussian Mixture Model GMM) для моделирования фонового потока речи.

В данной статье рассматривается первый способ задания незнакомых слов. Для этого используется концепция фонетического стенографа [1,2].

1.Базовая система распознавания слитной речи

В данной работе используется инструментарий HTK [3] на основе скрытых Марковских моделей (CMM). При помощи инструментария НТК построены акустические и лингвистические модели системы. Для распознавания речи был разработан программный комплекс, совместимый с акустическими и лингвистическими моделями НТК.

1.1 Предварительная обработка речевого сигнала

Речевой сигнал преобразуется в последовательность векторов признаков с интервалом анализа 25 мс и шагом анализа 10 мс. Вначале речевой сигнал фильтруется фильтром высоких частот с характеристикой P(z) = 1-0.97 z-1. Затем применяется окно Хэмминга и вычисляется быстрое преобразование Фурье. Спектральные коэффициенты усредняются с использованием 26 треугольных окон, расположенных в мел-шкале, и вычисляются 12 кепстральных коэффициентов.

Логарифм энергии добавляется в качестве 13 - го коэффициента. Эти 13 коэффициентов расширяются до 39-мерного вектора параметров путем дописывания первой и второй разностей от коэффициентов, соседних по времени. Для учета влияния канала применяется вычитание среднего кепстра.

1.2 Акустическая модель

В качестве акустических моделей используются скрытые Марковские модели. 56 украинских контекстно-независимых фонем моделируются тремя состояниями Марковской цепи без пропуска. Используется диагональный вид Гауссовских функ¬ций плотности вероятности.

Редко встречающиеся фонемы моделируются 64 смесями Гауссовских функций плотности вероятности, более часто встречающиеся фонемы моделируются большим числом смесей, наиболее часто встречающиеся фонемы используют 1024 смеси.

Словарь транскрипций создается автоматически из орфографического словаря с использованием контекстно-независимых правил.

2. Акустическое и текстовое наполнение

2.1 Обучающая выборка

Обучение производилось на выступлениях депутатов Верховной Рады Украины, записанных через телевизионную сеть. Парламентская речь характеризуется некоторыми особенностями:

это спонтанная речь. Встречаются отдельные доклады, зачитываемые по подготовленному заранее тексту, однако мало дикторов в точности придерживается этого текста;

из-за ограничения во времени выступления многих дикторов произносятся в слишком быстром темпе.

Для обучения использовались записи длиной в 197 тыс. секунд, в которых встретилось около 427 тыс. слов. Всего было записано 287 дикторов.

Обучение производилось на предварительно размеченной выборке. Для этого запись выступления автоматически разбивалась на фразы из нескольких слов, ограниченные паузами больше 400 мсек. Среднее количество слов в одной фразе оказалось равным 5.

Каждой фразе оператором ставилась в соответствие метка в виде текста из стенограммы. Затем автоматически производилось преобразование текста в последовательность фонем в соответствии с контекстно-независимыми правилами украинского языка. Выборка, размеченная таким образом, использовалась для построения акустической модели.

2.2 Контрольная выборка

Распознавание производилось на выступлениях депутатов, записанных в отличные от обучающей выборки дни. Для распознавания использовались записи длиной в 42 тыс. секунд, в которых встретилось 94 тыс. слов. Всего использовались записи 152 дикторов. Записи 41 диктора не встретились в обучающей выборке. Таким образом, эти дикторы оказались неизвестными для системы распознавания.

2.3 Текстовый материал

Словарь был составлен из текстов стенограмм заседаний Верховной Рады Украины. С официального сайта Верховной Рады были загружены все стенограммы заседаний, начиная с 1991 года, что составило больше 100 МБ текста. Текст был модифицирован для того, чтобы убрать служебную информацию из стенограмм (на¬пример, аплодисменты), записать числа в текстовом виде, а также отделить русский текст от украинского.

3. Фонетический стенограф

Алгоритм фонетического стенографа позволяет строить последовательность фонем для речевого сигнала без использования какого-либо словаря. Для этой цели строится некоторая генеративная грамматика, которая может синтезировать все возможные модельные сигналы непрерывной речи для любой последовательности фонем. В рамках построенной модели строится алгоритм пофонемного распознавания для неизвестного сигнала. Используются те же контекстно-независимые модели фонем, как и в базовом распознавателе.

Рисунок 1 - Граф для произвольной последовательности фонем

Надежность найти фонему на правильном месте для известной реализации равна приблизительно 85%.

4. Результаты экспериментов по распознаванию ключевых слов в потоке слитной речи

Эксперименты проводились на описанной контрольной выборке.

Ключевые слова описывались последовательностью фонем заданной длины от 2 до 12 фонем. Для данной длины из словаря выбиралось 30 ключевых слов. К сожалению, для длин 2, 11 и 12 в тестовом корпусе не удалось выбрать достаточное количество записей, и в данном случае было выбрано около 20 ключевых слов. Всего было отобрано 309 ключевых слов.

Для каждого ключевого слова из тестового корпуса выбиралось от 15 до 100 записей фраз, в которые это ключевое слово обязательно входило. На данном материале подсчитывался процент ложного отказа (False Rejection) как доля случаев, когда ключевое слово не было распознано.

Кроме этого выбиралась выборка длиной в 1000 слов, в которую ключевое слово гарантированно не входило. На данном материале подсчитывался процент ложного срабатывания (False Alarm) как доля случаев, когда происходило срабатывание алгоритма распознавания ключевого слова.

Алгоритм содержит коэффициент, позволяющий регулировать соотношение между процентами ложного отказа и ложного срабатывания. Оптимальный коэффициент был выбран из условия минимума суммы этих процентов. При необходимости можно выбрать другое значение коэффициента, отдавая предпочтение тому или иному сценарию использования системы.

Таблица 1 - Надежность распознавания ключевых слов

Число фонем в ключевом слове

Процент ложного отказа

Процент ложного срабатывания

2

6.95

13.27

3

5.22

7.30

4

3.26

4.76

5

4.06

2.34

6

3.32

1.87

7

2.21

1.12

8

1.52

1.48

9

2.09

0.74

10

3.79

0.55

11

4.47

0.38

12

5.73

0.22

По всем длинам

3.67

3.02

В табл. 1 приведены результаты распознавания ключевых слов в зависимости от количества фонем в ключевом слове.

Оптимальное значение коэффициента зависит от длины слова, для более длинных слов его можно увеличить для получения лучших результатов.

Заключение

Статья описывает экспериментальную систему распознавания ключевых слов в потоке речи на основе фонетического стенографа. Проведены эксперименты по распознаванию. Коэффициент ложного отказа равен 3.67% при ложном срабатывании, равном 3.02%. Это позволяет надеяться, что данный алгоритм можно использовать в практических системах.

В дальнейшем предполагается рассмотреть комбинацию фонетического стенографа и модели фоновых слов в виде Гауссовской смеси моделей (Gaussian Mixture Model GMM).

Список литературы

Vintsiuk Taras K. Generalized Automatic Phonetic Transcribing of Speech Signals / Taras K. Vintsiuk // Труды Пятой Всеукраинской международной конференции «Оброблення сигналiв i зображень та розпізнавання образiв» / УАсО1РО. - Київ, 2000. - С. 95-98.

Пилипенко В.В. Використання фонетичного стенографа при розтзнаванш мовлення з великих словнишв / В.В. Пилипенко // Тезисы 12-й международной конференции «Автоматика - 2005». - Харьков, 2005. - С. 73.

The HTK Book / [S. Young, G. Evermann, D. Kershaw and others]. - Cambridge University Engineering Department, 2002.


Нет нужной работы в каталоге?

Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.

Цены ниже, чем в агентствах и у конкурентов

Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит

Бесплатные доработки и консультации

Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки

Гарантируем возврат

Если работа вас не устроит – мы вернем 100% суммы заказа

Техподдержка 7 дней в неделю

Наши менеджеры всегда на связи и оперативно решат любую проблему

Строгий отбор экспертов

К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»

1 000 +
Новых работ ежедневно
computer

Требуются доработки?
Они включены в стоимость работы

Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован

avatar
Математика
История
Экономика
icon
159599
рейтинг
icon
3275
работ сдано
icon
1404
отзывов
avatar
Математика
Физика
История
icon
156492
рейтинг
icon
6068
работ сдано
icon
2737
отзывов
avatar
Химия
Экономика
Биология
icon
105734
рейтинг
icon
2110
работ сдано
icon
1318
отзывов
avatar
Высшая математика
Информатика
Геодезия
icon
62710
рейтинг
icon
1046
работ сдано
icon
598
отзывов
Отзывы студентов о нашей работе
64 096 оценок star star star star star
среднее 4.9 из 5
Мпгу
Быстро, четко, исправлены поправки. Насчет качества работы узнаю после оценки
star star star star star
ГАПОУ МО МонПК
Работа выполнена быстро, и очень хорошо. Очень рекомендую Алину как исполнителя для ваших ...
star star star star star
МИП
Огромное спасибо, Виктория. Все выполнено быстро, качественно, всегда на связи. Уточнения ...
star star star star star

Последние размещённые задания

Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн

Выполнить контрольную работу по Теоретической механике. М-08023

Контрольная, Теоретическая механика

Срок сдачи к 30 дек.

только что

Практическое задание

Другое, Организация рекламной и PR-деятельности

Срок сдачи к 2 янв.

1 минуту назад

Лабораторная

Лабораторная, технология конструкционных материалов

Срок сдачи к 1 янв.

3 минуты назад

Тестирование по психологии

Тест дистанционно, Психология и педагогика

Срок сдачи к 31 дек.

3 минуты назад

создание ролика

Другое, Право

Срок сдачи к 25 дек.

4 минуты назад

Контрольная, Логика

Контрольная, Логика

Срок сдачи к 27 дек.

4 минуты назад

1. решить файл перечень заданий exel

Решение задач, Информационные технологии

Срок сдачи к 28 дек.

4 минуты назад

Пересечение криволинейных поверхностей плоскостью треугольника АВС

Решение задач, Начертательная геометрия

Срок сдачи к 10 янв.

6 минут назад

Решить задачу

Решение задач, Теоретическая механика

Срок сдачи к 26 дек.

7 минут назад

выполнить задания

Решение задач, Актуальные проблемы права интеллектуального собственности

Срок сдачи к 28 янв.

8 минут назад

Химия

Презентация, Химия

Срок сдачи к 25 дек.

8 минут назад

Нужен визуалмейкер для моих фоток

Другое, Фотография

Срок сдачи к 18 февр.

9 минут назад

Органихзация рекламного агенства

Другое, Организация рекламной и PR-деятельности

Срок сдачи к 2 янв.

10 минут назад

Тема: имидж современного руководителя

Курсовая, менеджмент сфере культуры и искусства

Срок сдачи к 26 дек.

11 минут назад

Практика в уголовном розыске

Отчет по практике, Уголовный процесс

Срок сдачи к 26 дек.

11 минут назад

Нужно решить 30 тестов по экономике

Тест дистанционно, Экономика

Срок сдачи к 5 февр.

11 минут назад

президент рф

Реферат, Основы российской государственности

Срок сдачи к 25 дек.

11 минут назад

Практическая работа по дисциплине «Информационное обеспечение логистических процессов»

Другое, Операционная деятельность в логистике

Срок сдачи к 26 дек.

11 минут назад
planes planes
Закажи индивидуальную работу за 1 минуту!

Размещенные на сайт контрольные, курсовые и иные категории работ (далее — Работы) и их содержимое предназначены исключительно для ознакомления, без целей коммерческого использования. Все права в отношении Работ и их содержимого принадлежат их законным правообладателям. Любое их использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие в связи с использованием Работ и их содержимого.

«Всё сдал!» — безопасный онлайн-сервис с проверенными экспертами

Используя «Свежую базу РГСР», вы принимаете пользовательское соглашение
и политику обработки персональных данных
Сайт работает по московскому времени:

Вход
Регистрация или
Не нашли, что искали?

Заполните форму и узнайте цену на индивидуальную работу!

Файлы (при наличии)

    это быстро и бесплатно