Разработка алгоритмов для распознавания речи тема автореферата и диссертации по физике, 01.04.13 ВАК РФ
У Вэньцань
АВТОР
|
||||
кандидата технических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
1999
ГОД ЗАЩИТЫ
|
|
01.04.13
КОД ВАК РФ
|
||
|
ВВЕДЕНИЕ.
В. 1. Общие замечания.
В.2. Обзор развития распознавания речи.
В.З. Цель и задачи диссертации.
ГЛАВА 1. Отделение крайних моментов изолированного слова
1.1. Общие сведения.
1.2. Примеры проблем в определении крайних моментов слова
1.3. Алгоритм определения крайних точек слова.
1.4. Результаты испытания.
1.5. Выводы.
ГЛАВА 2. Анализ линейного предсказания.
2.1. Постановка задачи.
2.2. Принцип анализа линейного предсказания.
2.3. Уравнения предсказания.
2.4. Алгоритм Дарбина.
2.5. Выбор порядка р и числа выборок фрейма N.
2.6. Кепстр
2.7. Применение кепстра к распознаванию речи.
2.8. Испытания.
2.9. Выводы.
ГЛАВА 3. Система распознавания изолированных слов на основе трансформации временного масштаба.
3.1. Постановка задачи.
3.2. Общие сведения.
3.3 Алгоритм трансформации временного масштаба.
3.4. Метрика расстояния речевых образов.
3.4.1. Евклидово расстояние.
3.4.2. Взвешенное кепстральное расстояние.
3.4.3. Метрики расстояния для коэффициентов ЛП.
3.5. Две распознающих системы ТВМ.
3.6 Результаты испытания.
3.7 Выводы.
ГЛАВА 4. Векторное квантование.
4.1. Общие сведения
4.2. Основное положение ВК.
4.3. Алгоритм LBG.
4.4. Два метода установки начальной кодовой книги.
4.5 Результаты испытания.
4.6. Выводы.
ГЛАВА 5. Скрытая марковская модель.
5.1. Общие сведения.
5.2. Определение модели НММ.
5.3. Оценивание параметров модели НММ.
5.4. Вычисление Ру[а,А,В].
5.5. Оценка самой вероятной последовательности состояний.
5.6. Типы модели НММ.
5.7. Конкретные проблемы вычисления НММ.
5.7.1. Масштабирование.
5.7.2. Проблема начальных значений.
5.7.3. Множественные последовательности наблюдений.
5.8 Система распознавания речи на основе НММ.
5.9. Выводы.
В.1. Общие замечания
Цель исследования по распознаванию речи состоит в понимании человеческого языка ЭВМ. Причем слово "понимание" имеет два значения. Первое - пословное преобразование устной речи в соответствующий письменный текст. Второе - правильная реакция на высказывание, содержащее в себе требование или справку диктора. Сочетанием распознавания речи с ее синтезом можно строить систему общения между человеком и машиной. Мотив интенсивного исследования по распознаванию речи в сферах промышленности, науки и обороны возник в связи с быстрым развитием информационной индустрии, охватывающей компьютеры, автоматизацию офиса, связь, оборону и робототехнику. Следующие примеры показывают некоторые применения распознавания речи.
• Фонетическая пишущая машинка: вместо клавиш используется голос для ввода письменного текста в компьютер и его распечатка на бумаге - давняя мечта человека. Это приведет офис к существенному обновлению и освободит типографских работников от трудоемкой работы.
• Связь: одна из ведущих коммуникационных компаний США и мира -фирма AT&T, длительно проводит интенсивное исследование распознавания речи, так как эту технику можно широко применить в области связи. Например, часто нужна идентификация кредитных карточек. Речь идет о том, что когда магазин получил карточку, для утверждения ему надо сообщать работнику банка номер карточки и денежную сумму. Работник банка, в свою очередь, вводит эти данные в компьютер и сообщает обратно магазину информацию, показанную на экране компьютера. Ввиду большой частоты этой работы, система связи между человеком и машиной помогает эффективно сэкономить рабочие силы. Другой более амбициозный план в отрасли связи - реализация непосредственной международной коммуникации на двух разных языках. То есть прямое преобразование одного языка в другой язык с помощью процесса "распознавание речи - перевод машиной -синтез речи". Некоторые японские и европейские исследовательские организации разрабатывают подобное направление.
• Поиск в базе данных: военным организациям, государственным учреждениям, исследовательским институтам, банкам, биржам и управлению промышленностью и т.д. нужны частые поиски информации в огромных базах данных. Причем многие запросы выполнены по телефонам. Техника распознавания речи освобождает людей от повторных работ и позволяет потребителям быстрые поиски.
• В специальной ситуации задание инструкции машине выполняется только с помощью речи, например, когда все руки и ноги оператора заняты другими работами, и также в случаях слабого освещения, механической вибрации и т.д. Понятно, что прибор распознавания речи оказывает также большую помощь слепым.
Оттого, что системы распознавания речи применяются в разных отраслях, их характеристики резко отличаются. Эти отличия изложены ниже.
1) Объем словаря
Каждой системе распознавания речи необходимо иметь словарь. Она может распознавать лишь такие слова, которые содержатся в словаре. Чем больше словарь, тем труднее реализация системы. Сложность заключается в двух аспектах. А) чем больше словарь, тем больше похожих слов. Так как трудно отличать похожие слова, частота ошибок будет увеличиваться. Б) затраты вычислительных ресурсов на поиск резко возрастают с увеличением числа слов. Сейчас, как правило, разделяют словари на три категории по объемам. Словарь меньше 100 слов - небольшой; 100 - 500 слов - средний. Больше 500 слов - большой.
2) Образ речи
Технику распознавания речи можно разделить на три типа: изолированное слово, связанное слово и слитная речь. Для изолированного слова диктор каждый раз произносит одно слово или словосочетание или одну инструкцию системе распознавания речи. Причем каждое словосочетание или инструкция считается единым целым словом. Распознавание связанных слов означает распознавание многозначных чисел, состоящих из специфических чисел (обычно 0 ~ 9), иногда дополненных оперативными инструкциями. Таким образом, словарь включает в себя эти 10 чисел и несколько инструкций. Система распознавания связанных слов находит применение в телефонной связи, в поисках в базе данных и в системах управления. Под распознаванием слитной речи понимают то, что диктор говорит естественным образом, и затем высказывание распознается. Очевидно, что степень трудности этих трех типов распознавания возрастает.
3) Объект обслуживания
Система распознавания речи может ориентироваться лишь на одного пользователя, например, фонетическую пишущую машинку для назначенного человека. Этот способ работы считают зависимым от диктора. Если система ориентируется на любого человека, тогда она считается независимой от диктора. Такая система применяется в таких областях, как телефонное обслуживание и поиск в базе данных. Очевидно, что реализация последнего типа намного труднее, чем предыдущего.
4) Задача распознающего устройства
В такой задаче, как речевая распечатка, устройства распознавания требуются, чтобы правильно преобразовать высказывания в письменный текст. С другой стороны, системы справки, поиска и управления должны правильно реагировать на требования пользователя. В этом случае в высказывание пользователя обычно входят лишние слова, однако, системе нужно распознавать только ключевые слова. Эта техника называется выделением ключевых слов (keyword spotting).
5) Качество речи
Эта проблема зависит от шума окружающей среды и отчетливости речи. Результаты распознавания будут хорошо получаться, когда система работает в тихой среде. Но эффект распознавания, как известно, сильно снижается с ухудшением качества речи на входе. В этом случае система должна адаптироваться к речи плохого качества.
6) Ширина сферы применений и синтаксическое ограничение
Когда система распознавания применяется в одной отрасли, тогда можно ограничить не только ее объем словаря, но и синтаксические ограничения могут быть строгими. Эти ограничивающие условия позволяют упрощать распознавание. В противном случае, если сфера применений широка, то ограничения синтаксиса будут нестрогими, и поэтому распознавание станет гораздо труднее.
Распознавание речи машиной в ограниченном и строгом смысле можно считать проблемой преобразования форм речевых сигналов в слова. Это требует анализа речевых сигналов, преобразования сигналов в такие элементарные речевые единицы, как фонемы или слова, и интерпретации преобразованной последовательности, чтобы позволить исправление неверных распознанных слов или единиц, либо для такой лингвистической обработки, как понимание речи и синтаксический анализ.
Прежде чем приступить к описанию конкретных задач нашей темы, целесообразно совершить небольшой экскурс в развитие этой области.
В.2. Обзор развития распознавания речи В.2.1. Краткая история исследования
Исследование автоматического распознавания речи машиной началось почти четыре десятилетия назад. Самые ранние попытки изобретения системы для автоматического распознавания речи были сделаны в 1950-ых годах, когда различные исследователи пробовали использовать фундаментальные идеи акустической фонетики. В 1952 г. в Bell Laboratories Davis, Biddulph и Balashek построили систему распознавания изолированных цифр для единственного диктора[2]. Эта система в высшей степени основывалась на измерении спектральных резонансов гласных звуков каждой цифры. В 1956 г. независимо в лабораториях RCA Olson и Belar пробовали распознавать 10 отдельных слогов единственного диктора, содержащихся в 10 односложных словах[3]. Эта система тоже в основном опирались на спектральные измерения гласных звуков, которые обеспечивались блоком аналоговых полосовых фильтров. В 1959 г. в University College в Англии Fry и Denes пробовали сделать устройство распознавания фонем, позволяющее распознавать четыре гласные и девять согласных[4]. Они использовали спектральный анализатор и согласователь образов для принятия решения о распознавании. Новый аспект этого исследования был использованием статистической информации о всевозможных последовательностях фонем английского языка (как элементарная форма синтаксиса языка), чтобы улучшить всеобщую точность фонемы для слов, состоящих из двух или больше фонем. Другое усилие в этот период заключалось в устройстве распознавания гласных американцами Forgie и Forgie, созданном в MIT Lincoln Laboratories в 1959 г., в котором 10 гласных, содержащихся в формате "/Ь/-гласный-/1/", были распознаны зависимо от диктора [5]. Еще раз анализатор блока полосовых фильтров использовали для обеспечения спектральной информации, и зависимая от времени оценка резонансов голосового тракта была проведена, чтобы решить, какой гласный говорили.
В 1960-ых годах несколько фундаментальных идей о распознавании речи появились и были опубликованы. Однако это десятилетие началось в то время, когда несколько японских лабораторий создавали аппаратное средство специального назначения в составе системы. Одна ранняя японская система, описанная Suzuki и Nakata, лаборатории исследования радио в Токио[6] была аппаратным средством распознавания гласных. Спектральный анализатор блока полосовых фильтров использовался наряду с логическим устройством, которое соединило выходы каждого канала спектрального анализатора к подсистеме решения, чтобы выбрать гласный в качестве результата распознавания. Другая работа по аппаратным средствам в Японии была работой Sakai и Doshita Университета Киото в 1962 г., где построили аппаратное устройство распознавания фонем[7]. Для получения выхода распознавания, аппаратное устройство сегментации речи использовалось вместе с анализом переходов через нуль различных частей входного сигнала. Третья японская работа была аппаратным средством распознавания цифр Nagata и его коллег в Лабораториях NEC в 1963 г.[8]. Эта работа была наиболее известна как начальная попытка распознавания речи в NEC и привела к длинной и высоко производительной программе исследования.
В 1960-ых годах три ключевых исследовательских проекта были введены в действие, которые оказали главное влияние на исследование и развитие распознавания речи в течение прошлых 20 лет. Первый из этих проектов был работой Мартина и его коллег в Лабораториях RCA, которая началась в конце 1960-ых годов с целью нахождения реалистических решений проблем, связанных с неравномерностью масштаба времени речевых сигналов. Мартин разработал несколько элементарных методов нормировки времени, основанных на способности надежного поиска начала и конца речи, которые намного уменьшили вариацию точности распознавания[9]. В то время советский ученый Винцюк предложил методы динамического программирования, для того чтобы выравнивать временные масштабы пары речевых сигналов [10]. Хотя сущность концепций динамического деформирования времени, так же как элементарные алгоритмы для распознавания связанных слов, заключаются в работе Винцюка, они были в значительной степени неизвестны на Западе и стали заметными только в начале 1980-ых годов, когда более формальные методы уже давно были предложены и осуществлены другими людьми.
Последним достижением техники распознавания речи в 1960-ых годах было исследование распознавания непрерывной речи американцем Reddy путем динамического слежения фонем[11]. Работа Reddy в конечном счете привела к длительной и успешной программе исследования распознавания речи в Университете Carnegie Melon (CMU) США. Одна из первых демонстраций понимания устной речи в CUM имела место в 1973 году. Система распознавания речи, так называемая Hearsay I, могла использовать семантическую информацию, так что количество альтернатив, выбираемых устройством распознавания, значительно уменьшилось. Пока еще мало таких систем, которые эффективно демонстрируют функцию семантики для упрощения сложности поиска. Однако принцип, по которому синтаксические, семантические и контекстные источники знания должны использоваться с целью уменьшения количества альтернатив для решения при распознавании, видимо, является центром внимания для проектирования системы распознавания устной речи.
В 1970-ых годах исследования распознавания речи привели к нескольким замечательным успехам. Сначала техника распознавания изолированных слов стала перспективной и практической, основанной на фундаментальных учениях Величкина и Загоруйка в Советском Союзе[12], Sakoe и Chiba в Японии[13] и Itakura в Соединенных Штатах[14]. Советские ученые распространили понятия распознавания образов на область распознавания речи. Японское исследование показало, как методы динамического программирования могут успешно применяться. Работа Itakura показала, как идеи линейного предсказания (ЛП), которые уже успешно использовались для кодирования речи с низкой скоростью передачи битов, можно расширить на системы распознавания речи с соответствующей метрикой расстояния, основанной на спектральных параметрах ЛП.
Другим важным событием в 1970-ых годах было введение в действие продолжительного успешного исследования автоматической диктовки речи с большим словарем группой фирмы IBM, где построили распознающую систему под названием Tangora[15].
Наконец, в Лабораториях Bell фирмы AT&T исследователи начали ряд экспериментов с целью создания систем распознавания речи, которые были совершенно независимы от диктора[16] для телекоммуникационных применений. Главное применение было намечено в области услуг телекоммуникации, где люди ведут диалоги с машиной, для того чтобы соединить телефоны, либо заказать такси или авиационные рейсы и т.д. Для достижения этой цели разрабатывалось большое количество сложных алгоритмов, чтобы система справлялась с разновидностями как различных слов, так и различных выражений среди многочисленных пользователей. Эти методы непрерывно совершенствовались в течение более десятилетия, так что методы для создания модели речи, независящей от диктора, теперь хорошо изучены и находят широкое применение.
Так же как распознавание изолированных слов было в центре исследований в 1970-ых годах, проблема распознавания связанных слов стала в центре исследований в 1980-ых годах. Цель состоит в создании робастной системы, которая может распознать свободно произносимый поток слов (например, цифры), основываясь на согласовании соединенных образов индивидуальных слов. Многочисленные алгоритмы распознавания связанных слов были разработаны, в том числе подход динамического программирования двух уровней Sakoe в NEC[17], метод одного прохода Bridle и Brown в Англии[18], подход построения уровней Myers и Rabiner в Bell Labs[19] и способ построения уровней с синхронизацией фреймов Lee и Rabiner в Bell Labs[20]. Каждая из этих "оптимальных" процедур согласования имела свое собственное преимущество для разного применения, которое было разработано для конкретной задачи.
Исследование речи в 1980-ых годах характеризуется переходом от основанных на эталонах подходов к методам статистического моделирования, в частности к методу скрытой марковской модели НММ (Hidden Markov Model)[21,22],
В 1980-ых годах успехи применения скрытой марковской модели (НММ) оказывали сильное влияние на развитие системы распознавания слитной речи с большим словарем, разработанной группой под названием Оборонное агентство по передовым проектам исследования (DARPA)[23] США. Главный вклад исследований исходит из усилий CMU (известная система SPHINX)[24], BBN (BYBLOS система)[25], Лабораторий Lincoln [26] и Лабораторий Bell фирмы АТ&Т[27] и других. Программа DARPA продолжается в 1990-ые годы, и ее главная работа перешла от информационно-поисковых служб в авиации к различным сферам применений понимания речи. Между тем, технология распознавания речи все больше и больше применяется в традиционных телекоммуникационных сетях для автоматизации и улучшения услуг операторов [28].
B.2.2. Переход от анализа речи к статистическому моделированию
До 1970-ых и 1980-ых годов, автоматическое распознавание речи в целом считалось проблемой анализа речи. Фундаментальная мысль заключалась в том, что если существует подходящий метод анализа, который может надежно идентифицировать звук речи, то распознавание речи будет легко реализоваться. Этот взгляд может быть пригодным в микроскопическом смысле, но он не учитывает макроскопический вопрос о том, как устройство распознавания должно быть разработано, чтобы в среднем оно достигло наименьших ошибок. Аналогично, техника эталонных согласований в большинстве практических систем без подходящего статистического основания не может дать строгого ответа на этот вопрос, который был лучше изучен теорией байесовского решения.
Теория байесовского решения
Теорию байесовского решения применяют к состоящим из М классов событий случайным наблюдениям из информационного источника, где цель состоит в принятии такого решения, к какому классу событий относится наблюдение. Пусть совместная вероятность наблюдения X и класса
C,.,Р(Х,С,), известна. Другими словами, мы имеем полные сведения о статистическом свойстве источника. При испытании характеристики классификатора, для каждой пары классов (./',/) функция стоимости или потери еп определена, чтобы показать стоимость классификации (или распознавания) наблюдения события из класса / в класс ]. Функция потери вообще неотрицательна, и еа = 0 представляет правильную классификацию.
При заданном произвольном наблюдении X условную функцию потери для классификации события X в класс i можно определять в виде:
C||*)=Z <Acj\*)> О) м где p(cjz) есть апостериорная вероятность. Отсюда следует рациональное измерение характеристики классификатора, т.е. ожидание потерь, которое определяется следующим образом:
L = jR{c(X]x)p(X)dX, (2) где с(х) представляет решение классификатора, которое принимает значение из совокупности М элементов CVC2,.,CM.
Для распознавания речи функция потери eip как правило, принимает ЗНачеНИЯ ЛИбо 0, Либо 1, Т.е. =0 При i = j И е,. =1 При i?t j,ij = 1,2.м.
Иначе говоря, не присваивают потери правильной классификации и присваивают единичную потерю любой ошибке независимо от класса. Таким образом, при этом типе функции потери ожидание потерь L является вероятностью погрешности классификации или распознавания. Условная потеря принимает вид:
3)
Оптимальный классификатор, достигающий минимума функции L, является таким, который удовлетворяет следующему условию: с(х) = с, если p(c,.|z)=maxp(cy|x). (4)
Другими словами, для классификации минимальной частоты ошибок классификатор воспользуется правилом решения (4), которое называется максимальным апостериорным решением (MAP). Минимальная ошибка, достигнутая решением MAP, называется байесовским риском.
Требуемое знание для оптимального решения классификации является апостериорными вероятностями для выполнения правила MAP. Эти вероятности, однако, не известны заранее и обычно вынуждены быть оценены из набора обучающих данных с известными маркерами класса. Таким образом, теория байесовского решения эффективно преобразует проблему проектирования классификатора в проблему оценки распределения. Она лежит в основе статистического подхода к распознаванию образов.
Апостериорную вероятность P(c,.|z) можно переписать следующим образом:
Поскольку Р(х) независима от индексов класса, и тем самым, не играет роли в решении MAP, требуемое вероятностное знание может быть представлено априорной вероятностью Р(С,) и условной вероятностью
Вероятностные распределения речи
Статистический метод, как рассмотрено выше, требует того, чтобы подходящая, обычно параметрическая форма распределения для наблюдений была выбрана для принятия решения по правилу максимума апостериорной вероятности. Ключевой вопрос состоит в том, какая форма распределения для речи правильна? Этот вопрос касается двух основных сторон: а) Нахождение признаков речи, которые содержат в себе наиболее присущую лингвистическую информацию. б) Определение оптимальной статистической характеристики, содержащейся в признаках информации.
Основываясь на эмпирических наблюдениях, теория НММ была предложена[22,29,30] в качестве простого способа характеристики речевых сигналов.
В.2.3. Развитие теории НММ
Статистический метод скрытого марковского моделирования (НММ) для распознавания речи состоит из несколько проблем, в частности проблемы оценки[21,31,32,33]. При заданной последовательности наблюдений (или наборе последовательностей) X, задача оценки заключается в нахождении рациональных параметрических значений модели, определяющих исходную модель (распределения вероятностей), так чтобы она наиболее вероятно произвела данную последовательность наблюдений. При решении проблемы оценки мы обычно используем метод максимального правдоподобия (ML), т.е. выбираем такую модель Л, чтобы вероятность р{х\л) имела максимум для заданной обучающей последовательности X.
Нескольких главных результатов добились с тех пор, как Baum[31] предложил первоначальную идею НММ. Работа Baum позволяет получить оценку параметров, связанных с дискретной моделью НММ (т.е. той моделью, в которой распределение вероятностей наблюдения в каждом марко-ском состоянии является дискретным.), или с моделью НММ непрерывных плотностей вероятности, где плотность вероятности в каждом состоянии удовлетворяет предпосылке логарифмической вогнутости. Это накладывает серьезное ограничение на эту по сущности мощную технику моделирования, поскольку, чем больше выбранная форма распределения отклоняется от формы истинного распределения, тем менее вероятно достигается байесовская оптимальная характеристика. В 1982 г. Liporace [32] расширил класс модели НММ, который можно оценить алгоритмом переоценки, на эллиптически симметричные плотности. В 1984 г. Juang [33] (вместе с Levenson и Sondhi[34]) успешно устранили эти предпосылки и ограничения на форму распределения и показали метод для оценки модели НММ смесью плотностей, который позволяет оценке произвольно приближаться к истинному распределению данных. Этот прогресс придал НММ устойчивую основу для применения в качестве распределения вероятности речи при построении системы статистического распознавания. НММ смеси плотностей с тех пор стал распространенным методом моделирования речи и используется в большинстве систем распознавания речи.
В.2.4. Проблема поиска
На самом деле скрытая марковская модель представляет собой автомат с конечным числом состояний и образует мощную комбинацию при объединении с цепями конечного числа состояний, чтобы описать язык (от фонем до слов и до грамматик, которые определяют отношения последовательности слов), в частности, для системы распознавания непрерывной речи с большим словарем[35,36]. Такие сети (цепи) часто очень велики, и поэтому важно найти методы эффективного поиска, которые оценивают правдоподобие того, что путь в такой обширной сети произвел наблюдаемый речевой сигнал, и затем находят лучший среди всех возможных путей.
На раннем этапе развития распознавания речи методы динамического программирования (ДП)[17-19] были в центре изучения. С развитием моделирования НММ основная техника ДП теперь часто называется алгоритмом Viterbi[l].
Для решения проблем распознавания непрерывной речи с большим словарем часто используют следующие методы. Один называется поиском бруса (beam search)[37], который удаляет маловероятные события из поискового списка для повышения эффективности, и другой алгоритмом стека (stack algorithm)[38], который в первую очередь пытается найти лучший путь.
В.2.5. Моделирование языка
Как цель акустического моделирования состоит в нахождении закономерностей образования слов и фраз, так цель моделирования языка, в свою очередь, заключается в том, чтобы найти и представить соотношения между словами в предложении. Традиционно отношения слов характеризуются грамматикой (например, [39]). Теория информации Шеннона дала новую перспективу для моделирования языка, где соотношения между словами в последовательности описываются условными вероятностями. Если Ш является последовательностью слов тогда = Р(щм>2 ■■•м>в)= Р(м>х )р(м?2|м>,)ф3)''• Н™вК-1"'''')■ Совокупность условных вероятностей (часто обрезанных до длины Л/, р{ме\м>егУ ■••м'еЛГ+1), так называемая Ы-грам) образует вероятностную модель языка. Параметры условных вероятностей могут быть оценены, исходя из большого набора текстовых или обучающих данных посредством таких методов, как обучение максимального правдоподобия[15]. Это соответствует моделированию языка статистической грамматикой с конечным числом состояний, которую можно эффективно применить на практике. Если модель была хорошо обучена, то неграмотные предложения имели меньшие вероятности, чем грамотные.
Статистическая модель языка показывает эффективность при распознавании речи с большим объемом словаря. Однако, ее соотношение с акустической моделью в свете общей точности преобразования речи в текст пока еще слабо изучается.
В.2.6. Проблема робастности
Статистический подход к распознаванию речи сильно зависит от обучающих данных, использованных для создания эталонных моделей. Чем ближе собранные обучающие данные к фактическому сигналу при распознавании, тем выше ожидается точность результата. Изменчивость речи, однако, вызывается из-за многих факторов, и их настолько много, что только в редких случаях количество собранных данных о речи надежно считают достаточным. То, что распознающее устройство, разработанное на основе набора данных в лаборатории, работает хуже в поле, встречается нередко. Другими словами, несоответствие между моделированием (обучением) и действием (тестом) обычно существует и вызывает ухудшение характеристики распознавания[40].
Кроме несоответствия, несколько неблагоприятных факторов часто существуют, такие как шум окружающей среды и передачи, искажения из-за акустики комнаты и датчиков; характеристика речи изменяется даже из-за психологического фактора дикгора[40]. Эти условия нужно учитывать при создании распознающего устройства для достижения надежных результатов. Это называется проблемой робастности в автоматическом распознавании речи.
Один метод, который может достигать робастных результатов, состоит в том, чтобы собрать чрезвычайно большое количество данных, отражающих фактические условия работы устройства распознавания. На основе подходящего набора данных показывает эффективность множественное обучение[41]. Когда искажение главным образом линейно, кепстральная компенсация путем вычитания кепстрального среднего[42] и удаления кепстрального отклонения[43] проста и работает хорошо. В настоящее время новыми достижениями робастного распознавания речи можно считать комбинацию параллельных моделей[44], максимальную апостериорную адаптацию[45,46] и стохастическое согласование[47].
Несмотря на эти успехи, сегодня проблема робастности все еще остается областью активного исследования распознавания речи.
В.2.7. Другие достижения
Хотя переход к статистическим методам положил устойчивое математическое основание исследованию распознавания речи, он также показал ограничение нашего знания при стремлении к байесовской минимальной ошибке. Напомним, что оптимальная характеристика системы распознавания в отношении частоты ошибок может достигаться только в таком случае, когда имеются полные и точные сведения о совместном распределении наблюдения и класса. На самом деле распределение может быть только приближенным, и тем самым подход оценки распределения не может гарантировать никакой оптимальности. Для того, чтобы преодолеть эту проблему с целью получения лучшей точности при определенной форме структуры (или функции распределения) устройства распознавания, метод минимальной классификационной погрешности с помощью алгоритма обобщенного вероятностного падения (generalized probabilistic descent algorithm)[30,48] оказался крайне эффективным и полезным для распознавания речи. Этот процесс известен как различительное обучение.
Другим важным методологическим достижением является адаптивное обучение. Адаптация параметров системы необходима в следующих случаях:
1) Зависимая от диктора система, обученная одним диктором, используется другим диктором.
2) Независимая от диктора система должна улучшать свою характеристику для определенного диктора.
3) Система должна приспособиться к операционной окружающей среде, и тем самым демонстрировать высокую робастную работу.
4) Зависимая от диктора система должна регулировать себя по изменению речевой характеристики диктора.
Максимальную апостериорную формулировку предложили как рамку исследований[45,46]. Это направление тоже относится к области активного изучения в настоящее время.
В.З. Цель и задачи диссертации
Основываясь на обзоре темы, был разработан план диссертации. Задача диссертации заключается в распознавании изолированных слов, независимом от диктора. Соответственно мы выбираем слово в качестве эталонной единицы. Для опытного исследования можно принимать цифры и управляющие команды как распознаваемые слова. В ходе исследовательской работы были разработаны две распознающих системы. Одна основывается на анализе ЛП и на алгоритме динамического программирования, называемого трансформацией временного масштаба. Другая опирается на анализ ЛП, на векторное квантование и на теорию скрытой марковской модели (НММ). В обоих случаях, прежде чем приступать к обработке необходимо определить начальную и конечную точки распознаваемого слова с помощью соответствующего алгоритма, который был специально разработан. Этот алгоритм отделения крайних точек слова использует две основных характеристики речевого сигнала для принятия решения: кратковременную энергию и число переходов через нуль.
Теперь кратко опишем первый метод распознавания речи. Рис. 1 показывает блок-схему этой системы. Речевой сигнал в первую очередь оциф
Рис. 1 Структурная схема системы распознавания речи, основанной на анализе ЛП и алгоритме трансформации временного масштаба ровывается звуковой карточкой. После отделения крайних точек речевой сигнал поступает в блок предварительной обработки, где цифровой фильтр первого порядка проводит предыскажение высоких частот входного сигнала для образования ровного спектра. Предыскаженный сигнал разбивается на фреймы длительности 20 мс путем умножений на окно Хэмминга, смещенные на 10 мс между собой. Каждый фрейм данного слова подлежит анализу ЛП автокорреляционного метода, чтобы создать тестовый образ. Данный тестовый образ сопоставляется с каждым из предварительно внесенных в память эталонных образов, используя алгоритм трансформации временного масштаба, который дает значение расстояния между двумя образами. В зависимости от используемых признаковых векторов принимается соответствующая метрика расстояния. В случае признаковых векторов коэффициентов ЛП используют расстояние Итакура, а в случае кеп-сральных векторов используют евклидово расстояние с кепстральным окном. Наконец система выбирает то слово, эталон которого имеет минимальное расстояние относительно входного образа, как результат решения. Следует отметить, что эталонные образы для системы распознавания строятся посредством алгоритма обучения.
Рис.2 Структурная схема системы распознавания слов НММ с анализом ЛП и векторным квантованием.
Рис.2 иллюстрирует структурную схему второй распознающей системы НММ. Дискретизация речевого сигнала, предварительная обработка, разбиение на фреймы и анализ ЛП одинаковы с теми, которые использовались в первом методе. В связи с содержанием значительной информации в кепстре кепстральные векторы используются в данной системе как признаковые векторы речи. Их получают из коэффициентов ЛП, и при этом они взвешены кепстральным окном. Функция векторного квантователя состоит в сведении признаковых векторов слова к последовательности наблюдений {о}, состоящей из индексов кодовых векторов, которые наилучшим образом согласуются с соответствующими кепстральными векторами слова. Создание кодовой книги осуществляется алгоритмом ЬВО на основе довольно большого количества (у нас 12381) обучающих кепстральных векторов, которые получились из произношений распознаваемых слов. Размер кодовой книги может принимать 64 ~ 256 кодовых векторов. В согласии с кепстральными векторами используется евклидово расстояние в качестве метрики погрешности. Установка начальных значений кодовой книги реализуется методом расколов. Теперь вернемся к описанию процесса распознавания. После получения последовательности наблюдений {о} алгоритм оценки УйегЫ, подобный динамическому программированию, определяет поочередно вероятность появления данной последовательности наблюдений по каждой модели НММ в эталонной базе, которая заранее была внесена в память. Блок "правило решения" выбирает то слово, модель которого имеет наибольшую вероятность, как распознанное слово. Каждая модель НММ состоит из матрицы переходов состояния А и матрицы В распределений вероятностей наблюдаемых индексов во всяком состоянии. Число состояний в общем случае есть 5 ~ 8, а число индексов должно совпадать с размером кодовой книги. Для применения этой модели в распознавании речи необходимо накладывать некоторые ограничения на переходы состояния модели. Для того чтобы получить обучающий набор каждого распознаваемого слова, соответствующее слово было произнесено несколько раз. Модель НММ для каждого слова оценивается на основе полученного обучающего набора. Перед формальной оценкой модели НММ слова, проводится предварительная оценка посредством кластерного алгоритма под названием "K-среднее". Затем, основываясь на предварительной оценке модели, вычисляется вероятность Р происхождения заданной обучающей последовательности {о} при заданной начальной модели. При помощи алгоритма переоценки Baum-Weich, модель итерационно регулирует себя так, чтобы Р увеличивалась. Итерационное вычисление прекратится, либо когда скорость роста Р становится незначительной, либо когда число итераций превысит установленный предел.
Речевой сигнал сам по себе является случайным процессом. Второй метод вносит его в теорию математической статистики, поэтому его сущность имеет широкую перспективу развития. В настоящее время исследование распознавания речи, как правило, основываются на теории НММ.
Актуальность темы. Как указано в начале введения, распознавание речи может быть широко использовано в таких областях, как автоматизация офиса, связь, робототехника, поиск информации и т.д. Уровень современных аппаратных средств дает возможность реализации распознавания речи в реальном масштабе времени на обычном компьютере. Поэтому по мере быстрого развития информационной индустрии требования к распознаванию речи становятся все более сильными. Учитывая изложенное выше, тема диссертации является актуальной.
Научная новизна. Осуществлены комплексное решение задач распознавания речи и его реализация на персональном компьютере. При этом получены следующие новые результаты: основываясь на представленном L. R. Rabiner и его коллегой алгоритме определения крайних точек речи, представлен его усовершенный вариант; поставлена и решена задача извлечения признаковых векторов речевого сигнала для распознавания; получены экспериментальные данные при распознавании изолированных слов для систем, основанных на алгоритме динамического программирования (ДП); разработана и реализована система распознавания речи, основанная на теориях векторного квантования и скрытой марковской модели; для этой системы получен важный ряд экспериментальных данных в режимах и обучения, и тестирования.
Практическая ценность. Разработанные методы и алгоритмы можно использовать для реализации системы распознавания речи как на персональном компьютере, так и на сигнальных микропроцессорах с высокой производительностью, например семейства ТМ8320. Результаты работы служат основой и для дальнейшего исследования в этой области, и для построения более сложных задач распознавания речи, как распознавание слитной речи, создание больших словарей, независимость от диктора и т.д.
Работа состоит из введения, пяти глав, заключения и списка литературы. В гл.1 представлен метод определения начальной и конечной точек речевого сигнала, и приводятся результаты испытания. В гл.2 обсуждена теория линейного предсказания и кепстра. В гл.З описываются алгоритм трансформации временного масштаба и некоторые метрики расстояния. Вместе с тем, показаны реализации двух систем распознавания речи на основании выше рассмотренных теорий и результаты испытания. В гл.4 рассматривается теория векторного квантования. В гл.5 рассмотрена теория скрытой марковской модели, и даются результаты тестирования основанной на этой теории распознающей системы.
5.9. Выводы
В этой главе представлены основные положения теории скрытой марковской модели (НММ) для распознавания речи. В основном рассмотрен один из типов модели НММ - дискретная модель НММ, которая использована в нашей работе. Мы получили основные формулы для решения вопросов НММ, и подробно обсудили проблемы ее применения к распознаванию изолированных слов. Наконец, даны результаты тестирования основанной на этой теории распознающей системы. Следует отметить, что система распознавания десяти числительных здесь выбрана только для получения экспериментального исследования. Как показано во введении, теория НММ служит основанием современной сложной системы распознавания речи. Поэтому рассмотренное диссертацией теоретическое положение полностью пригодно для построения сложных систем распознавания, включая распознавание слитной речи, создание больших словарей, независимость от диктора и т.д. Еще надо отметить, что содержание теории НММ довольно объемно, и важность того, что не проанализировано в нашей работе, в отношении распознавания речи не уступает рассмотренной части. Заинтересованные читатели могут ознакомиться с литерагу-рой[33,34,58].
ЗАКЛЮЧЕНИЕ
В процессе решения задач, поставленных в диссертационной работе, получены следующие основные результаты:
1. Представлен новый алгоритм определения крайних точек изолированных слов на основе двух параметров речи - кратковременной энергии и числа переходов через нуль.
2. Рассмотрена теория линейного предсказания для получения признаковых векторов речи. Принят автокорреляционный метод (метод Дарби-на) для решения уравнений предсказания. Получена формула извлечения кепстров из векторов ЛП.
3. Показана необходимость предыскажения высоких частот входного речевого сигнала. Созданы две распознающие системы для изолированных слов, основываясь на алгоритме трансформации временного масштаба (ТВМ). Одна система принимает векторы ЛП как признаковые векторы, причем метрика расстояния есть погрешность Итакура. В другой системе признаковыми векторами являются кепстры, и использовано евклидово расстояние для измерения погрешности. Применение кепстров дает более эффективное распознавание. Общий объем словаря может быть значительным.
4. Для повышения достоверности распознавания показана необходимость взвешивания кепстральных векторов. В нашей задаче использовано синусобразное окно для взвешивания.
5. Для получения последовательности наблюдений для распознающей системы, основанной на теории НММ, проанализирована теория векторного квантования и применен алгоритм ЬВСг.
6. Рассмотрена теория скрытой марковской модели (НММ). Принят дискретный тип модели для создания новой системы распознавания речи.
7. Указана важность установки начальной модели НММ при обучении
- 127моделей НММ, и предложен метод для решения этой задачи.
8. Указаны проблемы при реализации системы распознавания, основанной на теории НММ, и даны метод для решения таких проблем. Такая система пригодна для распознавания большого количества изолированных слов, а также для распознавания слитной речи.
9. Для экспериментального исследования создана простая распознающая система, основанная на теории НММ, для распознавания цифр 0 ~ 9.
10. Даны результаты тестирования всех разработанных систем распознавания речи.
11. Поскольку теория НММ может служить основой современных сложных систем распознавания речи, рассмотренные в диссертации теоретические положения полностью пригодны для построения сложных систем распознавания, включая распознавание слитной речи, создание больших словарей, независимость от диктора и т.д.
1. L. Rabiner and B.H. Juang. Fundamental of Speech Recognition. Prentice-Hall, Englewood Cliff, New Jersey, 1993.
2. II.F Olson and H. Belar. Phonetic Typewriter. J. Acoust. Soc. Am., 28(6): 1072-1081, 1956.
3. D.B. Fry. Theoretical aspects of mechanical speech recognition; and P. Denes, The design and operation of the mechanical speech recognizer at University College London. J. British Inst. Radio Engr., 19(4): 211-229, 1959.
4. J.W. Forgie and C.D. Forgie. Results obtained from a vowel recognition computer program. J. Acoust. Soc. Am., 31(11): 1480-1489,1959.
5. J. Suzuki and K. Nagata. Recognition of Japanese vowels- preliminary to the recognition of speech. J. Radio. Res. Lab, 37(8): 193-212, 1961.
6. T. Sakai and S. Doshita. The phonetic typewriter, information processing 1962. In Proc. IFIP Congress, Munich, 1962.
7. K. Nagata, Y. Kato, and S. Chiba. Spoken digit recognizer for Japanese language. NEC Res. Develop, 6, 1963.
8. T.B. Martin, A.L. Nelson, and H.J. Zadell. Speech recognition by feature abstraction techniques. Tech. Report AL-TDR-64-176, Air Force Avionics Lab, 1964.
9. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования. Кибернетика No.l с. 81-88, 1968.
10. D.R. Reddy. An approach to computer speech recognition by direct analysis of the speech wave. Tech. Report C594, Computer Science Dept., Stanford Univ., September 1966.
11. Величко B.M., Загоруйко Н.Г. Автоматическое распознавание ограниченного набора устных команд. Вычисл. Системы. -Ин-т Мат. СО АН СССР, 1969. Вып. 36-1. 101-110.
12. Н. Sakoe and S. Chiba. Dynamic programming algorithm optimization for spoken word recognition. IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-26(1): 43-49, February 1978.
13. F. Itakura. Minimum prediction residual applied to speech recognition. IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-23(1): 67-72, February 1975.
14. F. Jelinek, L.R. Bahl, and R.L. Mercer. Design of a linguistic statistical decoder for the recognition of continuous speech. IEEE Trans. Information Theory, IT-21: 250-256, 1975.
15. L.R. Rabiner, S.E. Levenson, A.E. Rosenberg, and J.G. Wilpon. Speaker independent recognition of isolated words using clustering techniques. IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-27: 336-349, August 1979.
16. H. Sakoe. Two level DP matching a dynamic programming based pattern matching algorithm for connected word recognition. IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-27: 588-595, December 1979.
17. J.S. Bridle and M.D. Brown. Connected word recognition using whole word templates. Proc. Inst. Acoust. Autumn Conf, pages 25-28, November 1979.
18. C.S. Myers and L.R. Rabiner. A level building dynamic time warping algorithm for connected word recognition. IEEE Trans. Acoustics, Speech, Signal Proc., ASSF-29: 284-297, April 1981.
19. C.H. Lee and L.R. Rabiner. A frame synchronous network search algorithm for connected word recognition. IEEE Trans. Acoustics, Speech, Signal Proc., 37(11): 1649-1658, November 1989.
20. J.Ferguson, editor. Hidden Markov Models for Speech. IDA, Princeton, NJ,1980.
21. L.R. Rabiner. A tutorial on Markov models and selected applications in speech recognition. Proc. IEEE, 77(2): 257-286, February 1989.
22. D. Klatt. Overview of the ARPA speech understanding project. In W. Lea, editor, Trends in Speech Recognition, pages 249-271. Prentice-Hall, HJ,1980.
23. K.F. Lee, H.W. Hon, and D.R. Reddy. An overview of the SPHINX speechrecognition system. IEEE Trans. Acoustics, Speech, Signal Proc., 38: 600610,1990.
24. Y.L. Chow, M.O. Dunham, O.A. Kimball, M.A. Krasner, G.F. Kubala, et al. BBYLOS: The BBN continuous speech recognition system. Proc. IC-ASSP 87, pages 89-92, April 1987.
25. D.B. Paul. The Lincoln robust continuous speech recognizer. In Proc. IC-ASSP 89, pages 449-452, Glasgow, Scotland, May 1989.
26. C.H. Lee, L.R. Rabiner, R. Pieraccini, and J.G. Wilpon. Acoustic modeling for large vocabulary speech recognition. Computer Speech and Language, 4: 127-165, 1990.
27. B.H. Juang, R. Perdue, and D. Thomson. Deployable automatic speech recognition systems: Advances and challenges. AT&T Technical Journal, 74(2), 1995.
28. L. Rabiner and B. Juang. An introduction to hidden Markov model. IEEE ASSPMagazine,3(1): 4-16, January 1986.
29. B. Juang, W. Chou, and C.H. Lee. Minimum classification error rate methods for speech recognition. IEEE Trans. Speech & Audio Proc. T-SAP, 5(3): 257-265, May 1997.
30. L.E. Baum, T. Petrie, G. Soules, and N. Weiss. A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains. Ann. Math. Stat.,41:164-171, 1970.
31. L.R. Liporace. Maximum likelihood estimation for multivariate observationsof Markov sources. IEEE Trans. Inform. Theory, IT-28: 729-34, September1982.
32. B. Juang. Maximum likelihood estimation for mixture multivariate stochastic observations of Markov chains. AT&T Technical Journal, 64(6): 12351250, July-August 1985. Part I.
33. B.H. Juang, S.E. Levenson, and M.M. Sondhi. Maximum likelihood estimation for multivariate mixture observations of Markov chains. IEEE Trans. Information Theory, IT-32(2): 307-309, March 1986.
34. J.K. Baker. Stochastic modeling for automatic speech understanding. In D.R. Redd}/, editor, Speech Recognition: Invited Papers of the IEEE Symp. 1975.
35. L. Bahl el al. Automatic recognition of continuously spoken sentences from a finite state grammar. In Proceedings ICASSP, Tulsa, OK, 1978.
36. B.T. Lowerre and R. Reddv. The HARPY speech understanding system. In W. Lea, editor, Trends in Speech Recognition, pages 340-360. Prentice-Hall, Englewood Cliffs, N JJ 980.
37. L.R. Bahl, F. Jelinek, and R.L. Mercer. A maximum likelihood approach to continuous speech recognition. IEEE Trans. PAMI,5(2): 179-190, March1983.
38. Z. Harris. Methods in structural Linguistics. University of Chicago Press 1951. Later updated and published as Structural Linguistics, in 1960 and 1974.
39. B.H. Juang. Speech recognition in adverse environments. Computer Speech and Language, 5:275-294, 1991.
40. Y. Chen. Cepstral domain stress compensation for robust speech recognition. In Proc. ICASSP-87, 717-720, Dallas, Texas, April 1987.
41. R.M. Stern, A. Acero, F.H. Liu, and Y. Ohshima. Signal processing for robust speech recognition. In Automatic Speech and Speaker Recognition -Advanced Topics. Lee, Soong, and Paliwal (eds.), p.357-384, Kluwer, 1996.
42. M.G. Rahim and B.H. Juang. Signal bias removal by maximum likelihood estimation for robust telephone speech recognition. IEEE Trans. SAP, 4(1): 19-30, January 1996.
43. M.J.F. Gales and S.J. Young. Robust speech recognition in additive and convolutional noise using parallel model combination. Computer Speech and Language, 9: 289-307, 1995.
44. C.H. Lee and J.L. Gauvain. Bayesian adaptive learning and MAP estimation of HMM. In C.H. Lee, F.K. Soong, and K.K. Paliwal, editors. Automatic Speech and Speaker Recognition Advanced Topics, chapter 4. Kluwer Academic Publishers, 1996.
45. B.H. Juang, C.H. Lee, and C.H. Lin. A study on speaker adaptation of the parameters of continuous density hidden Markov models. IEEE Trans. Acoustics, Speech, SignalProc., 39(4): 806-814, April 1991.
46. Sankar and C.H. Lee. A maximum-likelihood approach to stochastic matching for robust speech recognition. IEEE Trans, on Audio and Speech Processing, 4(3): 190-202, 1996.
47. B.H. Juang and S. Katagiri. Discriminative learning for minimum error training. IEEE Trans. Signal Processing, 40(12): 3043-3054, December 1992.
48. L. R. Rabiner and M. R. Sam bur "An Algorithm for Determining the Endpoints of Isolated Utterances." Bell System Technical Journal., Vol.54, No.2, pp.297-315, Feb., 1975.
49. L. F. Lamel el al, "An Improved Endpoint Detector for Isolated Word Recognition." IEEE Trans, on ASSP, Vol. ASSP-29, No.4 pp.777-785. 1981.
50. J. D. Marks! and A. II. Gray, Linear Prediction of Speech, Springer-Verlag, New York, 1976.
51. B. H. Juang et al, On the Use of Bandpass Liftering in Speech Recognition. IEEE Trans, on ASSP vol. 35 №7, July, 1987.
52. Yoh'ichi Tohkura, A Weighted Cepstral Distance Measure for Speech Recognition, IEEE Trans, on ASSP, Vol. 35, №10, pp. 1414-1422, Oct. 1987.
53. P. J. M. van Laarhoven and E. I I. L. Aarts, Simulated Annealing: Theory and Applications, D. Reidel Publishing, 1987, Boston
54. Y. Linde, A. Buzo, and R. M. Gray, An Algorithm for Vector Quantization Design, IEEE Trans, on Comm., Vol. 28, pp. 84-95, 1980.
55. X. D. Huang and M. A. Jack, Semi-continuous Hidden Markov Models for Speech Signals, Computer Speech and Language, Vol. 3 pp. 239-251, 1989.