Разработка низкоскоростного вокодера тема автореферата и диссертации по физике, 01.04.13 ВАК РФ
Ли Фэйпэн
АВТОР
|
||||
кандидата технических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
1999
ГОД ЗАЩИТЫ
|
|
01.04.13
КОД ВАК РФ
|
||
|
ВВЕДЕНИЕ.5
ГЛАВА 1 СИСТЕМА КОДИРОВАНИЯ РЕЧИ И ВОКОДЕР.
ОБЗОР ЛИТЕРАТУРЫ; ПОСТАНОВКА ЗАДАЧИ.12
1.1 Акустические особенности речевого сигнала.12
1.2 Модель системы обработка речевых сигналов.16
1.3 Критерии оценки характеристики кодирования речевого сигнала. 18
1.4 Основные пути повышения качества кодирования речи.20
1.5 Постановка задачи.22
1.6 Выводы.24
ГЛАВА 2 ЛИТЕЙНОЕ ПРЕДСКАЗАНИЕ И ЕГО РЕШЕНИЕ.26
2.1 Модель линейного предсказания.26
2.2 Решения уравнений линейного предсказания.29
2.3 Рекурсивные алгоритмы автокорреляционного решения.32
2.4 Выбор частоты дискретизации , интервала анализа , порядка предсказания М и предыскажение сигнала.35
2.4Л Частоты дискретизации.35
2.4.2 Порядок предсказания.35
2.4.3 Интервал анализа.37
2.4.4 Предыскажение сигнала.38
2.5 Разные группы параметров ЬРС и отношение между ними.38
2.5.1 Автокорреляционная функция Я(!) и нормализированная автокорреляционная функция г(1).38
2.5.2 Оптимальные коэффициенты предсказания {а,}.39
2.5.3 Коэффициенты РАЯСОЯ Кх—Ки.39
2.5.4 Коэффициенты отношения площадей.40
2.6 Выводы.40
ГЛАВА 3 МЕТОДЫ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ РЕЧИ. .42
3.1 Обзор.42
3.2 Линейное предсказание с возбуждения от основного тона.47
3.2.1 Метод простого возбуждения.47
3.2.2 Новая модель возбуждения—WCE модель.49
3.3 Линейное предсказание с многоимпульсным возбуждением.52
3.4 Линейное предсказание с возбуждения от остатка предсказания.56
3.5 Метод линейной спектральной пары.58
3.6 Выводы.64
ГЛАВА 4 ВОКОДЕР—АНАЛИЗ И СИНТЕЗ РЕЧЕВОГО СИГНАЛА.66
4.1 Введение.66
4.2 Модели LPC вокодеров и их основные описания.68
4.3 Кодирование и декодирование вокодеров.70
4.4 Вокодер с низкой скоростью передачи информации.72
4.4.1 Вокодер с возбуждением от основного тона (LPC vocoder).74
4.4.2 Вокодер с возбуждения от остатка предсказания (RELP).76
4.4.3 Вокодер с многоимттульсным возбуждением (MELP).77
4.4.4 Вокодер с возбуждением от код-книги (CELP).77
4.5 Векторное кодирование и его применение в вокодерах.80
4.5.1 Основное понятие векторного кодирования.80
4.5.2 Цель векторного кодирования.81
4.5.3 Применение векторного кодирования в вокодерных системах.83
4.6 Техника кодирования с переменной скорости фреймов.84
4.7 Выводы.88
ГЛАВА 5 ПРЕДЛОЖЕНИЕ И АЛГОРИТМ ДЛЯ РЕАЛИЗАЦИИ
НИЗКОСКОРОСТНОГО ВОКОДЕРА.90
5.1 Основная цель и предварительные замечания.90
5.2 Предложение и структурная схема низкоскоростного вокодера.93
5.2.1 Особенности низкоскоростного вокодера.93
5.2.2 Структурная схема низкоскоростного вокодера.94
5.3 Алгоритм кодирования.96
5.3.1 Взвешивание входного речевого сигнала.96
5.3.2 Алгоритм ЬРС анализа.97
5.3.3 Алгоритм оценивания частоты основного тона.97
5.3.4 Алгоритм векторного квантования.99
5.3.5 Метод и тактика кодирования.101
5.4 Блок-схема вычисления и программа реализации .102
5.4.1 Общее описание программной реализации.102
5.4.2 Блок-схема и программа для ЬРС анализа.105
5.4.3 Блок-схема и программа для оценивания ОТ.106
5.5 Экспериментальные результаты.108
5.6 Сравнительные оценки результатов и обсуждения.114
5.7 Задача будущего исследования и направление развития.117
5.8 Выводы.121
Разработка новых низкоскоростных систем кодирования речи приобрела особое значение в последние годы в связи с возросшей потребностью в областях военной связи , секретной связи и связи в интернет. Эффективный метод для кодирования речевого сигнала является методом анализа и синтеза речи, в котором анализируют и определяют характерные параметры речевого сигнала на основе модели его формирования и используют эти характерные параметры для синтеза речевого сигнала[1]. Одним из наиболее важных применений систем кодирования речи в области связи является низкоскоростная (2400 бит/с и ниже) надежная передача речи по телефонным каналам. Так как одноканальная высококачественная передача речи требует скорости 64к до 200к бит/с, очевидно, что некоторые характеристики речи должны быть учтены в модели, в то время как другие могут быть исключены с целью уменьшения скорости передачи информации более чем на порядок. Система для низкоскоростного кодирования и передачи речи обычно называется вокодером.
Термин "вокодер", введенный Дадли [2], представляет собой сокращение словосочетания "кодер голоса" ( voice-coder ) . С начала развития во-кодерной техники много усилий и времени было затрачено на улучшение качества синтеза в устройствах кодирования речи с целью ее эффективной передачи. Методы линейного предсказания оказали большое влияние на развитие вокодерных систем[8], так как они позволили эффективно решить проблемы взаимодействия источника возбуждения и голосового тракта. Это позволило улучшить качество синтезированной речи и осуществить ее обработку и передач)' в реальном масштабе времени с помощью современной аппаратуры. Можно так сказать, что основная конструкция современных вокодеров - система синтеза и анализа речи с линейным предсказанием.
Разработано много разнообразных методов анализа и синтеза речевого сигнала. Одним из наиболее эффективных является метод линейного предсказания[26]. Метод получил распространение во многих странах и продолжает совершенствоваться.
Сущность метода линейного предсказания (ЬРС) заключается в том , что текущая выборка речевого сигнала может быть приблизительно предсказана линейной комбинацией предшествующих отсчетов этого сигнала.
Коэффициенты предсказания {а,, / =1, ., М) могут определяться автокорреляционными или ковариационными методами. При вычислении коэффициентов предсказания автокорреляционным методом речевой сигнал предварительно ограничивается так называемым «окном» с длительностью 10. 30 мс, т.е. на протяжении нескольких периодов основного тона (ОТ). В ковариационном методе окно не используется, коэффициенты предсказания определяются в пределах одного периода ОТ. В автокорреляционном методе процедура вычислений коэффициентов предсказания проще, но при этом приходиться обрабатывать значительно большее число выборок речевого сигнала. В ковариационном методе наоборот. В результате разница в количестве вычислений для обоих методов получается незначительной.
При описании свойств нестационарных сигналов, к которым относится и речевой сигнал, удобно использовать понятие «кратковременного спектра », когда рассматривается только часть сигнала, заключенная в определенном временном окне. Окна должны обладать необходимой разрешающей способностью по частоте, чтобы можно было разделять спектральные составляющие сигнала, находящиеся друг от друга на минимальном расстоянии. Кроме того, их амплитудная характеристика должна обеспечивать максимальную разницу между составляющими спектра в полосе окна и вне полосы. При анализе речевого сигнала наибольшее распространение получило окно Хемминга.
Окна должны также обладать необходимой разрешающей способностью по времени. Соблюдение необходимой разрешающей способности по частоте и времени требует компромиссного решения. Таким компромиссным решением является выбор длительности окна в пределах 10-30мс. Наилучшей же считается длительность окна, равная или кратная периоду основного тона (ОТ) в спектре речевого сигнала. В этом случае анализ называется синхронным с ОТ, в отличие от асинхронного, когда длительность анализирующего окна сохраняется постоянной.
Другим множеством параметров LPC, которые эквивалентны параметрам предсказания является множество коэффициентов частичной корреляции К} {partial correlation),называемых иначе коэффициентами РАКСОЩЪб].
Коэффициенты частичной корреляции Щ эквивалентны коэффициентам отражения в модели акустической трубы для голосового тракта без потерь, состоящей из нескольких секций разного сечения. С точки зрения кодирования коэффициенты частичной корреляции являются предпочтительными по следующим причинам:
1) Гарантируется стабильность приемного синтезирующего фильтра, так как \K¡\ < 1;
2) Коэффициенты K¡ нечувствительны к ошибкам квантования; при переходе от М коэффициентов отражения к М+1 в схеме синтезирующего фильтра достаточно добавить еще одно звено, в то время как для перехода от к üi~iв трансверсальном фильтре, в котором используются коэффициенты предсказания а„ требуется пересчет всех коэффициентов фильтра;
3) Коэффициенты могут быть использованы непосредственно в решетчатом (лестничном) фильтре синтеза.
Вокодерная система на основе линейного предсказания создает речь хорошего качества при скоростях передачи 2.4 к бит/с и выше. Но при скоростях ниже 2.4 кбит/с качество речи значительно и быстро ухудшается из-за увеличения шумов квантования. Одним эффективным методом для решения этого вопроса является введение векторного квантования (■vector quantization, или VQ )[46][47], которое позволяет уменьшить скорость передачи информации без ухудшения качества восстановленной речи.
Векторное кодирование VQ является многообещающим направлением в кодировании речевого сигнала. До появления векторного кодирования каждый параметр речевого сигнала кодировался независимо от других параметров, т.е. скалярно. При этом для передачи информации требовалась излишняя скорость. Следовательно, двоичные импульсы (биты) расходовались недостаточно эффективно. При методе VO кодируется одновременно группа параметров , т.е. вектор параметров, который представляет собой образец речевого сигнала.
Цель векторного кодирования заключается в уменьшении скорости передачи информации при минимизации разницы между оригинальным речевым сигналом и воспроизведенным речевым сигналом на выходе декодера. Экономия в скорости передачи может быть использована либо для повышения точности передачи информации, либо для повышения надежности передачи.
Снижение скорости передачи в результате использования VQ достигается путем передачи на прием только номера (индекса) вектора. Образцы речевого сигнала на определенном временном интервале мог\т быть представлены в виде векторов параметров. Каждый вектор параметров записывается в кодовую книгу. Множество векторов параметров образуют кодовую книгу. Входной вектор, представляющий собой образец речевого сигнала, сравнивается с векторами, находящимися в кодовой книге, и находится вектор, наиболее близкий к входному вектору. Номер или индекс этого вектора кодовой книги посылается по каналу связи на прием. На приеме по этому индексу определяется вектор в кодовой книге, которая является точной копией кодовой книги на передаче. Так восстанавливается оригинальный речевой сигнал.
Векторное кодирование применяется как для дискретно временных сигналов, например последовательности отчетов, так и для других групп параметров. Оказалось, что У<2 является наиболее эффективным методом при кодировании параметров ЬРС. Это метод позволяет сократить скорость работы в 2--3 раза при сохранении качества речевого сигнала.
Актуальность темы. В настоящее время применение речевого сигнала быстро увеличивается. Поэтому снижение скорости передачи речевой информации становится более и более актуальной задачей перед исследователями, занимающимися кодированием речи.
Имеется много литературных данных по вопросам, посвященным исследованию низкоскоростных вокодеров[25-30]. Но в настоящее время осуществление достаточно эффективного кодирования речевого сигнала со скоростью ниже 2400 бит/с и одновременного сохранения высокого качества восстановленной речи еще остается трудной и важной задачей. Таким образом, требуется дальнейшее совершенствование метода кодирования и метода снижения шумов квантования. Для этой цели также надо знать акустические характеристики речи и слуховые характеристики человеческого уха.
Учитывая изложенное выше, тема диссертации, направленная на исследование и развитие методов и алгоритмов создания низкоскоростных воко-дерных систем, является актуальной.
Цель работы. В связи с вышеизложенным, была сформулирована основная цель данной работы— разработка низкоскоростного вокодера со скоростью передачи ниже 1200 бит/с и, соответственно, эффективные методы для кодирования речи и снижения шумов квантования в вокодерной системе. Для достижения общей цели работы необходимо решение следующих конкретных задач: 1). Исследовать методы и алгоритмы определения основных параметров для кодирования речевого сигнала. 2). Провести сравнительные оценивание известных методов анализа и синтеза речевого сигнала , выбрать наиболее достоверные и перспективные и оценить их эффективность. 3). Разработать модель и алгоритмы построения низкоскоростного вокодера. 4). Разработать методическое и программное обеспечение для реализации низкоскоростного вокодера. 5). Исследовать полученные характеристики и результаты, оценить эффективность работы.
Научная новизна работы. Осуществлено комплексное решение задач разработки низкоскоростного вокодера и программной реализации на ЭВМ. При этом получены следующие новые результаты: обоснованы методы и алгоритмы низкоскоростного вокодера с учетом характеристик по скорости передачи и качеству речи; поставлена и решена задач эффективных компромисса и кодирования речи в низкоскоростных вокодерных системах; предложена новая модель возбуждения и ее приближенное решение; разработано методическое и программное обеспечение для решения задач разработок низкоскоростного вокодера; предложен оптимальный метод для проектирования низкоскоростного вокодера—комбинация линейного предсказания (ХбУ3), векторного кодирования (УО) и метода переменной скорости фреймов (VFR); на основе исследования и сравнения показано, что разработанный метод является перспективным для низкоскоростных вокодерных применений.
Практическая значимость. Результаты работы не только позволяют анализировать и осуществить предложенные вокодерные системы, но и способствуют разработке методов и алгоритмов новых типов низкоскоростных вокодеров. Разработанные методы и алгоритмы низкоскоростного вокодера и связанные с ними расчетные программы могут использоваться для расчета главных параметров анализа и синтеза речи, основных характеристик кодирования и декодирования речи и оценивания качества восстановленной речи в вокодерных системах.
Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на международной конференции "Информационные средств и технологии"(МФИ-99). Опубликованы тезисы двух докладов на этой конференции.
На защиту выносятся. 1). Уточненное представление о взаимном влиянии параметров кодирования и качества речи. 2). Модель и алгоритмы низкоскоростного вокодера, позволяющие проводить учет характерных параметров по скорости передачи и качеству восстановленной речи .3). Различные данные по характеристикам низкоскоростного вокодера. 4). Метод построения низкоскоростного вокодера с приемлемым качеством. 5). Методы и направления, позволяющие проводить дальнейшее исследование низкоскоростных вокодеров.
Методы исследований. При решении поставленных задач были использованы положения теории цифровой обработки сигналов и теории линейных систем. В работе использовался комплексный метод, заключающийся в сочетании теоретического анализа, математического исследования анализа и синтеза речи, техника компрессии данных для кодирования и декодирования речевого сигнала при низкой скорости передачи. Исследование проводилось при разных методах и алгоритмах с многочисленными параметрами. Численное исследование проводилось в широком диапазоне параметров вокодера с привлечением персонатьной ЭВМ.
Объем и структура работы. Диссертация общим объемом 150 страниц состоит из введения, 5 глав, списка литературы из 5 2 наименований, содержит 110 страниц основного текста, 33 рисунка, 1 таблицу, 2 приложения.
Основные результаты диссертационной работы могут быть кратко сформулированы следующим образом:
1. Рассмотрены акустические особенности речи во временной области. Изложены основные принципы построения математических моделей для количественного описания процессов формирования и передачи речевых сигналов.
2. Представлена модель линейного предсказания для анализа и синтеза речи. Рассмотрены математические решения линейного предсказания и предложены их рекурсивные алгоритмы для получения нужных параметров.
3. Рассмотрены основные пути для повышения качества кодирования речи. Хотя методы для повышения качества кодирования разнообразные, основные пути являются следующими: использование избыточной информации, находящейся в речевых сигналах и использование слуховой характеристики человека.
4. Сформулирована основная цель работы—разработка низкоскоростного вокодера со скоростью ниже 1200 бит/с и, соответственно, эффективных методов и алгоритмов для кодирования речи и снижения шумов квантования в низкоскоростных вокодерных системах. Предложены конкретные задачи для достижения общей цели работы.
5. Рассмотрены критерии оценки характеристики кодирования речи и основные пути для повышения качества кодирования речи. Предложены принципы для выбора первичных параметров в системах линейного предсказания речи. Проанализированы взаимосвязанные соотношения между разнообразными наборами параметров линейного предсказания.
6. Для повышения качества синтезированной речи в диссертации предложена новая модель возбуждения в вокодере с линейным предсказанием. С помощью экспериментальных результатов доказаны эффективность и перспективность этой модели для повышения качества синтезированной речи в ЬРС вокодерных системах.
7. Представлены основная структурная схема ЬРС вокодера. Рассмотрены несколько перспективных вариантов низкоскоростного вокодера.
8. Изложены известные разновидности метода линейного предсказания речи. Рассмотрены основные понятия и принципы анализа и синтеза речевого сигнала методом линейной спектральной пары (Ь8Ру, с целью теоретического объяснения метода получены формулы для вычислении 1.8Р параметров.
9. Рассмотрены важные проблемы о кодировании и декодировании речи в вокодерных системах. Предложены основные пути и эффективные методы для кодирования речи и снижения шумов квантования, чтобы осуществить основную цель данной работы.
10. Изложено основное понятие векторного квантования ( У<2 ). Показано, что У() является эффективным методом для кодировании речи и имеет большое значение и перспективы в исследовании низкоскоростных вокодерных систем.
11. Предложены метод проектирования и структурная схема низкоскоростного вокодера. Разработаны алгоритм и метод для реализации предложенной вокодерной системы. Скорость передачи может быть снижена до 600 бит/с.
12. Разработаны метод вычисления и программная реализация алгоритма спроектированного низкоскоростного вокодера. Результаты, полученные с помощью этой программы, подтвердили эффективность работы.
ЗАКЛЮЧЕНИЕ
1. R.C. Rose, T.P. Barnwell: Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders, 1.EE trans. ASSP, Vol. 38, No 9,1990
2. Dudley, H.: Remarking Speech. J. Acoust. Soc. Am. 11, 169-177 (1939).
3. Flanagan, J. L.: Source-System Interactions in the Vocal Tract. Ann. New York Acad. Sci. 155, 9-15 (1968).
4. Fant, G. С. M.: Acoustic Theory of Speech Production (Mouton and Co., 's-Gravenhage, The Netherlands, 1960).
5. Sorenson, H. W.: Least-Squares Estimation: From Gauss to Kalman. IEEE Spect. 7, 63-68 (1970).
6. Wiener, N.: Extrapolation Interpolation and Smoothing of Stationary Time Series. (M.I.T. Press, Cambridge, Massachusetts, 1966).
7. Saito, S. , Itakura, F. : The Theoretical Consideration of Statistically Optimum Methods for Speech Spectral Density. Report No. 3107, Electrical Communication Laboratory, N.T.T., Tokyo (1966).
8. Atal, B. S.: Speech Analysis and Synthesis by Linear Prediction of the Speech Wave. J. Acoust. Soc. Am. 47, 65(A) (1970a).
9. Markel, J. D.: Formant Trajectory Estimation from a Linear Least-Squares Inverse Filter Formulation . SCRL Monograph No. 7 , Speech Communications Research Laboratory, Santa Barbara, California(1971b).
10. Sage , A. D.: Optimum Systems Control (Prentice-Hall, Englewood Cliffs, New Jersey, 1968).
11. Коротаев Г. A. — Методы линейного предсказания. —Зарубежная Радиоэлектроника, 1980, No 10.
12. Atal, В. S., Remde J. R.— Proc IEEE Intern. Conf. ASSP, 1982, v. 6, N 2.13