Система автоматического фонемного распознавания русской речи тема автореферата и диссертации по математике, 01.01.09 ВАК РФ

Шмелев, Анатолий Александрович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
1992 ГОД ЗАЩИТЫ
   
01.01.09 КОД ВАК РФ
Автореферат по математике на тему «Система автоматического фонемного распознавания русской речи»
 
Автореферат диссертации на тему "Система автоматического фонемного распознавания русской речи"

РОССИЙСКАЯ АКАДЕМИЯ НАУК ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР

На правах рукописи

ШМЕЛЕВ Анатолий Александрович

СИСТЕМА АВТОМАТИЧЕСКОГО ФОНЕМНОГО РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ

01.01.09 — математическая кибернетика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Москва 1992

Работа выполнена в Московском педагогическом государственном университете им. В. И. Ленина.

II а у ч и ы й р у к о водите л ь:

доктор технических наук, профессор ФРОЛОВ Г. Д.

О ф и ц и а л ь и ы о о н п о л е н т ы:

доктор технических паук, профессор Г. А. МИРОНОВ,

кандидат физ.-мат. паук С. II. ПОЛЕЩУК

Ведущая организация: Институт проблем передачи информации Академии Наук России.

на заседании Специа; , вета 002.32.02 при

Вычислительном центре АН России по адресу: г. Москва, ГСП-1, ул. Вавилова, 40.

С диссертацией можно ознакомиться в библиотеке Математического института АН России.

Защита состоится

1992^ г. в ./Л..... час.

Автореферат разослан

Ученый секретарь Снецсовета К 002.32.02 при ВЦ АН России, доктор физ.-мат. наук

К. В. РУДАКОВ

БИБЛИОТЕКА

ОЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Повышение в настоящее время мощности и производительности вычислительной техники заставило разработчиков программного обеспечения поставить ряд принципиально новых задач, которые могут быть решены с помощью ЭВМ. Одной из таких задач является разработка и внедрение в действующие в промышленности процессы систем искусственного интеллекта. При разработке основных направлений для создания систем искусственного интеллекта, появился ряд подзадач, решение которых необходимо получить, одной их них является задача обработки сообщений на естественном языке. Первый этап на пути решения данной задачи заключается в создании систем распознавания речи, которые разрабатывается совместно с сйсТёмайи обработки сообЕгЗниа на естественном языке.

При разработке систем распознавания р&чй исследователи столкнулись с непредвиденными трудности, многие из которых нерешены и в настоящее время, что говорит об актуальности таких разработок в настоящее время. Решение задачи распознавания речевых образов актуально не Только для создания систем искусственного интеллекта. Существует множество сфер применения систем распознавания речи, например, организация двусторонней связи неуду человеком и машиной, мевду людьми, управление раз-¿ячаыми устройствами, создание автоинформаторов ' различного назначения, диагностика, обучение иностранным языкам, медицин.? (в частности логопедия), криминалистика и т.д.

Прекнуиэства речевого управления обуславливаются следующими основными факторами:

- снижение нагрузки на оператора, на зрительный канал:

- повышение оперативности управления за счет использования речевого канала взаимодействия, в экстремальных условиях;

- возможность дистанционного управления;

- возможность модификации и расширения состава управляющих команд без аппаратных изменений;

- отсутствие ограничений на условия освещения;

- возможность систематического контроля вводимых команд;

К настоящему времени разработаны и Енедрены в промышленную эксплуатацию мгожество систем автоматического распознавания и синтеза речи. Их эксплуатация дает существенный эконо-

иическш к содаальдая эффект.

В настоящее время во всем мире продолжаются исследования в двух основных направлениях: создании производительны!; дешевых компонентов (микропроцессоров и специализированных микросхем для обработки акустических сигн&яов) и разработке более эффективных алгоритмов распознавания речевых образов.

Для создания полной модели речевого ввода информации в ЭВМ потребуется длительные усилия различных специалистов как в области непосредственной обработки сигналов, так и в области искусственного интеллекта.

Цель работы. Цель работы заключалась в создании системы фонемного распознавания русской речи на базе персональных ЭВМ типа IBM РС/ХТ/АТ и ps/2.

При создании системы распознавания решались следующие задачи:

- анализ современного состояния методов и систем распознавания речи, их характеристика;

- исследование свойств и характеристик полного и клишированного речевого сигнала;

- совершенствование методов фонемного сегментирования речевого сигнала;

- совершенствование методов маркировки и распознавания различных групп фонем;

- разработка метода идентификации распознанной цепочки фонем со словом из транскрибированного словаря;

- разработка на основе практических исследования алгоритмов;

- разработка многословарной системы распознавания;

- создание на компьютере реальро девствующей многословар-ноа системы фонемного распознавания русской речи;

Методы исследования. Методы . исследования заключались в экспериментальном исследовании свойств полного и клишированного сигналов и их характеристик. Исследовались отличительные характеристики как различных груш фонем, так и разных фонем в группах. Использовались метода математической статистики, визуальные методы исследований, методы числового анализа.

Научная новизна. Разработаны методы сегментирования и маркировки полного речевого сигнала, метода распознавания гласных и сонорных фонем, а тага» фонем 'п' и 'р'. Разработан метод поиска слов в транскрибированном словаре по цэпочке фо-

нем. с помощью вероятностных таблиц. Создана многооловарнзя система фонемного распознавания русской речи с обоим объемом словарза в 10 тысяч слов, единым словарем болзе 1000 слов, с полуавтоматической настройкой на диктора.

Практическая ценность. Созданная система распознавания, может использоваться в различных системах управления и автоиз-тазации на компьютерах различного типа. т.к. основные алгоритмы реализованы на языке высокого уровня с. Алгоритмы анализа различных характеристик полного звукового сигнала могут быть использованы в разнообразных системах анализа и распознавания аналоговых сигналов.

Реализация результатов. Настоящая диссертационная работа яазяатся частью работ, производимых совместно в ИЛИ АН России н в МПГУ 1~еяи В.И. Ленина по разработке диалоговых систем "чзлпвек-ЗВМ" с использованием рэ^йОГО ввода-вывода информация.

Программное обеспечение реажзовано на языках с и Assembler для персональных эвм типа iem рс/хт/ат и ге/г.

Апробация работы. Основные результаты диссертации докль давались на,научных семинарах, проводимых в ИШ АН России v МПГУ имени В.И. Ленина. Разработанная система распознавание демонстрировалась на различных научных встречах с российских? и иностранными специалистами в области распознавания образов.

Структура работы. Диссертация состоит из введения, трет глав, заключения, списка литературы, содержащего • 106 источников и приложения. Всего 114 страниц, 40 рисунков, таблиц .

СОДЕгЖАШК РАБОТЬ'

Во введении определяется ¿качение средств речевого ouir ния человека с ЭВМ, доказывается актуальность разработок и внесения систем распознавания речи. Определяется цель работы.

В горзоа глава проанализированы некоторые методы распознавания речи, кратко даны их преимущества и недостатки. Разобраны наиболее известные системы распознавания речи, существующие в наэеа стране и зз рубежом. Приводятся сферы применения систем распознавания и некоторые технические требования к ни«.

Во второй главе изложены 'результаты исследования полного а клишированного речевого сигнала. Б ходе экспериментальных ЕС&гэдованиа была выработана специальная классификация фонем

русской устной речи. В процессе изучения полного речевого сигнала снимались различные характеристики отдельных фонем и сравнивались графики фонем в различных произнесениях и местоположениях. Эта работа позволила разделить все фонемы на семь больших, груш:

1. Гласные фонемы - 'а', 'о', 'э', 'ы', 'и', 'у';

2. Сонорные фонемы - 'м', 'н';

3. Шипящие фонемы - 'с', 'ш', 'з', 'ж', 'щ', 'ф', 'Х','ц','ч';

•s. Взрывные фонемы первого порядка - 'п', 'т', 'К'; Взрывные фонемы второго порядка - 'б', 'Д', 'г';

6. Настационарные фонемы 'в', 'л', 'й';

7. Фонема 'р'.

Введены основные характеристики полного речевого сигнала, используемые для математического описания разработанных характеристик:

A (Array) ={ ар...,г^ }={ Sj ~ Последовательность

введенных значений речевого сигнала (массив полного сигнала).

AS (Array Segment) ={ а^, — ,aj }={ak)k=i - Подпоследовательность последовательности А, соответствующая некому сегменту, полученному в результате работы программы сегментирования речевого сигнала ( i<j, i>0, jsn).

ASUL (Array Segment Unlabeled)={ AS-p.-^ASj, MASjJ^j -

Последовательность непромаркированных сегментов, полученная в результате операции сегментирования { цепочка нераспознанных фонем).

Label - Переменная, обозначающая метку сегмента. Label соответственно программе может принимать значения: 0 - сегмент отнесен к гласной фонеме (группа 1); 1 к взрывной первого порядка (группа 4); 2 - к шипящей (группа 3); 3 - к сонорной (группа 2); 5 - к взрывной второго порядка (группа 5); 7 - к фонеме 'р' (группа 7);

ASURL (Array Segment UnRecognlzed Labeled) - Нераспознанной промаркированный сегмент.

ASRL (Array Segment Recognized Labeled) - Распознанный промаркированный сегмент.

ASR (Array Segment Recognized) = (ASRLj , —, ASRI^ }= t,ASRLj)°_j - Последовательность распознанных промаркированных сегментов (цепочка распознанных фонем).

Рог (Forog) - Переменная, равная относительному нулю вво-

димого речевого сигнала, т.е. значение гвзрекенных а^д, соответствующее отсутствия сигнала на микрофоне (порог клиширования).

С X; - Сумма всех элементов х последовательности (подпос-

X -

лэдовательности, множества) х.

AC (Array Clipped) »{acj.....ecn)={aci}i=I - Последовательность, соответствующая клишированному речевому сигналу ( массив клишированного сигнала).

ACS (Array Clipped Segaent) = íacj,...,acj}={ack}k=1 -

Подпоследовательность последовательности ас , ■ соответствующая некоэд сегменту, полученному в результате работы программы сегментирования речевого сигнала.

at (Array of Tone) = {atj... »atp}=iatiPk=l - Последовательность, прздстгзлякпая числовую модзль периодов основного тона рэчзвого cursaja А, которая получается в результате анализа ЕизкочастотЕоз состаааявгза полного сигнала на периодически, почти периодические и непериодические участки.

AIS (Array lene Segaent) =(at?.....~

поогадоватвлъность последовательности AT, соответствующая некому сегменту, подученному в результате работы программы сегментирования речевого сигнала.

Label j - Перэ?;енная, обозначающая метку одного периода основного тона atj.

Пусть элэтант является значением дискретной Функции, представленной последовательностью А, в точке экстремума j, т.е. aj^saj&a^j или а^га^а^. Назовем величину x=ABS(a;-

aj_j) гладкостью полного сигнала а в точке j, где abs есть модуль числа aj-a,_2- Сумму значений х, соответствующих одному

клишированному элементу ас. последовательности ас, назовем, гладкостью полного сигнала а на клишированном элементе ас.еАС.

tsm- (tone smoothness) - Гладкость на одном периода основного тона. Значением tsm является сумма гладкостей всех клип-пированных элементов, содержащихся в этом периоде.

ATSM (Array Tone SMoothness) = {tsmj.....tsnp} - Последовательность глздкостеа на периодах основного тона. Очевидно . ЧТО Día (ATS.4 )=D i ю (AT).

AT5KS (Array Tone SMoothness Segaent) = (tsn,,...,ts¡Ej} =

{tsmk}kel - Подпоследовательность последовательности atsm, соответствующая некоторому выделенному сегменту <Kj, I>0,

шах(х.) - Максимальный элемент из х,ех последовательнос-X 1 1

та, подпоследовательности или множества.

met. (maximum element tone) - Максимальный элемент последовательности А на периоде основного тона atj, т.к. v ajs а

&sají255, то met j считается относщт?льно порога клиппировадаш. т.о. metj= max(ABS(aj-Por)), где aj элементы массива А принадлежащие периоду основного тона at-,

шееj (maximum element clipped) - Максимальный элемент по-

слэдоватольности а на клишированном элементе ас j, вычисляется аналогично metj шее.=max(ABS(aj-Por)), где aj элементы массива

А принадлежащие клиппированному элементу acj.

АМЕТ (Array maximum elements tone) = (metj,....roetp} -

Последовательность максимальных элементов, соответствующих последовательности основного тона AT, Dim(AMET)=DIm(AT).

AMETS ( Array maximum elementa tone segment ) ={metj,

.... ,metj)={metk}^_. - Подпоследовательность последовательности

АМЕТ, соответствующая некому сегменту (Kj, 1>0, j< - ).

2

GL = {'а','о*,'з','и','ы','у'З - Множестве гласных фонем. Sh = {'С ,'ш' ,'щ' ,'з' ,'ж' ,'ф' ,'х' ,'ч' ,'ц'З - Множество шипящих фонем.

Sn = {'м'.'н'} - Множество сонорных фонем. Vg = {'п'.'т'.'к'} - Множество глуцрс взрывных фонем. Vz = {'б'.'г'.'Д') - Множество звонких взрывных фонем. На я {'в'.'л','®') - Множество нестационарных фонем. V - Логическое или. л - Логическое и.

Весь массив речевого сигнала А разбивается на периода, размерность которых определяется массивом основных тонов AT. Периода основного тона atj находятся и располагаются таким образон, что в каждый период atj входит четное количество клишированных элементов acj.

Далее описываются алгоритмы сегментирования и маркировки некоторых групп фонем.

Алгоритм сеггййтйрования фонем мновества vz построен на анализе максимальных значений metj элементов посурздоватвльно-

сти а, вычисленных на каждом триоде основного Тона atj е at и значений гладкостей tsnj.- Экспериментальные исследования показали, что если какоа-ли5о период основного тона atjs at входит во взрывной участок фонемы мноизства Vz, то дйй e.tj tsaj<50 и netj<22. Обычно периодов, следующих друг за другом и удовлзт-°

воряхщкх данному условию, более пяти.

Фонеш инатаства Vzc имеющие нестабильную структуру паузы, маркируются программой сегментирования как фонемы множества Vg. Пэремаркировка этих фонем построзна на анализе информации, содэряаи^зся во взрывном учаспсе.

пусть AS = { et^,..», afl }, ACS = { ао^,.„..aCj }, ATS =

{at^.c.atq}, AT£!,1S= Ctss^,... Дзш^) и амет&={те^,.. .metq) -

подпоследовательности введенных характеристик, соответствующие

еэгаенту, irrac^ijy Label=1.

Пусть ас. =шах(ас,) - максимальный клишированный элемент 1 acs 1

Е etj AMFT

сегмента ав, иа = — q-p+i--- среднее значение максимальных

Е tsmj

ATCftc

амплитуд и тз = — --средне;, значение гладкостей за

сегменте ав.

Пусть пас число клиппированных элементов acj удовлетворяющих условиям: 1) шее ,<40; 2) ас. >6*3; 3) J<i. .

<J " J

В этом случае метка Label данного сегмента изменяется на 5, если выполняется условие: {ша<200лас.<800л(ас1<600 та<140)л(шз<40 (q-r+l)>5)) (пас>10). У взрывных фонем множества Vg , которые располагаются в начале слова, отсутствует характерный для них взрывной участок, что вызывает определенные трудности при их сегментировании, в большинства случаев эти трудности преодолены.

Трудности сегментироваения мягких фонем мксжествэ Vg, находящихся в середине слова, заключаются в их схожести с фонемами 'ч* и 'ц', встречающимися в аналогичной позиции. Исследовались периода основного тона at соответствующие шипящему

участку, перед которым имеется пауза. Если существует более четырех суй дующих друг за другом периодов atj, для которых выполняется условие: tsmj>260 л tsnijClBM A macj<5 , где mac j есть среднее значение клиппированных элементов ас, на периоде основного тонз at,, то кэткз данного сегмента не изменяется, в прогивном случае этот сегмент объединяется с сегментом, соответствующим взрывному в один сегмент, с меткой ЪаЬе1-1.

Далее следует описание распознавания и сегментирование фонемы 'р', основанное на анализе падения амплитуды на одном или нескольких периодах основного тона.

Рассматривается алгоритм сегментирования и маркировки со-' четании 'ми*, 'ни', 'им' и 'ин'.

Пусть ASURL - нераспознанный сегмент, отнесенный к фонемам множества G1 и acs = {&cj)j_k, ats = iatp? , ATSMS ^tsmj}^ , aMETS ={met.}'J_r (q-r+l>4) - соответствующие

ему характеристики сегмента as полного речевого сигнала а.

Пусть х={Х;- последовательность элементов Xj, таких,

что v at.eATS: x^hj-

- met.- г tsm,-.

25 . 10

где . есть целая часть

а-ъ , если a-t»l

числа, а ^^ , где а - количество элементов

[ 1 , если а-ь^1 ас^ которые удовлетворяют неравенству 16<а^.<50 и ь - количество элементов ас^ которые удовлетворяют неравенству ас^ 60. Элементы acj, по которым считается находятся в периоде основного тона а^.

Пусть 2 - количество периодов а^, следующих друг за другом начиная с номера з, для каждого из которых выполняется

1

условие: х.<20 а

z+s-1 С х.

j'S J ,

< И.

г+а-1

Пусть у - количество периодов , следую-

щих друг за другом начиная с номера а1, для которых выполняется условие Х.&14.

Пусть с! - количество периодов а^ (з^ь^з+г-у), для которых хрй. тогда шриоды а^ основного тона с номерами 1. где з£1«з+2-у. выделяются в отдельный сегмент, если выполняется

условие": z-y+l>4 л gl^ < 15. Данный сегмент относится к

фонемам группы Sn, т.е. его метка label становится равной 3. в противном случае сегмент ASURL и его метка Label остаются неизменными. Используя данные правила в алгоритме сегментирования указанных выше сочетаний, повысили надежность выделения, з значит и распознавания фонем множеств-; Vg и фонемы 'и' до 90-95Ж.

В этой же главе описаны метода поглощения неправильно выделенных сегментов, по специально разработанным для этого правилам и алгоритм распознавания фонемы 'П'.

В третьей главе описаны алгоритмы распознавания гласных и сонорных фонем.

Пусть asorl - нераспознанный промаркированный сегмент, С Label=0 и ACS={ack,...(k<l), ATS={atr,...,at } <r<q> , соответствующие ему характеристики полного речевого сигнала, представленного последовательностью а.

Из способа построения последовательностей ACS и ATS оче-i ч

видно, что Е ас. = е at.. Рассмотрим преобразование перево-i=k !=г

дятв сегмент asurl в сегмент ASDRL', такое, что Е ас; * I.

asurl"

где w - постоянная для конкретного шага опроса At и подбирается опытным-путем. При проведении экспериментов выяснилась, что оптимальным значением для W среднее значение количества элементов последовательности А в сегментах, которые соответствуют ударным гласным фонемам в различных словах. Для шага опроса At=30 микросекунд эта величина составляла 5000 ±800 элементов.

q-r+1

Для простоты положим, что q-r+1 кратно двум и d=—-.

q

Е at.

1 i=r 1

Пусть с— с ас . а=- . При преобразовании / рассматривают-

I=k q-r+1

ся следующие случаи:

1. w-aiciw+a , тогда /(asurl)=asurl'=asurl, т.е. при преобразовании / сегмент asdrl не изменяется.

2. c>w+a , тогда пусть x.={ach_J- подпоследовательности последовательности ASC={ac.}i_k такие, что v i (0<iiq-r+1)

т -

Е ach_=atj и хр последовательности, состоящее-из подпослздо-

v i

Xi

вательностой Xj такта, что

Х1 = »3.....xq-wl} - t h ¡fg1 и CI * 2 acj

X1

x3.....Vr } ' { X1 И =

X2

X,

3 = {x3- h.....Vr } * { xi }I=3 и * 4acJ

хз

X4

= 'X3' X4.....Vr-13 = { XI 3i=r! и c4 "

При ЭТОМ /(ASURL)=ASURL'=X4^X{} * , ГДЭ C^ « W+a И

c->+I > W+a.

3. -^jp- « с < w-a , тогда пусть xp - последовательности, состоящие подпоследовательностей X. такие, что

V — Г v v

•*• Xd-2' xd-l* xd,xd* xd+l"

Х2*' * *' Xd-2 * Xd-1, Xd-1 * xd,xd* Xd+1.' Xd+2'-' •,Xq-r+l} •

V ••xa-2'xd-l•xd-l'xd'Xd'Xdfl,Xd+l' Xd+2' •'*'Xq-r+l}

х2,. ••'Xd-3' Xd-2'Xd-2' Xd-l'Xd-l' Xd' Xd' Xd+1* Xd+1'

•• xq -r+l} и ci=E,acj 5 c2=C.acJ ' c3=^,acJ

X1 X2 X3 X4

Пш этом дабшь) =■ ASURL' = , Г™> с'а < W-а К > W-a. - .- ■ ■ , при этом способами, описанными в 1-3, обрабатываемся не последовательность acs={xi,x2,...,xq_r+i}, а последовательность acs'={x1,x1,x2,x2.....vr+l*kq-r+l)-

Но приведенной выше схеме преобразовывалась и подпоследовательность AS, соответствующая данному сегменту AS4RL, т. к. из.чйстны элементы а-ч aS, предстааяяхше каждый элемент эе. из ACS, !'.:■ такое преобразование осуществить достаточно просто.

Далее дается описание метода статистической обработки информации. содержащейся отдельном сегменте, отнесенном к фоне-

- ti -

мам множества gi.

Пусть ASüRL - нераспознанный промаркированный сегмент с L3bei=0,'/(ASURL)=ASURL'=X={acI,...,ac3} - данный сегмент, на

котором выполнено преобразование /, т.е. ~ я- нумера-

ция элементов ас. не соответствует нук: гащш в массиве клиппи-рованного сигнала АС и выбрана от Ы до 1=з для удобства изложения. Преобразуем последовательность х=-{ас. в прямоугольную матрицу м=||п^1Г+1Ц (в нашем случае п=20, г=100) овэдующим образом.

Разобьем X на подпоследовательности хр (lípín):

Xr4ack0,..., ас^} (kg=I), Х^ас^ .....ас^}.

W

íC={ack ,т,...,аск }, ГД6 v I (lSlSn) £ ас, *-

h

если J е х.

и

если j е X,

V I (1=1,2,....п», V (Л=1,3,----г)

ш1г+1=1+кГк1-Г

Столбцу матрицы м с номерами 1«Л?1СЗЗ обрабатываются ода-

дующим образом: если сужда элементов в столбца < 4, то все

элэмента столбца превращаются в 0; если сумма элементов в

столЗце > 16, то все элементы столбца превращаются а 1 , т.е.

п п п

V J (1^«100) 4« Е и^ «16, или Е ш1<3 =0, 5Ш £ Им =20.

1=1 1=1 Ы

На каждую фонему множества и собралась статистическая

матрица ? |^' <п=20» г=100). Пусть произнесен» Ь слов,

содержащих фонему геб1; лсэ^, асз2,..., асэь - последовательности клишированных элег.тантов, соответствующие фонеме г в каждом из произнесенных слов. Осуществив преобразование / над АСБр АСБ2,..., АСв^, получим соответственно последовательности асб^, асб^,..., асб^, которые преобразуем в матрицы м^ , м^;...Тогда статистическая матрица фонемы г г||

есть прямая суша матриц м*. т.е. ® ® ... а м^.

После работы алгоритма сегментирования все сегменты име-

1

- \г -

¡от мегки Label, что позволило при распознавании фонем множества G1 учитывать положение данной фонемы в произнесенном слове и иметь на каждую фонему zeGJ по три статистических матрицы Gz: 1) г * - матрица для фонемы z , стоящей первой в слове либо стоящей после фонем множества G1;

2) - матрица для фонемы z, стоящей после фонем множеств Vz, Vg, Sh либо стоящей после фонемы 'р';

3) G^ - матрица для фонемы z, стоящей после фонем множества Sn.

Такое дифференцирование значительно повысило качество распознавания гласных фоне."«..

Пусть ASDRL| - нераспознанный промаркированный сегмент с Label £=0, ACS - соответствующий ему массив клишированных элементов. Пусть h=babel1_1 и h=0, • если сегкзнт первый в слове,

т.е. 1=1, G^ - статистическш матрицы фонем множества G1, где

G1,

1 , если h=0

Z , если h=l v h=2 v h=5 v h=7

3 , если h=3

Над последовательностью asc осуществим преобразование /, подученную последовательность asc преобразуем в матрицу м.

Пронормируем матрицы GÎ>i |g_,r+î i I так, что v ; (l.<i<n), - j t •

f (gjj+h- £ (¿:ij;)> '. если Sjj-S {'sisi ) eij=| 1=1 , где h - количес-

l 0 , если g, ,=0 tbo матриц К* суммированных при получении конкретной статистической матрицы G^; для одной фонемы. Данная нормализация повысила процзнт распознавания для фонем 'о', 'у' и 'ы', особенно когда они находились в неударной позиции. Б конечном итоге для каждой фонемы z множества si имеем нормированную статистическую базу данных '®пг+1 ' !)» где k=l,2,3, a tiR - количества матриц, сумжрзванныг для получения матрицы G^.

Матрица м сравнивается с шестью нормализованными матркцз-

ми g5: { ¿g , Gq, Gg, Gy, Gy, >, и для каждой из них вычисляется величина Р_:

- 13 - ■

5 г „ .„, о 15 г

1=1 "к "" 1=5 ^

г- г V* Г 1

I ко£ 1*2^ -] ]" ГД0 ^ИЦИеНТ ко:Г. С00ТВ8ТСТ-

+

1=16 0=1

ввнно равен: ко:Г^

Ш1101'Ч

если тП01-ьк «

--—- , если иП01-Ьк >

ШП01 Лк

и элементы . берутся из нормированной статистической матршщ

й==1I •

.После сравнения матрицы м со статистическими матрицами и имеем шесть величин >а. Р0, Рэ, Ри, р , Ры, из которых выбиралась максимальная, ей и ставилась в соответствие распознаваемая фонема.

Далее в диссертации описывается распознавание сонорных фонем, которое основывается на методе распознавания гласных.

После завершения работы алгоритмов сегментирования, распознавания и обработки фонемных сочетаний имеем цепочку промаркированных распознанных сегментов, по которой производился поиск соответствующего слова в транскрибированном словаре.

Транскрибирование слов в словаре производилось по определенным правилам, описанным в диссертации. .

Поиск транскрибированного слова, соответствующего цепочке распознанных фонем, строился на вероятностном подходе. Для реализации корректного в отношении ликвидации ошибок сегментирования и распознавания, поиска были разработаны вероятностные матрицы. Экспериментальные исследования показали, что надежность распознавания и сегментирования фонемы в речевом сигнале находится в сильной зависимости от ее (фслемы) местоположения. По этой причине было разработано три вероятностных матрицы: мь - для фонем, стоящих в первой позиции;

ме - для фонем, стоящих последними в слове;

мт - для фонем, находящихся не первыми и не последними в слове. Таблицы имеют следующий вид:

1 2 3 4 5

... все введенные фонегы

"* 'е' 0 0.9 0.7 0.75 0.3 Ш

2 'а' 8.8 0 0.2 0.1 0.3 Т

3 'С 0.7 . 0.1 0 0.01 0.28 ... Р

4 'Э' 0.8 0.1 0.15 0 0.25 а

5 'Г 0.3 0.3 0.08 0.05 0 ... Ф

• в с 6 'ш' 'т' 'V "а' "ф" • • «

ф О н е м ы (введенные) •

В горных столбце и строке располагаются фонемы и символ 'е', который применен для обозначения вероятности сегментирования той или иной фонемы. В остальных строках и столбцах расположены величины, показывающие вероятностную величину так называемого ¡¡¡трафа, который налагается в случае неправильного сегментирования или распознавания фонемы.

При поиске в словаре, все наложенные штрафы для каждой транскрипции складываются, т.е. на кавдое слово в словаре после поиска имеется суммарный штраф. Введенный сигнал идентифицируется с той транскрипцией и , соответственно транскрипции, словом, у которого наименьший штраф. Для первых фонем значение штрафов берутся из матрицы для последних из ме и для остальные из к®.

В конца третьей главы описывается общая структура создав-ной системы распознавания, мнсгосло&арный режим ое работы, механизм настрояки на конкретного диктора и осневЕые характеристики программного комплекса.

На базе системы автоматического распознавания изолированных слов создана многословарная система автоматического распознавания. Данная система работает полностью в автоматическом

рокике, инея . на" входе только цифровую модель произнесенного слова. Первоначально пользователю предлагается список различных словарей, например, список может иметь следующий вид: 1. Общеупотребительный; 2. Математика; 3. Информатика; 4. Химия; и т.д. ... Конец. Каждая словарь имеет от 500 до 1500 специализированных слов.

Предлагается выбрать словарь из сшскз либо вызти из системы, сказав ключевое слово "Конец". При произнесении какого-либо слова система распознает его, и, если распознанное слово соответствует названию словаря, происходит автоматическое переключение системы нз данный словарь. Если же распознанное слово соответствует слову "Конец", система выходит в оболочку исследования сигнала. При выбире словаря система работает в режиме автоматического распознавания слов в данном словаре. В каждом из словарей выделено ключевое слово, при произнесении которого система возвращается в режим выбора словаря из списка.

В заключение приводятся основные результаты полученные в диссертации и даются дальнейшие пути и рекомендации по дальнейшему- развтию системы распознавания.

В приложении приводятся вероятностные таблицы, графики фонем, тексты некоторых программ.

Основные результаты работы.

1. На -основе изучения характеристик полного речевого сигнала выработана классификация фонем русской устной речи.

2. Усовершенствовано представление речевого сигнала в вида независимых периодов основного тона..

3. Разработан алгоритм согмен^ирования и маркировки звонких взрывных фонем 'б', 'г', и 'д'.

4. Разработаны алгоритмы сегментирования первых взрывных фоЕем группы % и мягких фонем данной группы, находящихся в середине и конце слова.

5. Разработан алгоритм сегментирования и распознавания фонем 'р'.

6. Усовершенствован алгоритм сегментирования и маркировки сочетаний фонем 'ми', 'ни', 'им' и 'ин'.

7. Разработан алгоритм распознавания фонемы 'п'.

8. Разработаны алгоритмы усреднения длины гласных и сонорных фонем и распознавания эти фонем.

9. Разработан алгоритм вероятностного поиска слов в ело-

варе по цепочке распознанных фонем, основанные на специальных ворсягпостных матрицах.

1В. В рамках описанных алгоритмов создана система распознавания с едгхногм словарем около 1508 слов и с выбираемым голосом словарем из списка, что в общем объеме составило около i"> тыс. слов.

11. В системе реализованы алгоритмы настройки ее на индивидуального диктора.

Основное содержание работы отражено в статьях:

1. Avetisyan Е.А., Medvedev A.M., Petelyak V.M., Frolov G.D., Shmelev A.A. A PC-Baaed System of Automatic Phoneme Recognition of Russian Speech. // PATTERN RECOGNITION AND IMAGE ANALYSIS Vol.2 No.l 1S3£ Г. ^2-CO.

2. Frolov G.D., Shmelev a.a. An Approach to Vowel Identification In a PC-Based System of Automatic Phoneme Recognition of Russian Speech. // PATTERN RECOGNITION AND IMAGE ANALYSIS Vol. 327-334.