Идентификация некоторых групп согласных в системе автоматического фонемного распознавания русской речи тема автореферата и диссертации по математике, 01.01.09 ВАК РФ

Аветисян, Эдуард Армансович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
1992 ГОД ЗАЩИТЫ
   
01.01.09 КОД ВАК РФ
Автореферат по математике на тему «Идентификация некоторых групп согласных в системе автоматического фонемного распознавания русской речи»
 
Автореферат диссертации на тему "Идентификация некоторых групп согласных в системе автоматического фонемного распознавания русской речи"

¡2.1 12 3 2 •

РОССИЙСКАЯ АКАДЕМИЯ НАУК ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР

4 , На правах рукописи

АВЕТИСЯН Эдуард Армаисовпч

ИДЕНТИФИКАЦИЯ НЕКОТОРЫХ ГРУПП СОГЛАСНЫХ В СИСТЕМЕ АВТОМАТИЧЕСКОГО ФОНЕМНОГО РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ

01.01.09 — математическая кибернетика

автореферат

диссертации на соискание ученой степени кандидата фпгпко-математпческих наук

Москва 1992

Работа выполнена в Московском педагогическом государственном университете им. В. И. Лешша.

Научный руководитель:

доктор технических наук, профессор ФРОЛОВ Г. Д.

Официальные оппонент ы: доктор технических наук В. В. ДЕЕВ, кандидат физ.-мат. наук В. 10. ОЛЮНИН

Ведущая организация: Институт проблем передачи информации Академии Наук России.

на заседании Сиециализпропанного совета ич nuz.o^.ui при Вычислительном центре АН России по адресу: г. Москва, ГСП-1, ул. Вавилова, 40.

С диссертацией можно ознакомиться в библиотеке Математического института АН России.

Автореферат разослан г.

Ученый секретарь Спецсопета

Защита состоится

час.

К 002.32.02 при ВЦ АН России, доктор физ.-мат. наук

К. В. РУДАКОВ

Ьу.¿»¡г.О- 2

- ч -

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы, Развитие современного общэства предполагает качестве ;пго (Зохэе высокий уровень информатизации всех структур данного общества „ что прямо зовисит от степени применения рыяислигельЕоа техники при решении сз?шх различных задач народного хозяйства. Все большее число людзя, де-являиця;ся специалиста?™ в области вычислительной технизот к информации, активно используют компьютеры и другую технику в свозз работе. Компьютеры все чащэ заменяют в произ-

водство и в быту, выполняя их работу с гораздо большей точностью и скоростью. Эти и другие факщ псст^вули на повестку ЮТ вопрос совершенствования срэдотз сС^онкя человека с гаетьягерон, что наряду с актуальны;*;? .с^г.этгаи в рамках об-сри проблзтлы создания искусственен йнтеллэктз, делает проблему чолоцеко машинного обЕрнйя одной из самых актуальных задач информации. Наиболее перспективными средства!.® Евдения' диалога с машиной являются системы речевого азрд а-вывода, поскольку они позволяют сделать этот диалог сяггстргзшым, быстрым, точным и привлекательным дат, етроксго ¿фуга пользователей.

Проблййа речевого диалога с компьютером решается ня основе исследований и' разработок устройств распознавания и синтеза речи. Процессы произнесения и восприятия речи, которые в обыденной жизни кажутся простыми и естественными, на самом деле при их технической реализации оказываются чрезвычайно сложными. Что объясняется большим разнообразней голосов, стилей произносения, неустойчивостью и случайности параметров речевого сигнала, многообразием способов построения высказываний, многозначностью их смыслового содержания.

Основной задачей распознавания речи является разработка методов и систем, в которых речь представляет собой входную информацию для различной аппаратуры, компьютеров, информационно-поисковых систем, систем идентификации личности и т.д.

Особенно полезным представляется введение речевого управления в промышленности, где

г

- руки рабочего заняты;

- требуется обострить возможность горедвижения рабочего

во время продесса ввода данных;

- рабочий должен неотрывно следить за экраном даспгзя,

оптическим прибором или какда-лиЗо другим объектов!

- условия не позволяют работать с клавиатурой.

Однако,существующие аа данный момент системы автоматического распознавания речи далеки от совершенства и в основном используют в качества эталонов слова, поэтому трудао, а подчас и просто невозможно шрэйти к распознаваний слитной речи при помощи применяемых в таких системах кзтодов распознавания. На наш взгляд наиболее подходяща стратегией в распознавании речи является фонемное распознавания.

Создание систем надежного автоматического распознавания является актуальной задачей, решение которой приведет к резкому увеличению применения компьютерной техники в обществе и промышленности, а также явится крупным шагом исследований в области искусственного интеллекта.

Пель работы. Поль работы заключалась в создании алгоритмов и программ идентификации некоторых групп согласных в системе фонемного распознавания русской речи на базе персональных ЭВМ типа 1ВМ РС/ХТ/АТ и Р8/2.

Для достижения поставленной дали в диссертации решались следующие задачи:

а. анализ современного состояния методов и систем распознавания речи, их характеристика с точки зрения перспективности применения в различных приложениях;

б. обоснавание целесообразности работы по фонемному распознаванию речи;

в. исследование свойств и характеристик полного и клип-пированного речевого сигнала;

г. совершенствование методов фонемного сегментирования речевого сигнала;

д. совершенствование методов распознавания различных груш фонем;

е. созданда удобного программного обеспечения для изу-

чэния свойств клишированного речевого сигнал?) >

ж. практическая реализация программных ерэдстз распознавания различных груш фонам на основа проведанных исследований;

з. реализация программного обесдочония по созданию фо-неиных эталонов дня любого диктора;

и. разработка некоторых словаря для многссловзрноа систе?лл распознавания;

Методы исследования. Метода исс^ЭЯОВЗпия заключались в экспериментальном исследовании своэетр пгшого и клишированного сигналов и их характеристик,

йсслэдовались егглзяятельзыэ характеристики как различных груш фонем, так и разных фонем в грушах.

Использовались ютщза нагссматическоа статистики, визуальные метода исашдазззйз» катоды числового анализа.

Научная новизна. Разработаны метода сегментирования и распознавания щелевых и фрикативных фонем, аффрикат, о так»» взрывных фонем 'к' и 'т'.

Разработаны некоторые словари в многословэрной системе фонемного распознавания русской речи с общим объемом словарей в 18 тысяч слов и полуавтоматической настройкой эталонов и словареа на диктора.

Практичзская данность. Результаты работы могут быть использованы э различных системах автоматического распознавания для дальнейшая эксплуатации в определенных системах управления и автоматизации на кекпыеггерзх различного типа, так как основные алгорэтмьг реализованы на языке высокого уровня С.

Алгорггвд распознавания фонем могут быть использована в разнообразных системах анализа и распознавания речевых сигналов. Система подготовки эталонов речевых единиц позволяет создавать эталоны на голос любого диктора как на произвольный, так и на ограниченный словарный запас.

Реализация результатов. Настоящая диссертационная рабо-

та являете;* ЗДс?ью работ* гфоизводиеьа совнэстйо в ИЛИ АЙ Föääiöt й ь МЯТУ ийени В<Й< Лзнйаа по разработке диалоговая сис¥&й йчал80ввк-компьютер<* б йспользовашэм речевого ввоДй-вьйода Шфйрййции.

фенаминов обеспечение рэажзовано на языке с дам язр-соЁайШХ компьютеров типа IBM РС/ХТ/АТ и PS/2.

АдЩбация работу. 0<®Ш(Ы9 рssyj&rfffrâ диссертации догладывались на научных севйШрах, прзиадтя в ИЛИ АН РосСЯН и М11ГУ имени В.И. Ленина. Разработаамя сивЫШ ра<яшнява~ нйя демонстрировалась на различных научных ЁСГрачаХ с рое-сйййШИи и иностранный сшциалистами в области распознавания образов.

Структура работы< Диссертаций состоит m вШдания, TpöX rlää, ääkJtmäSm, списка литературы, содеряайфго 109 источников и щШОшния. Всего 109 страниц , 35 рисунков, табдйц 5 .

СОДЕРЖАНИЕ РАБОТЫ

Во. введении раскрывается значение проблемы речевого обйэния человека с компьютером, доказывается актуальность разработок и внедрения систем распознавания дэечи, определяется даль работы и конспективно излагается ее содержание.

В первой главе проанализировано современное состояние проблемы автоматического распознавания речевых образов у нас в стране и зарубежом. Кратко рассмотрены4некоторые основные метода распознавания речи, приведены характерные для их преимущества и недостатки.

Особое внимание уделено наиболее известным системам распознавания речи, принципам их построения и областям применения. Указаны размеры словарей в системах, уровень надежности при распознавании.

Во второй главе изложены результаты исследований по создании системы автоматического распознавания речи. В ходе ЗК&Шримэнтов сравнивались графики фонем в различных произ-

несениях н местоположениях» изучались харжггорйстйки полного

н клишированного сигнала для трупп и отдельны* (¡говбм, приведены алгоритмы автоматического выделений гранйц для фонем ез класса иипяцих.

Предполагалось. что система должна биггь распознавателем отдельно произнесены! слов на словаре в несколько тасяч слов со скорость» реакции близкой к реальному времени (2-3 секунда). Произносить слова предполагаюсь дисциплинированному диктору.

Показано что задача, в основной» была решена. Созданию полной системы автоматического распознавания предшествовали разработка и апробация собстютйса классификации фонем русской речи» не совпадающей с Общепринятыми классификациями. Претятая система разде^ййй фонем не во все?! отвечает правился лшгвистшс!, 1рэййатики и т.д., но она представляется удобноа в сфзрй решения поставленной задачи.

Лгшая кййжфикация основана на стационарных характе-ркстйаз полного речевого сигнала таких, как наличие паузы (езрыва, взрывного участка), характера паузы, амплитуда, периодичность, количество пересечений функции речевого сигнала с нулем.

Для решения задачи распознавания отдельно произнесенных слов была выбрана стратегия фонемного распознавания речи, основанная на исследованиях как полного так и клишированного речевых сигналов. Эксперименты велись по всем трем нап-ра&икиям в фонеяном распознавании речи: фонемном сегменти-рюванни слов; поиске различительных прзизков фонем; восстановлении произнесенного слова по полученной фонемной цепочке

В работе приведена общая структура созданной система распознавания, изображенная при помощи основных блоков и модулей, считая, что каядай блок может состоять из нескольких модулей.

Указано, что модули системы написаны на таких языках программирования как 'С' и 'АззешЫег'. Система может быть установлена на 1ВМ-совместимых комтыотерэх, является открытым программным продуктом, что разрешает пополнять любой модуль, исключать модули, подключать новые. С помощью татар-

- в -

феаса - мене предоставляется возможность работать с системой в различных режимах:ввода-рыводз речевого сигнала; построения, исследования и просмотра графических моделей сигнала; автоматического, поэтапного и комплексного сегментирования; посегментного распознавания; анализа и сбора статистических матриц, их анализа и коррекции; пополнения и корректировки транскрибированного словаря.

Положительной особенностью системы является то, что она позволяет собирать эталоны фонем для разных дикторов, что предоставляет возможность исследовать характерные особенности произношения слов различными людьми.

Система использует словарь с алгоритмом вероятностного поиска. Проварка всей системы проводилась на словаре боже 1008 слов, при этом качество распознавания для дикторов мужчин составило 93-952!. При создании системы автоматического распознавания не проводились исследования характеристик сигнала речи дикторов-женщин, однако, на испытаниях системы на женские голоса на этом же словаре процзнт распознавания составлял от 50% да &2% в зависимости от диктора.

Пользователю предоставлена возможность полностью таре- ■ строить работу системы распознавания на свой голос, заменив статистические данные, фонемные эталоны или дополнив их, а также использовав своя собственный словарь.

В главе рассмотрены главные принципы и этапы сегментирования фонем в созданной системе распознавания. Под сегментированием, в общем случае, следует понимать расчленение речевого сигнала на кратчайшие функционально значимые отрезки-сегменты. При таком определении сегменты отличаются друг от друга совокупностью признаков или характером изменения некоторых из них. Поэтому разработка алгоритмов, позволяющих автоматически выделять фонемы и распознавать их, является актуальной и на сегодняшний день.

Пусть функция уШ описывает аналоговый речвааег сигнал, к которому применяется операция клиширования. В результате этой операции получаем функцию клишированного сигнала

г 1, если *<Ш г ч;

l 0, если v(t) < q, где q - экспериментальный порог, называемый порогом клиширования.

Предметом изучения является дискретная информация о речевом сигнала, которая может быть * получала преобразованием

функция r(t) в последовательность X * • гда

xj - расстояние в количестве шагов ai Мйжду двумя последовательными нулями функции v(t), T.é. st. - расстояние между первым и вторым нулем, х2 - расстояние между вторым к третьим и т.д. Пример преобразования приведен на рисунке. Каждому исходному произнесений поставим в соответствие

числовую кодель х « •

Алгоритм фсжеязого сегментирования состоит из следующих этапов.

Этап 1. Определение длительностей периодов ОТ.

Этап Z. Графическое представление стукгур периодоз ОТ п

числовой модели Х= {xpi=1 в ввдэ символьной матрицы llajjll. позволяющей в дальнейшем осуществить визуальное сегментирование квитированного речевого сигнала, отражающее изменения его частотных характеристик.

Этап 3. Горизонтальное деление матрицы Ца.^Ц на сегменты типа Т1, 12, 13, соответствующие шипящим, взрывным фоне-маи и участкам квазигориодичности.

Этап 4. Установление границ между фонемами внутри сегмента типа 13.

В главе приведен рисунок примера сегментирования слова "атака" при использовании данного алгоритма.

Конечный результат работы алгоритма можно представить в следующем вида:

n k Ni

Е х- = г £ х ,

^ J 1=1 а-4=>+Г

где к - количество сегментов; - номер элемента из

п

Х={х.j-=1 , который находится на последнем месте . в Ь-ом

(1 î I î к ) сегменте ; s - метка, показывающая к хащку классу отнесен i-ыа сегмент. При этом, если:

г 1, то к классу шиподи* (тип Т1)

2, то к классу взрывных (тип Т2)

3, то к классу гласных (т»ш Т3>

4, то к классу сонорных {тип ТЗ)

Экспериментальное тестирование алгоритма автоматического сегментирования показало, что некоторые фонемы могут разбиваться на несколько сегментов, но не более чем на три.

На основе исследования полного речевого сигнала общая схема сегментирования дополнена выделением из речевого сигнала взрывных второго порядка <s=5), выделением отдельно îi3 взрывных первого порядка фонемы 'п', а также отдельным выголвнием фонемы 'р'.

Для расмотрения алгоритмов уточняющего выделения фонем из класса шипящих введем некоторые обозначения:*

A (Array) ={ а1,..ап }={ а- - Последовательность введенных значении речевого сигнала.

AG (Array Clipped) ={

}=iac.)"=1 - Последовательность, соответствующая клишированному речевому сигналу < массив клишированного сигнала).

AT (Array of Tone) = {at.,.....atp}=(atk}P=1 - Последовательность, представляющая числовую модель периодов основного тона речевого сигнала, которая получается в результате анализа низкочастотной составляющая полного сигнала и деления на периодические, почти периодическиеч и непериодические участки.

aietj (maximum element tone) - Максимальный элемент последовательности А на шриоде основного тона at..

Пусть элемент aj является значением дискретной функции, представленной последовательностью А, в точке экстремума j, т.е. aiajia.+1 или . Назовем величину x=ABS

(aj-aJ._1 ) гладкостью полного сигнала А в точке j, где ABS есть модуль числа aj-aj_1. Сумму значений х, соответствующих одному клишированному элэменту ас. последовательности ас, назовем гладкостью полного сигнала А на клишированном зле-

менте acjCAC.

. (tone ansoothneaa) - Гладкость на одном периоде основного тона. Значением tsm является сумма гладкостей всех ^датированных элементов, содержаться в этом периоде.

ASURL (Array Segment UnRecogn i ¿ed Labeled) - Нераспознанный промаркированный сегмент.

ASRL (Array Segaent Recognized Labeled) - Распознанный промаркированный сегмент.

ASR (Array Segment Recognized) = {ASRL ASRL }-

{ASRL.J®=1 - Последовательность распознанных промаркированных сегментов (цепочка распознанных фонем).

gl - Множество гласных фонем.

sh ~ Множество шявдкх фонем.

Sn - Множество сонорных фсшега.

Vg - МНОШСТВО глухих взрывных фонетз.

'Vz - Множество звонких взрывных фонем.

На - Множество нестационарных фоиян.

Пусть i- номер периода основного тона, a x={ac,<v.. .ас,} подпоследовательность последовательности ас , соответствующая данному периоду основного тона и J n1 - среднее значение

i

-Ç acj

на гориоде основного тона, равное -----, где n^i-k+i.

Если ((teaj>IIM1 Л a,<LIM!2) v (tsm.>2®0 л а,<6 л ng>20) v (te«j>iiHi3 ^ п^цшг * irott<UMi4>), где

LM1 =400,

LXM12-10 ,

LIM13*380,

ши4=50 - экспериментально вкбраяныэ пороги, и если выполняется одно из двух условна:

1. при начальном сегментировании период с номером i основного тона был промаркирован как G1 и п., iLIM12/2 ;

2. при начальном сегментировании период с номером i основного тона был промаркирован как Vz и не существует

асj>400,тогда данный i-ыа период будет промаркирован как Sh, т.е.как период, отнесенный к классу шипящих фонем.

После завершения основного сегментирования шипящих и взрывных исследуется возможность выделения шипящих вторым способом. Если имеется два и более подряд идущих триодов основного тона, являющиеся алериодичными и для каждого из лих выполняются условия:

tsm; > ЫМ22 И met- < LIM23, где ИМ22=110,

ЫМ23=40 - экспериментально выбранныз пороги, то данные периоды будут также промаркированы как £Ь, т.е. как периода, отнесенные л классу шипящих фонем.

Показаны сегменты клишированного речевого сигнала, промаркированные как Sh, в графической форма.

Указано, что приведенные выше метода не решают вопроса определения границ между шипящими фонемами, стоящих радом. Разработан следуют алгоритм разделения двух шипящих:

Находим длину общего сегмента; промаркированного как Sh т.е. вычисляем сумму всех элементов из подпоследовательности

ACS последовательности АС клишированного речевого сигнала р

SAE = Ё ас. , где п - число элементов в сегменте. i=i *

Если SAE. > LIM80, то рассматриваемый сегмент должен быть разделен, где

ЫМ8О=6500 - экспериментально выбранные порог.

Сегмент делится для начала на две часта так, чтобы вновь полученные saef и säes были приблизительно равны между собой, где saef и sae5 - суммы элементов сегмента соответственно в первой и второй его частях. Затем происходит сравнивание периодов до и после установленной границы для окончательного и более точного разделения фонем.

Пример разделения фонем 'с' и 'о' в слове 'сшз' показан на рисунке, приведенном в главе.

В дальнейшем, в главе кратко списываются примененный способ. идентификации слова по полученному набору фонем и многословарная система распознавания, созданная на базе системы автоматического распознавания.

Цэпочка промаркированных распознанных сегментов

ASR = {АЗКЦ ....,ASRI^} = {ASKL.}|=1

образуется по окончанию выполнения алгоритмов сегментирования и распознавания. Затем ее подвергали различным видам преобразования, отвечающим правилам русской речи.

Так же по размерности сегментов определяется ударная гласная в цепочке, что является вахтам для дальнейших исслэ-довашга.

Последующим шагом было сравнение преобразованной цепочки фонем АЭВ' с набором эталонов представленных в транскрибированном словаре и выбор соответствующего слова по принципу каньвэго расстояния.

На базе системы автоматического распознавания изолированных слои создана многословарная система автоматического распознавания. Данная система работает также полностью в автоматическом рэжякэ.

Таким образом разработана система более чем на 10 тысяч слов,' что, впрочем, никак не ограничивает дальнейшие возможности расширения как списка словарей, так и количества слов в них, очевидно, с понижением качества распознавания.

Автоматический режим работы системы позволяет встроить программу в достаточно широкий спектр разнообразных систем управления, поисковых систем, даже баз данных, что и является главным итогом и достоинством данной разработки.

В третьей главе описаны алгоритмы идентификации фонем ИЗ классов шипящих и взрывных, анализируются полученные результаты, рассматриваются недостатки и перспективы данного фонемного подхода к распознаванию русской речи,

Эксперименты по сегментированию слов и распознаванию отдельных фонем выьявилн большую изменчивость фонем, их подверженность влиянию соседних звуков, трудность, выделения фонем в чистом виде из потока речи. Выъяснилось, что число классов речевых звуков значительно превышает число фонем речи, что эти классы пересекаются, т.е. не поддаются полному и точному разделению.

Поскольку распознавание речи на фонемном уровне оказалось чрезвычайно трудной задачей была применена упросзэнная классификация звуков, приведенная в главе 2. Из данной классификации в распознавании двух классов

применялись идентичные метода обработки подученных числовых моделей.

&га класс шипящих: 'с, 'Ш', 'щ', 'з', 'ж', 'ф'. 'х', 'П', 'ч' и фонемы из класса взрывных шрвого порядка: 'т', •к', всего в главе 3 идет речь о распознавании 11 фонем.

Приведены графики полного сигнала всех данных фонем.

Внимание ко всем названным фовеязм обосновывается самой структурой системы автоматического распознавания речи и подходом в восстановлении слов по полученной цепочке распознанных сегментов.

Б главе описан подход, примененный для идентификации данных фонем, основанный на обнаружении взаимных связей между двумя и более случайными величинами. В инженерных применениях такие задачи сводятся обычно к установлению связи между некоторым предполагаемым возбуждением и наблюдаемым откликом изучаемое физической системы. Существование таких взаимосвязей и их относительную силу можно измерить коэффициентом корреляции р и оценить его по выборочным данным следующим образом:

N

Е (х{-х)(у|-у) 1=1

г =р ху ху

N ,

£ (х •— X}' 1=1

> к

Е (У^ у)

1=1

n

Ех.

1=1

У1 - Ы-х-у

[ Ех? - Н х21[ Е у? - N у2|

^ 1=1 I 1=1

(3.1 }

Приведены таблица с примерами подпоследовательностей

АСг={ас1.....асд} = {«с}3|=1 последовательности АС, соответствующие клишированному речевому сигналу (массивы клиппиро-

вавого сигнала), дая фатт 'с', 'ж', 'ф', 'к'.

Представляетея очовэдггым создание статистических ши эталоных массивов данных для каждой из фонем таким образом, чтобы было возможным Проверить коррелированность мезхду эталонами я получений» аналогично массивом входной реализации речевого сигнала.

ОддокгрЗгЗ массйэ х={ х1,..., хт) может быть получен слэдукда aSpszm:

SAH.

v х.= ——■-=— , где sae,- сумма всех злэкентов ac=i, т.е.

SAH ki

sae.= Е i , где к.- частота появления J элементов ac=i и

SriE - суша всех злэкенов в сегменте (длина сегмента по врзтанл), т.е.

п

SA Е- Е ас. , где п- количество эле--J=1

ментов в сегменте.

Фрагмент программы отвечающей за создание массива X приведет в приложении . В программе это массив S, который организован следующий образов - з(0) - зарезервирован, з(1) - з(20) - содержат элементы массива х норжфованные ушожэнием на 100, в а(22) хранится а - математическое опси-даниэ пос-'эдоватэльности з(1 ),з(2),..,з(20), в з(23) - дис-горсия, з я(24) - срэдЕюо квадратичное отклеиенкэ, 15

а(21)=(SAE-£ х.). Массив S состоит из 25 элементов, это обу-1

словлено тем, что на основании проведанных экспериментов установлены наиболее информативные элемента послэдовательно-.сти АС для шипящих и взрывных первого порядка, которыми являются числа ас. от 1 до 20.

Обучение эталонного массива т={у1,...,уш3 происходит следующим образом:

+х,

yf1 --—^ , где

1 Г+-1

г - Еотар предыдущего эталона, соответствует количеству

реализация,

- элемент создаваемого эталона,

jj - элэмэнт предадудэго эталона,

- элемент входной реализациия,

! указывает какому из элеаэнтов гослэдоватальности ас соответствуют элементы эталонов ( соотввтсвует ac=i ).

В программе массиву Y соответствует массив ST_ET, в котором at_et(o) содэркит г, а остальньа агэменты организованы сооветственко элементам массива s.

В программе распознавания массив X, рассматриваемого сегмента исслэдуется на коррелкруемость с эталонный!! массивами, организованными для каадой из фонем данных классов, по формулз (3.1) нахождения коэффицшнта.коррзляцда. Таким образом, входной сегмент идентифицируется с фоеамой, коэффициент корреляции с эталоном которой наибольший .

Для повышения надежности распознавания было прэджзиэво найти те условия и параметры обработки клишированного сигнала, при, которых классы рассматриваемых фонем можно было Сы расчленить на более мзлкш 1руппы и распознавание проводить уже внутри подученных групп, что должно было значительно улучшить результаты распознавания.

Класс фонем взрывных первого порядка, состоящий первоначально из трех фонем 'п', 'т', 'к', был сужен до двух за счет отдельного выделения, и распознавания фонемы 'п', что позволило распознавать сегмент, промаркированный как Vz, с высоким процентом точности.

Точность распознавания в гэвисимости от местоположения для фонемы 'к' достигает 98%, для фонемы 'т' - 94%, что яв-.зяется вполне достаточным применительно к данной системе распознавания. '

На основании многочисленных исследований и изучения графических представлений фонем и их числовых моделей были отмечены сходные и различные признаки фонемных структур.

Исходя из Проведенных экспериментов класс sh был разбит на следующие группы: sti. = {'с','и','щ'}, Sl^ = С'ж'.'з'}, Shg = {'Ц','4'3 и Sh4 = {'ф'.'Х'}.

Общий алгорита распознавания сегментов, промаркирован-

ных как 5Ь может быть представлен следующим образок:

a. вкбор между группами вь1, бь2,

b. распознавание финем в группах оЪ^, £Ь4;

c. при наличии взрывного участка в лзчале фонемы, распознавание фонем в группе БЬ3

Выбор между группами БЦ, и основан на применении пороговых значения, полученных экспериментальным путем.

Для идентификации фонем в грушах находятся коэффициенты корреляции между массивом х и теми статастическюг* массивами У, которые входят в соответствующую группу. Из полученных коэффициентов выбирается максимальный, по которому и идентифицировалась распознаваемая фонема. Следует оплатить, что для фоном 'ф' и 'х' собраны по три эталона, в зависимости от места в слозэ. Фонемы 'ц' и 'ч' распознаются по общим эталонам с фонемами 'с' и 'а'. В каждом эталоне обобщены несколько десятков реализация, респондентами в создании и распознавании выступало около 20 человек.

Точность распознавания составляет для 'С - 87%, для 'ш' и 'щ'- 95%, для фонем 'з' и 'ж' - Я6-97%%, для фонем 'ц' и 'ч' - 97-8835".

Результаты, подученные в ходе исследования показали, что использование клишированного речевого сигнала дзет обнадеживающие данные не только для сегментирования, но и—дог распознавания фонем. В значительной степени это относится к сегментированию и распознаванию фонем классов шипящих и взрывных первого порядка. Однако, результаты в распознавании требуют дальнейшего улучшения и уточнения.

В дальнейшем отмечены некоторые еще нерешенные проблемы в распознавании фонем рассматриваемых классов и предполагаемые пути последующих исследований по повышению надежности распознавания.

В заключение приводятся основные результаты полученные в ходе работы над диссертацией.

В приложении приводятся тексты некоторых программ дея исследования и распознавания фонем, графики, таблицу.

Основные результаты работы.

г. Проведен анализ современного состояния проблемы распознавания речевых образов.

2. Устансагоно, что мгжшъзоааякэ идащированого рече-■ -:го сигнала позволяет реашъ, й основном, проблему автоматического выделения и вдентсфикацйи некоторых групп фонем.

3. Разработано сетаевхирэванвэ аффрикат, шшявих и фрикативных фонем

4-. Выявлена возможность разбтшя класса ядаящих на несколько подклассов, что облегчило певышяда качества распознавания фонем данного класса.

5. На основе проведенных экспериментов разработан ¡метод создания статистик фонем и их обучения, rgs? котором статистика могат быть собрана заново для любого диктора.

6. Созданы алгоритмические я программные средства, дозволяющие изучать рассматриваемые объекты, графически стобрз-жэть статистические особенности фонем.

7. Точность распознавания .фонем из классов веншжх в взрывных составляет 83-8782 в зависимости от диктора.

8. В многословарном режиме использования системы созданы словари для некоторых часто встречающихся областях знания и расширяющих возможности применения системы, как легко адаптируемого к нуждам пользователя программного продукта.

9. Проанализированы недостатки рассмотренного метода к пути дальнейшего повышения качества распознавания.

Основное содержание работы отражено в статьях:

*. Avetisyaii Е.А., Medvedev A.M., Petelyak V.M.. Frolov 3.L1., Sfcmelev A.A. A PC-Based Systen? of Automatic Phoneme Recognition of Russian Speech. // PATTERN RECOGNITION ANI< IMAGE ANALYSIS Vol.2 No.1 1992 P. 32-5S.

2. Avetisyan E.A..Frolov G.D. On Problem of Recognition of Sibilants in a Systen of Automatic Phoneme Recognition of Russian Speech. // PATTERN RECOGNITION AND IMAGE ANALYSIS Vol.1 No.3 1991 P. 332-334.