Теоретические аспекты распознавания - звуковая речь тема автореферата и диссертации по математике, 01.01.09 ВАК РФ
Тетерин, Алексей Николаевич
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Санкт-Петербург
МЕСТО ЗАЩИТЫ
|
||||
1992
ГОД ЗАЩИТЫ
|
|
01.01.09
КОД ВАК РФ
|
||
|
V' Г бАНКТ-ПЕТЕРБУРГСКШ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
1 5
На правах рукописи
Тетерин Алексей Николаевич
ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ РАСПОЗНАВШИ - ЗВУКОВАЯ РЕЧЬ 01.01.09 - математическая кибернетика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-ыатеиатических наук
Санкт-Петер<5ург 1992г.
Работа выполнена на кафедре математического обеспечения ЭВМ математико-механического факультета Санкт-Петербургского университета
Научный руководитель: доктор физико-математических наук,
профессор
Братчиков Игорь Леонидович
Официальные оппоненты: доктор физико-математических наук,
профессор
Фомин Владимир Николаевич
кандидат физико-математических наук, доцент
Еникеев Ар.слан Ильяс'ович Ведущая организация: Вычислительный Центр Российской АН
Защита состоится " ¿ " /,*/>./# 1993 г. в /Гч. на заседании специализированного совета К 063.57.49 по присуждению ученой степени кандидата физико-математических наук в Санкт-Петербургском государственном университете по адресу: 198904, г. Санкт-Петербург, Петродворец, Библиотечная площадь, 2, математико-механического факультета СПбГУ, зал заседаний Ученного Совета.
С диссертацией можно ознакомиться в научной библиотеке университета (г.Санкт-Петербург, Университетская набережная, Д. 7/9).
Автореферат разослан " м^^гсл 1993 г.
Ученый секретарь специализированного Совета
А. И. Шепелявый *
КРАТКАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Эффектирность использования современных быстродействующих ЭВМ . существенно сдерживается ограниченность« средств ввода-вывода и может быть преодолена только путем создан;;.-! систем как непосредственного чтения текстов а изображений, так и восприятия, человеческой речи, т.е. за счет рец'ен'/.я соответствуй« задач распознавания. Решение задач распознавания ситуация также необходимо для создания интеллектуальных систем самого разного назначения Сробототехника, медицина и техническая диагностика, метеорология и т.д.).
.Теория распознавания как теоретическая основа проектирования, создания и эксплуатации различных опознающих устройств к сложных комплексов имеет такяе непосредственное отношение к наукам о человеке - к нейрофизиологии, психофизиологии, психологии и др.
, Важной стыковкой проблем исследования систем естественного я искусственного интеллекта становится сравнительный анализ процессов опознавания в естественных и искусственных системах. Это не только имеет прямое отношение к бионическим разработкам, но и позволяет глубже и детальнее раскрыть' механизмы опознавания в хивых системах.
Цель работы состоит в разработке и обоснавании новых детермкиистких методов классификаций, что невозмогло без изучения теории отделимости множеств, и приложении этих методов к построению систем автоматического распознавания речи С САРР'!. К основным задачам исследования относятся: отделимость ограниченных необязательно выпуклых и связанных " множеств;;
разработка и верификация метода классификации, использующего решение предыдущей задачи, для первой стадии распознавания и стыковка его с процессом.сегментации речевого сигнала;
оценка метода по времени, используемым ресурсам и кадехости; . быстрая идентификация ошибочных кодовых последовательностей в больших словарях.
Научная новизна работы заключается в следующем: -для сегментации, нормализации сигнала по времени и выделения информативных частей используется измерение длительности переходных участков; .
. -доказаны теоремы, лежащие в основе предлагаемых алгоритмов
обучения двух типов;
-разработан ковы?, процесс классификации и даны его оценки по используемой памяти и времени работы, не зависящие от длины обучаете!: последовательности;
-лан критерий представительности, оценки длины обучавшей последовательности к надежности распознавания для классов, представленных ограниченными множествами;
-решена задача выбора системы признаков: исключение неииформатизных, нахождение избыточных и их качественной оценки;
-разработан алгоритм идентификации ошибочных кодовых последовательностей в словаре.
Теоретическая ценность работы состоит:
-в развитии теории отделимости множеств: доказана новая •георема об отделимости ограниченных множеств по одной координате при разбиении пространства R""1 на полуоткрытые дйзьюнктные ячейки, дана количественная опенка числа этих ячеек;
-в развитии детерминистской теории распознавания принципиально новым механизмом классификации, обеспечивавшим стопроцентную надежность на обучающей последовательности!
Практическая ценность состоит в простоте предлагаемых методов, а значит в уменьшении стоимости обслуживавшей аппаратуры , и программного обеспечения, решавших задачу распознавания речи в реальном масштабе времени для больших словарей.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на: 15 Всесоюзном семинаре "Автоматическое распознавание слуховых образов" (АРСО-15, Таллинн, 1989), 4-ой 'Всесоюзной конференции "Математические методы распознавания образов". СММРО-4, Рига, 1989), 1-ой Международной конференции "Информационные технологии для анализа изображений и распознавания образов" CITIAPR-1, Львов, 1990), 5-ой Всесоюзной школе-семкнаре "Бионика -интеллекта" (Харьков, 1991), 1-ой Всесоюзной конференций "Распознавание образов и анализ изображений: новые информационные технологии" СРОАИ-1, Минск, 1991), на семинаре в НС по комплексной проблеме "Кибернетика" АН СССР С1991).
По результатам выполненных исследований опубликовано 7 работ. Диссертационная работа состоит из введения, пяти разделов, заключения и списка литературы С89 назв.) и содержит 87 страниц с 6 рисунками и 1 таблицей.
СОДЕРЖАНИЕ ДИССЕРТАЦИИ
При рассмотрении методов идентификации речи можно выделить задачи, возникающие при распознавании любых обраэоз, а также специфические задачи, возникающие в ходе развития САРР.
1)традиционные задачи: классификация; выбор признаков; выбор решающих правил; определение длины обучающей последовательности; '
2)специфические: устранение деформации темпа; членение потока речи; идентификация ошибочных кодовых последовательностей в словаре.
Глава 1 ставит эти задачи и обосновывает общую структуру работы С рис.1) . Раздел включает обзор литературы по САРР и анализ проблем, стоящих перед их разработчиками.
Характерной чертой методов, применяемых в настоящее врем, является совмещение сегментации с классификацией, хотя основа обучения и понимания речи человеком состоит в способности слухового аппарата сегментировать речь на неотклассифицированные участки. С учетом этой особенности предложена следующая схема распознавания речи. .
Спектрально-полосный ' сигнал _
Сег- Клас- Иден-
мен- сифика-8 тифи-
тация квази- ЦИЯ слова с кация
"фонемы 1 ошиоками в сло-
1 1 варе
Глава 2
Глава 3
Гл.4
Глава 5
Отделимость ?шожеств
Рис.1. Схема распознавания речи.
Глазным обстоятельством, повлиявшим на выбор спектрально-полосного представления сигнала, следует считать работающее шестиполосное устройство ввода, созданное сотрудникам! отдела А. Н. Петрова в КБ завода "Россия". На этом устройство ввода, были опробованы алгоритмы сегментации и получены даьные для создания теории в главе 4, база которой описана в разделе 3.
Главная проблема - изменчивость теша речи (нормализации слов по длительности), выражающаяся в неконтролируемых флюктуация* продолжительности звуков речи, их участков и пауз, остается наиболее сложной задачей для САРР.
Для преодоления трудностей, связанных с деформацией теша речи, следует обратиться к переходным участкам, имеющим по . своей природе меньшую вариативность по длительности. В многодикторских системах их изменчивость может компенсироваться линейными методами. Способ [1,1987] заключается в измерении длительности внутрифонемных С-дг.фонных, -транземных) переходных участков и мехфонемных переходов. Длительность первых меньше, что ц дзет возможность провести сегментация на квазифонемном уровне. Помимо этого он позволяет выделить наиболее информативную часть Сслабоизменчивнй сегмент максимальной длительности? или несколько частей каждой квазифокемы. Этот принцип можно использовать с быстрым преобразованием Фурье, автокорреляционной функцией, коэффициентами линейного предсказания.
Бее исследователи з области распознаваний речи полагают достаточной частоту дискретизации 10-20 мсек, и есть ряд работ, утверждающих о снижении качества распознавания при ее уменьшении, что не удивительно при использовании традиционных методов. , Б работах по исследованию речевых спектрограмм показано, что длительность пере-ходккх участков некоторых фонем лежит в пределах частоты дискретизации. Следовательно для реализации предлагаемого принципа в нашем подходе она должка быть уменьшена в несколько раз. Это не увеличивает объем памяти из-за возможности выделения информативной части в . реальном масштабе времени, т. е. запоминанием 1-ой дискреты (спектрального среза) с указанием его длмтельностиС§2.2). 0 Выделение качала и конца фразы не зависит от сегментаций§2.1). Изучение вопросов отделимости множеств (§3.1-2) продиктовано детерминистской постановкой задачи классификации с аппаратом аппроксимации разделяющей поверхности, что вытекает из §4.1.; Для рассмотрения отделимости определим следующие термины: - действительное п-мерное пространство элементов' , х = (Х1'Х2.....хп), у = Су1,у2,...,уп);
р(Д,В- ^ Н х - у Ц: х € Д, у е В> ~ расстояние между двумя
множествами А и В-
/ипА х е |? | 3 х1.х2-----х^е Д:
..., хп_1.х) € А } ~ проекция множества Д на п- координату пространства Д^ ^ ^-прямоугольники (полуоткрытые ячейки), имеющие вид;
(ЦЬ, 1,Ь+Ь] х ... х С 1П_1Ь+Ь], где Ь - длина ребра,
1^,12' •••> -п-1 " целые числа. Могшо яереобозна«ить .....•
Теорема 1. Пусть Д,В £ ¡?п. А и В ~ ограничении, рСД.В^ <Ь> О-
Тогда существует такое семейство прямоугол:-кикоа ,
Н
чтс А^^СД и В) £ и для лвбого ¿¡., если х е Д, У £ В.
е V 70 IV УП! = " ^ " 6 = 4°-
Следствие 1. Если Д.В £ А и В ~ ограниченны, р(Д,В)=о°> О, то существуют семейства {Д^ , х'В^г |=1• такие что
А = " А- 3 В1. А^ А,= В^Вг 0 при А.ив^е « 1=1 1 .1=1 1 •> х ^ *
РОпА1' пгпВр 2: 6 = % .
Фактически 6 ¿'о при N — и или 'другими словами 6 > (5оС1-лгЗ, где с 0 при N — со
Минимальное число К для заданного с > 0 равно количестну прямоугольников
»* ЙЫ^ге
где ССД.В)- ребро кубаСячейки), содержащего Д и В' Без.потери общности достаточно рассматривать отделимость ограниченных множеств в единичном куба, а для получения минимального N можно взять е ~ 1, тогда справедливы оценки:
п-1 п-1
Г^ЕП . < н < Г-^О
В §3.3 указывается на эквивалентность предлагаемой теореш и аппроксимации разделяющей два множества поверхности ступенчаты?® функциями.
• Если выбрать некоторое значение д я . 9 £ • где ^ ~ =CДix п А * <3. 3А = СД|Х ф п В " 3, равноудаленное ст соседних . проекций множеств на г.-координату, . то мозко говорить о задании ступенчатой функции с областью определения в пространстве или
разделяющей поверхности в пространстве р":
■ д(х) * Е где х е ^и = - вещественные
числа, для некоторых А1 выполняется неравенство I > 1, что говорит о многозначности упомянутой выше функции в случае пересечения выпуклых оболочек Д и В;
Пусть функции д, дп(п=1,...), определены на множестве
гъа гСД и В) И ГСх) - Ит дп(х). В этом случае можно сказать, что
К1' А ^->00 11
последовательность {^ поточечно сходится к функции Г. Становится очевидным следующее утверждение.
Утверждение. Яобая финитная многозначная вещественная кусочно-непрерывная функция | может быть аппроксимирована поточечно ступенчатой функцией вида дСх) = Е ?; с точностью ,до с.
1=1 1 п.
N
В §4.2 для формализации процесса получения семейств 1=1 Доказаны основные теоремы 4, 5, позволяющие построить алгоритмы обучения (1-го и 2-го типа) с "учителем", когда известна принадлежность каждого элемента одному из множеств.
Теореуа Пусть Д,В £ А.и.В ограничены, рСД,В) = бо > 0.
Тогда существуют такие множества вида ^ х 1?°"*, 1 = 1... N. что N
.иС^ А и В. СА * В. С]П Су- 0 при и множества ДА= СХП А» В|= (¡¿П В разделены в пространстве г?"-1,так что
Справедлива следующая оценка числа N для этой теоремы:
N > С ( А, В)
При каждом проектировании в пространство меньшей размерности от к I?1 расстояние между проекциями изменяется на величину 5оС1-г) и становится невозможным взять с=1. Значит, окончательная оценка может быть записана в виде: -
11 г Г
Она хуже теоретической для размерности пространства п больше двух и может превысить оценку с верху, если не выполнено всегда разрешимое (пс теореме 1) неравенство: Се(2-с))п~*(1-г:)^('п~^> п относительно е на отрезке (0..1),' что говорит о нзоптимальности алгоритмов первого типа.
п-1
(1-е)
Определим (СД,В) для алгоритмов обучения второго типа. Пусть А,В S R, рСД.В) > О» А и В ограничено. Положим ао = *г.ДД U g),
v [ао „ kfiiLB), ^ ^прсдгв)д
КСД,В) » fki.kj+l....fci+р^^ где Ак .....р П В * 0
и™^.....Лк1+Р1лА^0
ССД.В) Ji
Пусть Д.В - R0. рСД.В^ > 0 и множество Д U В ограничено. Определим (П(Д,В). Пусть к е <l,...,n>, aJc= inf. рл^СД U
бок= oufi { <5 |р Ся^-^АП ta, a+51 х R^1),
^Rn-1(B П ta, a+il x R^1)) > fi^iffi. J.
Пологим CfcCA-B^ = C^C/Wmi-iCA П la. a+б) x r£_1).
-l/B л ta, a+<5] x Rj?"1)) x [a, a+dol =
= { Еа, а+(5о1, ... |гах Са, а+5о1},
где |и- параллелепипеды в Пусть к^, кп~ последователь-
ность чисел из множества <1, п). Пусть Д^= Д, Вр В<
Ая+1= V С1 х ^ С* * [аК'
га и п га ш шшш
Тогда 3 М: Д = Ъ положим СП<А.В) = и С*1 САп-В-,?
1МШШЁ=МьУ V А. В 5 РСА,В> - бо > О, див ограничены, имеет место:
1) V I е СПСА. В) - I =0;
2) V I е СП(А,В): Ап I =.0 уВ п I = 0;
35 16%А.в/П,=А' П%.В)8П|=&
Итак, разбиения пространства возможны путем последовательной редукции от Я" к р1 "сверну вниз" согласно теореме 4 и от й1 к согласно теореме 5, соответствуете алгоритмы описаны в §4.3. В обоих случаях строится ыногество границ А, ко!дность которого во втором случае близка к теоретической кз-за возьюжнети использовать с=1.
Удобно упорядочить О, используя понятие координатных отношений на множестве точек Пер", которые определяются.однозначно знаками разностей одноименных координат.' Для алгоритмов 1-го типа определя-
ется одно отношение так, что порядок определения разностей остается постоянным. Если на множестве определены произвольные отношения . на неупорядоченном наборе координатес помощью дерева) - то это алгоритмы 2-го типа.
Для алгоритмов первого типа одним из таких отношений является отношение лексикографии С L3 :
Су х,у е Rn) [х L у] <=> [xki> уЦ v yklA xk2> Ук£ v ■ .
где k2> ... >kn, т.е. задан линейный порядок, a k¿- номер, координаты на i-ы месте порядка.
Таким образом, задача обучения сводится к нахождению элементов упорядоченного множества ft. А задача распознавания отыскание ближайшего от начала списка элемента, для которого выполняется отношение Парето, в данном случае Р с L. х Р у х е П, у <= R" , х Р у Су j = I7~ñ) Xj> yj Л x * у.
Второй тип алгоритмов предполагает упорядочивание в виде бинарного дерева, в каждом узле которого находится номер координатной оси и ее значение. Можно принять, что , левой ветви; соответствует отношение <, а правой >. В листьях находится номер класса. Б этом случае тоже можно говорить о построении ступенчатой / функции, 'область значений которой не фиксирована на одной координате. .
Принцип "снизу вверх" от R к Rn дает возможность использовать правила локальной оптимизации для решения задачи переборавариантов следования и группировки координат или иначе решать задачу минимизации числа признаков (исключение избыточных). После минимизации применять алгоритмы второго типа ня всегда целесообразно из-за резкого возрастания объема П. Последнее не отражается на работе алгоритмов первого типа за счет использования быстрых алгоритмов бинарного поиска в упорядоченном массиве. В этом случае время распознавания: t ~ /ff^gNCk+l) n ¿<?02<5о 'v.
Общепринятым считается подход, связанный с минимизацией числа признаков. На первый взгляд, N сокращается : при' уменьшении размерности пространства, но это не так. Исключение избыточного признака целесообразно, если это приводит к уменьшению числа ячеек, т.е. ó в новом пространстве удовлетворяет условию;
Аналогично, добавление нового признака оправдано, если:
. ' > уЙГ © "
Из этой фор?,7ли следует ванный вывод о возможности найти такую размерность пространства и такие признаки, что мощность множества П будет соответствовать количеству классов при некотором п.
В целом предложенные алгоритмы позволяют динамически изменять количество признаков в зависимости от условий распознавания и близости к разделяющей границе. Первое подразумевает обнаружение неинформативных признаков для всего пространства [?п или его подобластей, а второе допускает использование дополнительных признаков для четкого распознавания образов в отдельных малых областях, близких к разделяшиы границам. Последнее справедливо для участков пересечения двух множеств, которые локализуются алгоритмами, а в качестве дополнительных признаков используется контекст либо ввод признаков экспертами.
Вопросы надежности и оценки длины обучающей последовательности обсуждаются в §4.3.1. Для минимизации ошибки распознавания произвольной точки пространства необходима представительная обучающая выборка Д' и В' из Д к В- Теоремы 1 и 4 позволяют ввести следующей критерий представительности: расстояние между точками обучающего {ягокества, принадлежащими одному из классов, много меньше 6о. Или количество точек обучающего множества,должно быть настолько большим, чтобы расстояние между точками, принадлежащими одному из классов, было много меньше расстояния между классами бо. Выборка Д', В' возможна из несвязанных множеств и ее можно разбить на семейства ^А'>1-1. т]=1, где га и V достаточно малые числа по сравнению с величиной выборки, тогда критерий можно записать:
Су 1 = ГГш 3, (V j » ГГу ), где бо = 4л/ { Ц х - у'| }.
хеА'.уеВ'
Он эффективен при распознавании слуховых образов, так и в некоторых других задачах классификации, где имеются неограниченные возможности для восполнения обучающего множества.
С другой стороны, если решение задачи распознавания предполагает большую обучающую последовательность, удовлетворяющую
критерию (13, то для работы алгоритмов достаточно меньшей обучающей последовательности длины Ь, где Ц,|П< Ь < и критерий (1)
выполняется нестрого со знаком <.
т = Г *пС1-и) 1 + 1 г = Г /лС1-ц) 1 + 1
к-^Зм^
где к целое число, говорящее ©многозначности разделяющей функции 1 5 к < целая часть числа), р - надежность
классификации произвольной точки пространства.
Или, имея выборку ограниченного обьема, удовлетворяющую нестрого критерию С1), можно оценить надежность ц.
«■- К1- А-Ш""1)1,
Таким образом, аппроксимация разделяющей поверхности выражается в терминах разбиения множеств на непересекающиеся подмножества и их проекции в пространства меньшей размерности, что дает право говорить о новом геометрическом подходе к решению задач классификации , который можно назвать методом проекций. Он с математической точки зрения с использованием простых операций (вычитание) объясняет работу нейрона (§4.4) при распознавании классов, . представленных ограниченными множествами, в котором главную роль играет память.
Основные результаты по отделимости' и классификации публиковались в работах С 2-6, 1939-91).
§3.1 посвящен описании трудностей, которые возникают при отож-дествленкии цепочки кодов С символов) в словаре после сегментации с нормализацией по длительности и классификации. Они вызваны ' большой вариативность» норм произношения и случайными неточностями даже при тщательном проговаривании. Представленный в: §5.2 алгоритм решает эти трудности и может применяться для распознавания слов или в других идентифицирующих системах с большими словарями [7, 19863.
У предложенного алгоритма есть недостаток. Поиск в словаре возможен только после завершения кодовой комбинации из-за разбиения словаря по длинам записи, что делает его непригодным ' для анализа
слитной речи. Использование принципа многозначных решений и многу-ровневоЯ идентификации не потребует указанного разбиения (§5.3).
■ На первый взгляд может показаться, что между методами, изложенными в главе 2, 4, 5, нет ничего обшего, но это не гак. Везде идея предлагаемых методов базируется ка вычитании Ссравнешш). В главе 2 оно используется для примитивного сравнения соседних отсчетов (аналог - кратковременная память челевекаЭ. В главе 4 вычитание является единственной операцией для вычисления отношения Парето и сравнения с информацией, находящейся в узле дерева и определяющей весь процесс классификации.' В главе 5 это вычитание одной кодовой последовательности из другой по определенным правилам.
Использование элементарных операций повышает надежность и быстродействие речевого канала связи в системе "человек-машина", и требует небольшого количества обслуживающей аппаратуры.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
1. Сформулирована и доказана новая теорема отделимости для ограниченны;: необязательно выпуклых и связанных множеств.
2. Приведено математическое обоснование двух типов алгоритмов обучения классификации, а также мзтодов распознавания, которые с математической точки зрения объясняют работу нейрона. Наиболее эффективными являются алгоритмы 2-го типа, позволяющие минимизировать число'признаков. Последнее связано с качественной оценкой признаков по определенному критерию, удовлетворение которому приводит к целесообразности максимизации их числа. Предложен новый критерий для сценки представительности, минимальной и максимальной длины обучающей последовательности, при этом можно вычислить вероятность правильной классификации произвольной точки пространства. Обоснована логарифмическая зависимость времени распознавания от объема памяти, который не зависит от длины обучающей последовательности.
3. Новый метод классификации включен в процесс распознавания речи, который использует новый принцип, заключающийся в измерении длительности переходных участков, для сегментации, нормализации сигнала по времени и выделения информативных частей, а такхе быстрый алгоритм идентификации ошибочных кодовых последовательностей
в словаре.
ПУБЛИКАЦИИ
1.Тетерин А.Н. Метод первичной обработки сигнала при спектрально-полосном распознавании речи -М., 1987 -6с. -Деп. в ВИНИТИ 07.12.87, N8560-1387.
2. Братчиков И. Л., Петров А. Н., Тетерин А. Н. Метод координатных отношений для распознавания образов//Автоматическое распознавание слуховых образов: Тез. докл. 15-й Всесоюз. семинара (АРСО-ХУ) 13-17 марта 1989г. - Таллинн, 1989." -С. 71-73.
3.Тетерин А.Н. Отделимость ограниченных множеств// Математические методы распознавания образов: Тез. Докл. 4-й Всесоюз. конф. СММРО-4) 24-26 октября 1989г. - Рига, 1989. - С.142-144.,
4.Teterin А.N. Geometric approach to solution of classification problem// First international conference on information technolgies for image analysis and pattern recognition October 22-28 1990.-Lviv, USSR, 1990.- vol. 1.- P.230-234. '
5.Тетерин А.Н. Геометрический подход к классификации - новая модель работы нейрона.//Распознавание образов и анализ изображений: новые информационные технологии: Тез. докл. 1-й Всесоюз. конф. (Р0АИ-1) 14-18 октября 1991г.- Минск, 1991.-С.120-123.
6.Тетерин А.Н. Геометрический подход к классификации - новая модель работы нейрона.//IBM и МФ - 1992. - N12.-С. 1972-1980.
7. Братчиков И. Л.,Тетерин А.Н. Метод идентификации ошибочных кодовых последовательностей в словаре//Бестн. Ленингр. ун-та - 1988 - N8 -С. 100-102.