Асимптотическая робастность решающих правил в кластер-анализе тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Жук, Евгений Евгеньевич АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Минск МЕСТО ЗАЩИТЫ
1993 ГОД ЗАЩИТЫ
   
01.01.05 КОД ВАК РФ
Автореферат по математике на тему «Асимптотическая робастность решающих правил в кластер-анализе»
 
Автореферат диссертации на тему "Асимптотическая робастность решающих правил в кластер-анализе"

гТ6 ^БЁЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

1 5 НОЯ Ж

На правах рукописи

ЖУК ЕВГЕНИЙ ЕВГЕНЬЕВИЧ

АСИМПТОТИЧЕСКАЯ РОБАСТНОСТЬ РШАЩИХ ПРАВИЛ В КЛАСТЕР-АНАЛИЗЕ

Специальность : 01.01.05 - Теория вероятностей и математическая статистика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Минск 1993

Работа выполнена на кафедре математического моделирования и анализа данных Белорусского государственного университета

Научный руководитель - доктор физико-математических

наук, профессор Ю.С. Харин

Официальные оппоненты : доктор физико-математических

наук, профессор В.В. Апанасович

кандидат физико-математических наук, ст. научный сотрудник Д.В. Синькевич

Ведущая организация - Московский государственный

университет им.М.В.Ломоносова

Защита состоится "_/_" М^шА 1993 г. в ч.

на заседании специализированного Сове/а К 056.03.17 при Белорусском государственном университете по адресу: 220080, Республика Беларусь, г. Минск, проспект Ф. Скорины 4, главный корпус, ауд. 206 .

С диссертацией можно ознакомиться в научной библиотеке Белорусского государственного университета.

Автореферат разослан " 1993 г.

Учбный секретарь специализированного Совета .

доцент Ю.В. Меленец

ОБЩАЯ ХАРАКТЕРИСТИКА. РАБОТЫ

Актуальность тем». Кластер-анализ, как один из разделов современной творим принятияЗсуатистичвских решений при отсутствии классифицированных рбу.чащих* выборок в условиях 'априорной неопределённости, использует два основных подхода: геометрический (Миркин Б.Г.Жэмбю М., Дюран Б., Оделл П., Мендель И.Д.) и вероятностный (Фукунага К., Миленький A.B., Book я.). Первый подход интерпретирует наблюдения как .точки В пространстве наблюдений Ш* и использует в качестве меры "близости" раз- ' личные метрики. Второй, вероятностный, представляет Наблюдения как реализации случайных векторов. С точки зрения возможностей аналитического исследования теория, которая возникает на основе последнего, оказывается значительно богаче. Более того, многие алгоритмы," которые первоначально строились исходя из чисто геометрического представления о классифицируемых -наблюдениях, удаётся переформулировать в понятиях распределения вероятностей и дополнительно изучить.

В классической теории статистической.' классификации в случае наличия полной априорной информации о классах задача синтеза оптимального в смысле минимума риска (средних потерь) решающего правила (РП) получила своб решение в виде байесовского РП (БРП). Большинство известных алгоритмов кластер-анализа при выполнении некоторых условий допускает представление в виде подстановочных РП (ПРП, "piug~in~ruio"), которые получаются из БРП в результате подстановки вместо неизвестных вероятностных характеристик классов ж -статистических оценок по так называемой неклассифицированной обучающей выбор--ке (то есть выборке из смеси вероятностных распределений).

Известно, что при выполнении определённых условий регулярности и неограниченном росте объёма выборки предельным значением риска ПРП является риск БРП. Однако на практике важно оценить устойчивость ПРГ1 по отношению к эффектам конечных объемов выборки. Кроме того, модельные предположения о классифицируемых наблюдениях зачастую нарушены (Айвазян O.A., л ruler-berg u.R.): искажения "гипотетических", бероятностных распределений, описывающих классы; зависимость элементов выборки; пропуски значений компонент у векторов-наблюдений.

Неучбт этих нарушений и использование классических РП приводят к потере оптимальности последних. Возникают две основные проблемы:

- анализа устойчивости классических РП;

- построения робастных (устойчивых) РИ и их исследования.

В дискриминантном анализе, использующем классифицированные- обучающие выборки, накоплен опыт решения этих двух задач методом асимптотических разложений: использование лишь первых членов в разложениях риска по степеням величин, убывающих с ростом числа наблюдений и уменьшением уровня искажений, позволяет при незначительных потерях в точности вычислить многие важные характеристики РП и оценить их устойчивость (Харин Ю.С., Дучинскас К.А., Раудис Ш.Ю.). В кластер-анализе подобные исследования только начинаются: "очень значительный рост числа методов и приложений кластер-анализа вс5 ещЭ не сопровождается развитием статистической теории, с помощью которой можно оценить результаты группировок" (Хартиган Дж.А.).

Таким образом, практическая необходимость решения задач кластер-анализа при наличии нарушений классических модельных предположений, а также эффективность метода асимптотических разложений и определяют актуальность темы диссертационной работы.

Целью работы является разработка методов исследования устойчивости классических и построения робастных РП в кластерном анализе, предполагающая решение следущих основных задач:

1. Оценивание устойчивости классического подстановочного БРП (ПБРП) при наличии искажений вероятностных распределений и построение робастных ПРП.

2. Разработка. вероятностной интерпретации классического алгоритма ь-средних (как наиболее распространённого), синтез его робастных аналогов и анализ их устойчивости.

3. Построение оптимального ПРП при наличии зависимости номеров классов и анализ его устойчивости.

Методы исследования. Основными методами исследования являются методы: теории статистических решающих функций; асимптотического разложения риска; многомерного статистического анализа и асимптотической теории оценивания; робастной статистики; теории экстремумов случайных последовательностей и

процессов. Широко используется .аппарат ' теории матриц и обобщенных функций.

Основные результаты, выносимые на защиту:

1. Разработаны методы исследования ' асимптотической устойчивости РП кластер-анализа, основанные на разложениях риска и коэффициента робастности по степеням величин, убывающих с ростом объёма выборки и уменьшением• уровня искажений, который характеризует степень возможного отклонения от классических модельных предположений.

2. В случае искажений Тьюки-Хьюбера впервые: исследована устойчивость ПВРП, использующего классические оценки минимального контраста (ОМК) по неклассифицирванной обучающей выбоке; построено робастное ПБРП, основанное на устойчивых ОМК с "усечённой" функцией контраста (ФК); синтезировано новое устойчивое минимаксное ПРП.

3. Дана вероятностная интерпретация известного в кластер-анализе алгоритма ь-средних и исследована его устойчивость в случае конечной выборки. При наличии искажений вероятностных распределений типа Тьюки-Хьюбера впервые оценена устойчивость классического РП х-средних и его робастного ана-логй, основанного на удалении аномальных набдюдений-"выбросов". Рассмотрены также другие виды нарушений модельных предположений: равномерное "засорение" и параметрические искажения.

4. В случае как угодно зависимых номеров классов построено оптимальное РП (ОРП) и исследована его устойчивость при помощи теории экстремумов случайных последовательностей. Рассмотрена обобщённая на случай марковской зависимости классов модель Фишера, для которой исследован риск ОРП при произвольном (возможно конечном) объёме классифицируемой выбрки и в асимптотике растущего числа классов. Синтезировано и изучено методом имитационного моделирования на ЭВМ ПРП, использующее оценки по методу моментов.

• 5. Для часто встречающейся в практических приложениях "искажённой" модели смеси нормальных (гауссовских) распределений на основе построенных асимптотических разложений риска получены формулы для вычисления допустимых объёмов выборки и пороговых точек, гарантирующих заданную точность решений.

Научная новизна диссертационной работы заключается в основных результатах, перечисленных выше, которые впервые получены и опубликованы автором.

Практическая значимость. Результаты работы используются при решении прикладных задач кластер-анализа многомерных наблюдений. На основе предложенных в-работе устойчивых алгоритмов 'разработан и реализован на ГШЭВМ хви at комплекс программ на

языке Turba Рааса.1 (tur. 5.5), В0Ш6ДШИЙ В ШКвТ ЯрИКЛЭДНЫХ программ по робастному статистическому анализу данных (ППП "F0CTAH") и компьютерную -систему статистического анализа, регулирования и контроля качества (система "САРКК'.'). Результаты диссертационных, исследований использованы в БГУ при выполнении госбюджетной НИР 01890080692 "Разработка методов, алгоритмов и программного обеспечения устойчивого (робаст-ного) анализа данных для автоматизации научных исследований, математического моделирования на ЭВМ сложных систем в условиях априорной' неопределенности" .(РНТП "Информатика", задание 04.05.01), НИР '-"Разработка теории робастного (устойчивого) статистическогй распознавания образов" ' по Фонду фундаментальных исследований (грант Ф40-267), а 'также хоздоговорной НИР й 30960 . .

Апробация работы. Результаты диссертационной работы обсуждались на: конференциях "Актуальные проблемы информатики: математическое, 'программное и информационное обеспечение" (Минск, I988-1992), Республиканской научной конференции "Математическое и программное обеспечение анализа данных" (Минск, 1990), Всесоюзной научно-технической конференции "Идентификация, измерение характеристик-и имитация случайных сигналов" -'(Новосибирск, 1991), Республиканской научной школе-семинаре "Компьютерный анализ данных и моделирование" (Минск, 1992), vi- конференции математиков Беларуси (Гродно, 1992), Международной математической конференции, посвящбнной 200-летию- со.,дня .рождения Н.И. Лобачевского (Минск, 1992), Международной конференции "Информация и классификация" (Дортмунд, 1992), 17 ежегодной конференции "Общества по классификации" (Кайзерлаутерн, 1993), 6 Международной конференции по теории вероятностей и математической статистике (Вильнюс, 1993), а также докладывались в Белгосуниверситете на семинарах кафедры

математического моделирования и анализа Данных, на конференциях молодых учёных.

Публикации. По теме диссертации опубликовано 20 печатных

работ.

Структура и объём диссертации. Работа состоит из списка основных обозначений и сокращений, введения, трбх глав, заключения, приложения и списка литературы, включающего 150 наименований. Диссертация содержит 234 страницы, включая 12 рисунков и 3 таблицы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность диссертационной теми, кратко излагается содержание работы и приводятся основные положения, выносимые на защиту.

Первая глава посвящена задаче анализа устойчивости классического ПБРП при наличии искажений вероятностных распределений, описывающих классы, и построению робастных ПРП.

В § 1.1 изложены общие вопросы классической теории кластер-анализа при отсутствии нарушений модельных предположений. ■ На основе вероятностной модели введено понятие РП (рандомизированного и нерандомизированного), его риска (средних потерь при классификации), а также оптимального в смысле минимума риска байесовского РП. Рассмотрены две ситуации: I) подстановочное БРП используется для классификации наблюдений из обучающей неклассифицированной выборки, по которой строились оценки, и характеризуется подстановочным риском ("р1ие~1п-г1вь")-, 2) ПБРП применяется для классификации вновь поступающих наблюдений, и в качестве меры оптимальности используется безусловный риск (средние потери). В теореме 1.1.1 устанавливается связь подстановочного и безусловного риска с риском БРП, позволяющая утверждать о целесообразности использования безусловного риска как меры оптимальности независимо от того, какие наблюдения классифицируются: из обучающей выборки или вновь поступающие.

В § 1.2 строится математическая модель кластерного анализа при наличии искажений вероятностных распределений.

В пространстве наблюдений К" регистрируются независимые

В СОВОКУПНОСТИ случайные наблюдения х1,...,а!п,!>:п+1,хп+г,... ко ь»г классов {П(.....Qx}- {а1,...,хп образуют неклассифицированную обучающую выборку I ••• !®*)т» а ®п+}>*п+2. •... -вновь поступающие наблюдения). Причем, в отличие от классической модели из § I.I, наблюдение из nt есть случайный и-вектор с плотностью pt(*), теК", допускающей искажения:

Pt(-^t(qt(-),e+l), íes И'."-.Ч»

где ^t(qt(* ),e+t) - множество допустишх плотностей для f)t; s+{ -уровень искажений в t-ом классе (если £+{=о. то искажений в П{ нет, p1(,)s4t(') - неискаженная ("гипотетическая") плотность распределения вероятностей; t(-),o) при этом является одноточечным множеством и содержит один элемент <¡{(•))•

В качестве критерия оптимальности ПРИ d(x;x): IRNxKnN-»s используется безусловный риск. Возможны два случая.

4. Вновь поступающие наблюдения » . ... неискаже-

ТЪт 7 Птс

ны, то есть описываются классической моделью из § I.I . Безусловный риск в этой ситуации имеет вид:

гп,А^гг, Ч.п-Гг.г»(4<'•**>>- J ,Bi,d(»;x)<,i(e)daí'

ie3 к"

где wtJ¿o - величина потерь при отнесении наблюдения, принадлежащего к классу flj, в класс П^; %( - априорная вероятность <-го класса (i,jes).

Б. Если наблюдения ••• искажены, то безуслов-

ный риск допускает представление:

i€S г

Робастность ПРП \х) будем характеризовать при помощи:

- коэффициента устойчивости (робастности):

Ж„,Л.1(<1(,;ХИ= (rn,t - ' И^Ь

где го>о - риск БРП do(*);

- коэффициента асимптотической устойчивости:

i i n^+co n'{

(если ге^ t=o, то ПРП d(-;x) асимптотически устойчиво в случае

- минимального 5-допустимого объёма обучающей выборки:

пЯ=п(б)= min\n: \Хп t|<5} (при n¿n*(6) гарантировано |aen {|<б, где £>>о - наперёд задано);

- пороговой ТОЧКИ 6 ДЛЯ Sï max S :

+ г

» . . * I * V V /г

£ =mm-ju: max г =r V , г = > X, ) ш,, /и

+ 1 CK S <u П,< Z_ 1 ¿_ lJî

(при e+àe+ безусловный риск ПРП d(-может'достигать "пороЛ гового значения" риска г*, которое соответствует "наихудшему" РП по принципу равновероятного жребия);

- порядка устойчивости: ПРП <л(';х) считается устойчивым порядка к при , если выполняется:

œ i=o(7Ä+'), 7=т«х4е , п~0,5} -—* о .

n, t ' ' 1 + 1 tw+a»

Далее в качестве основной модели рассматриваются искажения Тьюки-Хыобвра:

o£6{se+t <•/}■, tes,

T T

где 0°ев, в - открытое множество в ¡¡Г; е°=(б° е^ )т -составной вектор неизвестных параметров (e°e0Lsörm); ) -произвольная плотность "загрязняющего" распределения (.

В § 1.3 в теореме 1.3Л уточнено стохастическое разложение Чибисова для классической ОМК 9, построенной для 6° при •наличии искажений (е+>с), а в теоремах 1.3.3 и 1.3.4 получены асимптотические разложения рисков гп А и гп ß ПБРП d(*;9). Установлено, что при классификации неискажённых наблюдений Vu »*п+2-' ' • • 11БРП и"66,11 порядок устойчивости, равный единице, а при классификации искажённых наблюдений (случай Б) он снижается до нуля.

. В § 1.4 построено устойчивое ПБРП d(-;êc), использующее робастную ОМК бс:

n

z£(6c)= in/ i£(0) , ь*(8). n-y^t;e) , ееЭь fei

с "усечённой" фк

ф(в;в)= /(*;в)-(/(*;в)-С)и(/(в;в)-С), где Ш(-) - единичная функция Хэвисайда; Се<- параметр "усечения". В частности, при €=+® получим классическую ОМК ё+да=ё с ФК /(s;ö) (e^, 0 - замыкание в).

Теорема 1.4Л. Функция ф(г;в) является ФК для семейства плотностей р%(х;в°)= тс.(р(!г;в°) +...+ %Lр(зг;8°), если выполнены следующие условия регулярности:

У1) ФК /(*;б) ограничена снизу: /(я;8)>-®, OeGL;

У2) f /(x;9)h{(i)dx< +00 , eeBL, tes;

vT

УЗ) уровень искажений e+=e+(n) и параметр "усечещя" (Е=(Е(е ) удовлетворяют асимптотике:

sup _ IX /(¡r;9)(U(/(a;;0)-(E)q1i;(a;;Go)da:| = о(е+); e^e^e-se1 к"

У4) функция ф(ж;J) дифференцируема по бе©1, почти всюду относительно меры Лебега в 0?".

Через ^ Zjj, ), ,2,з,... обозначим последовательность случайных if-векторов, зависящую от последовательности случайных м-векторов z1,z2,z3,... , и обладающую свойством:

'izkh п.н.,

где j и zkl компоненты с номером г векторов »J) и

г. соответственно. «

Теорема 1.4.2. Пусть выполнены условия регулярности У1-УЗ, усиленное'условие У4:

У4') функция ф(х;6) дважды дифференцируема по 0бвь почти всюду относительно меры Лебега в 0?", a eS частные производные равномерно интегрируемы по х относительно (ж), q(x;0* ),

а также дополнительные условия У5 и У6:

У5) операции интегрирования и дифференцирования перестановочны:

/ф^вМ«;^)*** J- ^оф (i ; б ) q ( а; ; 9* )dx\

Г . Г

J(|)(®;e)ht(Œ)da:=J л; ; 9 ) h. t (a; >d.a;, tes, Gê0L, 9*e8, fc=f,2;

У6) функционал ь(0;9°)= J- г(1;е)Ч7С(а;;90)ах,

К"

q%(•;9°•;e°)I g =0 , удовлетворяет условиям:

Тогда оценка 6e строго состоятельна: 0e п.н^ go

TW+OO '

и имеет место стохастическое разложение:

д9с= (е°)vQoi^(e°)+ '(0o)<y0oi£(eo)), .

>-0

В теореме 1.4.3 получены выражения для моментов д9с,-а в теореме 1.4.5 при помощи условия УЗ определено значение параметра "усечения"

г , ии-в )1/я -,

где Ф 1(•) - квантиль стандартного, нормального закона, для случая гауссовских "гипотетических" плотностей:

и классической ФК вида:

/(а?;б)= -In У %.evp(-0.5(x-9. )т2~' (х-в..) ) . iáfg 4 4 4

На примере ô-образных плотностей "загрязняющих" распределений: (3>=ö(s-zt), tes, где l*t}-t<=3- точки концентрации "выбросов", показано преимущество робастной ОМК 9е над классической Ô.

Далее исследуются безусловные риски гс И1

**г *

;е ).

Теорема Í.4.6. Пусть выполнены условия регулярности У1-УЗ, У4', У5, У6, q(x-,e*) непрерывно дифференцируема по е*еВ, дифференцируема по агеШ". Тогда, если для е+=е+(п):

i£m е+(n)'V»P >о ,

то риск ß допускает асимптотическое разложение:

гп,Г го + X et7Ct ^"íj J V<*>b<*> - <»(®;Ö4>)a» + "(e+),

ieS je Э ¡^N ^

где у" - область принятия решения "da-j", jes, классическим БРП. ^

Из теоремы 1.4.6 следует, что в случае классификации вновь поступающих наблюдений, соответствующих искаженной по Тькжи-Хыоберу модели (е+>о), не имеет смысла заменять классическое ПВРП d(-;9) на робастное d(*;Bc). ■Обозначил: Vf<œ) = 'VV/(x;90)r'; fhJ (x;û° )=o}~ байесовская даскриминантная поверхность для пары классов'П^, Uj (k¿j), i,j,b&s.

Теорема 1.4.7. Пусть выполнены условия регулярности У1-УЗ, У4 , У5, Уб, q(x;6) трижды непрерывно ' дифференцируема по бей и дифференцируема по хеК", тогда при условш существования и конечности встречающихся ¡шже поверхностных интегралов риск rcn А представим в виде:

-«> * -ír I Z <v-Í I v*''9^«^*

t.e.J«S fc=í Г?.(9°)

J F '

x'eoq(®;0°)bA (œjdo^ + + n~1) ,

r ~ e

где )}■ - (тхт)-блоки матрицы

vc(e°)= p<e°)pT(9a') + ije°)n-1, а для (3(9°) ( |p(e°)|=o(e+) ) и го(в°) в диссертационной работе приведены явные формулы.

Поскольку при*С=+<»: А - риск классического ПБРП, .

то можно произвести сравнительный'анализ РП d(-;в) и <*(•;вс). Очевидно, что в асимптотике е+=<г(п~0-5) не имеет смысла заменять классическую ОМК в робастным аналогом 8е. Во всех • остальных случаях величина может быть сколь угодно

большой, и использование робастного РП d(-;вс) оправдано.

Следствие 1.4.3. В условиях теоремы 1.4.7 подстановочное БРП d(- ;6С) являтся устойчивым порядка í., и с точностью до <г(е^+ п~') справедливы приближения:.

С л "^О _ „С _ / \ /

г /»г Á ; se i « эе ,= (г л~ г )/г ,

п,А п,А п,А п,А х п,А ° о

где

J~1 г

* 4- I I ww J

t,e,J<&3 k-1 TIO /Л«!

XV oq{a;0 )b (r)doN t . e *

Далее в § 1.4 рассматриваются случай двух классов (ъ=г) и численный пример.

В § 1.5 построено робастное минимаксное ПРП:

d*(a;9c)= argffiin f*Ax",9е); п je a J

<e£l

для классификации искаженных наблюдений, минимизирующее гарантированное ("наихудшее") значение риска. Посредством асимптотического разложения риска (теорема 1.5.2) получены формулы для его приближенного вычисления, и установлено преимущество d*(-;9c) над ПБРП d(-;Bc).

Все результаты, полученные в § I.3-I.5, проиллюстрированы на численных примерах с нахождением минимального ô-допустимого объёма выборки х и пороговой точки £* в случае

"искаженной" модели Фишера; приведены графики, демонстрирующие точность приближённых формул для их вычисления.

В главе 2 строятся и исследуются на устойчивость РП, основанные на методе х-средних.

В § 2.1 рассматривается случай, когда классифицируемые наблюдения неискажены: класс П{ описывается плотностью ч(*;9р, которая известна с точностью до параметра сдвига, равного математическому ожиданию:

Г xq(x;9°)dx = 6® , {es, R"

и принадлежит семейству J»=-{q(a:;9), ¡reK": в^К"}-. Задача состоит в оценивании вектора истинной классификации zf=(d°,... и составного вектора неизвестных математических ожиданий 6°^** по случайной выборке х объёма п. Известно, что метод х-средних определяет оценки в и Ъ для 6° и как решение задачи:

л.

№rt(e,D) -* in/ ; ffn(9,D)= vT1Y Hat-9d II2.

GeR^.W ' fei *

Очевидно, что

ff* (9)= min ff (9,H)= тГ'У mí* ||x.-9.||2 П De3 n {es * *

является статистической оценкой следующего функционала: w°(0;eo)= J «(*;e)q_(»;ee)ite ;

Bf

4^(1:9°)= у Я4ч(я;в°) , e(*;e)» mía ||*-9{||2,

fea íe£J

и классическое РП х-средних может быть записано в виде:

d„ (а;ё)в argnin И®-в.|| ; 9= argtnf !У* (6) .

1е3 П Л

В теореме 2.1 Л исследовано поведение оценки 9 при tw®.

Теорема 2.1.1. Пусть выполнены следующие условия регулярности :

К,) функция с(г;в) дважды дифференцируема по 8eK*"N (К -расширенная числовая прямая) почти всюду относительно меры Лебега в Of, а е9 частные производные равномерно интегрируемы по ее относительно q(®;ü), üetR";

К2) операции интегрирования и дифференцирования.перестановочны :

Vg JÄ(x;0)q(:r;B)dT= J 7^Ä{x;9)q(a;;ü)dx, 9eöf-N, , Ъ=1,2', .

г г

К3) единственна точка минимума:

и невыроадена симметрическая матрица вторых производных:

у л |е=е

Тогда для уклонения оценки в справедливо стохастическое разложение:

дё = ё-е"=-л"'(в*;е°)?е.иЛ(е*) + <г1и",(е*;ес,^0»№*(е*)), т^+оо, и, кроме того, имеет место сходимость:

9 п-н-» е* .

п

Следствие 2.1.1. Если классы "хорошо разделимы":

ч(г;0{)ч(®;9]) -»- О, V ¡сеК", 1,^3,

а в качестве ||«|| используется:

1М1= Алёу . В>-'о, то в условиях теоремы 2.1.1 оценка ё строго состоятельна: ' е п-н-> 9° .

ПГ.+®

Далее исследуется устойчивость РП ;в) в условиях конечной выборки х. В качестве показателя эффективности используется безусловный риск г (9; 9°) ^ , где гж(в*;0°) -вероятность ошибочной классификации при помощи РП (б*).

Теорема 2.1.3. Пусть выполняются условия регулярности К,-К3> тогда если:

Ы() Ъ\\2 непрерывно дифференцируема по и конечны

поверхностные интегралы и#ъ,

то риск гп . допускает асимптотическое разложение: гП|.» г.(0*;9о) + о(пр), Р<-о.5 ; М2) выполнены условия следствия 2.1.1; я(х',В) трижды непрерывно дифференцируема по Бей", дифференцируема по аеК", и

Ш(||х-9°||2- ||*т9°||2) = Ш(туи;9р -тогда

гп,-= + п~11 • го + в(е°)п-' ,

где коэффициент разложения в(9°)=<о(г) определён в диссертации.

'Из результатов теоремы 2.1.3 видно, что в случае М2 РП ь-средних имеет порядок устойчивости, равный 1, а в

случае М( оно не является асимптотически устойчивым.

С ) max А < +со ; ¿ t.JeS tJ

C3) Существуют и конечны пределы:

< lint -1—ln - < +00 , V D,D°eSn ,

fW® П Í>(D°)

тогда для rDc- rDo (o)= Ptfi } выполнено: rD°/í:D0 1 ' . Vе ' - e*p(" yg^^--**P(»n<)),

TI

где /in(b(n)) , a m* определяется из следующего асимптотического уравнения:

U(n))-" J вЯр( V(mf-m;) - 0.5<mf-m;)2 ) 1 J

ms^

= ( in(p(D)/p(D°)) - 4-1 )/( E Ad;,dt )°'5 í

~ In n _ In(in(L(n)))

a = a —

2o„ 2a .

n n.

Исследован случай конечного объбма п выборки х и оценена вероятность ошибиться при классификации только одного наблюдения из х при фиксированном (остальные п-1 наблюдений классифицируются правильно):

'¿'М Х> - 4V ='}

Теорема 3.1.9. Пусть классы равноудалены друг от друга:

тогда в условиях обобщённой модели Фишера справедлива двусторонняя оценка для г^о :

' - - 4)* ^ -<' - пд-§- - .

где Ф(-) - функция распределения вероятностей стандартного

нормального закона;

с „ох ln MSliXL , с. 2n MüLllL. ;

d,f-s P(D°) 4 dte3 P(D°)

n(t)= ...,d°_(,dt,d°+1,....d°)T, t=í,n .

- 17 -

В § 3.1 обсуждается также возможность построения ПРП на основе ОРП и проблема анализа его устойчйвости.

Далее в § 3.2 рассматривается случай марковской зависимости классов. Последовательности х1.....и

считаются связанными следующий образом: наблюдение а^ принадлежит классу , то есть' описывается плотностью а

г

. .-,<1°,... - однородная односвязная цепь Маркова с пространством состояний з. .

В § 3.3 исследуется обобщённая на случай марковской зависимости классов модель Фишера при помощи результатов § 3.1, и приводится ПРП," использующее оценки по методу моментов для неизвестных параметров.

В заключений перечислены основные результаты.

С .задачей классификации традиционно .связывают-проблему' формирования информативных признаков, которая особенно остро стоит в кластер-анализе: вследствие априорной неопределбнносд'и с увеличением размерности п пространства наблюдений К" существенно 'возрастает вычислительная сложность »алгоритмов принятия решений. В приложении I проводится анализ устойчивости классической процедуры Карунена-Лоэва формирования информативных признаков при наличии искажений вероятностных распределений с учбтом специфики кластер-анализа, и предлагается еб робастный аналог, основанный на использовании устойчивых оценок специального вида для ковариационной матрицы.

Приложение 2 содержит акт внедрения результатов диссертационной работы. .

По результатам исследований .опубликовано 20 работ, основные из них:

1. Жук Е.Е. Оптимальное решающее правило в случае зависимых' наблюдений /Математическое -и программное обеспечение анализа данных: Тезисы докладов Респудиканской научной конференции. - Минск, 1990. - С. 69.

2. Жук ЕЛ2. О статистической классификации при наличии зависимости классов //Проблемы компьютерного анализа данных и моделирования: Сб. науч. ст. - Минск: Белгосуниверситет, 1991. - С. 43-49. •

3. Жук Е.Е. Устойчивость процедур кластер-анализа-при искажениях вероятностных распределений. - Мн., 1991. - 14 с. -Деп. в ВИНИТИ 30.01.92', të 3I4-B92.

4. Жук Е.Е. Синтез робастного решающего правила при наличии искажений Тьюки-Хьюбера //Компьютерный анализ данных и моделирование: Тезисы докл, Республ. научной школы-семинара. -Минск, 1992. - С. 50.

5. Жук Е.Е. 00 одном классе м-оценок, являющихся оценками минимального контраста //Актуальные проблемы информатики: математическое, программное и информационное- обеспечение: Материалы межреспубл. научно-практич. конф. творч. молодёжи. -МИНСК, 1992. - С. 37-38.

6. Жук Е.Е. Об устойчивости алгоритма ¿-средних //vi Конференция математиков Беларуси: Тезисы докл., ч. 4. - Гродно, 1992. - С. 164.

7. Жук Е.Е. Асимптотическая робастность в кластер-анализе при искажениях Тьюки-Хьюбера //Современные проблемы компьютерного анализа данных и моделирования: Сб. науч. ст. - Минск: Велгосуниверситет, 1993. - С. 24-29.

8. Жук Е.Е. Об устойчивости процедуры Карунена-Лоэва формирования информативных признаков в задачах распознавания образов //5 научная конф. стран СНГ "Применение многомерного стат. анализа в экономике и оценке качества продукции":'Тезисы докл. - Москва, 1993. - С. 64-55.

Э. Kharln Yu., Zhu)s E. Diatortlong of probabilité distributions and robuetneee of olueter analyele prooeduree //Proo. of the Internatlonal Conférence "Information and Olaeeifica-tion". - Dortmund, 1992. - 1 p.

10. Kharln Yu., Zhuk JE. Aeymptotio robuetneee In oluoter-analyele for the caee of Ти'Ьву-ЯиЪвг dletortione //Information and Classification'. Concepte, Methode and Applications /Proc. of the 16th Annua.1 Gonf. of the "GeeelÏBChaft fur Klaeeiflka-tion e.V." - Berlin: 3pringer-Verlag, 1993. - P. 31-39.

11. Zhuk E. h-тпеапв algorlthm stabilité //17 Annuaï Conf. 3/ th.s Gesellechaft fur Klageifikation e.V.: Talk abetraote. -ïaiserstautern, 1993. -1p.

12. Жук Е.Е. 0 робастном оценивании параметров смеси ввро-1ТНОСТ1ШХ распределений //Вестн. Белорус, ун-та. Сер. I: Физ. Лат. Мех. - 1993. - 6 с. (В печати)

/О/