Асимптотическая робастность решающих правил в кластер-анализе тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Жук, Евгений Евгеньевич
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Минск
МЕСТО ЗАЩИТЫ
|
||||
1993
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
гТ6 ^БЁЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
1 5 НОЯ Ж
На правах рукописи
ЖУК ЕВГЕНИЙ ЕВГЕНЬЕВИЧ
АСИМПТОТИЧЕСКАЯ РОБАСТНОСТЬ РШАЩИХ ПРАВИЛ В КЛАСТЕР-АНАЛИЗЕ
Специальность : 01.01.05 - Теория вероятностей и математическая статистика
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Минск 1993
Работа выполнена на кафедре математического моделирования и анализа данных Белорусского государственного университета
Научный руководитель - доктор физико-математических
наук, профессор Ю.С. Харин
Официальные оппоненты : доктор физико-математических
наук, профессор В.В. Апанасович
кандидат физико-математических наук, ст. научный сотрудник Д.В. Синькевич
Ведущая организация - Московский государственный
университет им.М.В.Ломоносова
Защита состоится "_/_" М^шА 1993 г. в ч.
на заседании специализированного Сове/а К 056.03.17 при Белорусском государственном университете по адресу: 220080, Республика Беларусь, г. Минск, проспект Ф. Скорины 4, главный корпус, ауд. 206 .
С диссертацией можно ознакомиться в научной библиотеке Белорусского государственного университета.
Автореферат разослан " 1993 г.
Учбный секретарь специализированного Совета .
доцент Ю.В. Меленец
ОБЩАЯ ХАРАКТЕРИСТИКА. РАБОТЫ
Актуальность тем». Кластер-анализ, как один из разделов современной творим принятияЗсуатистичвских решений при отсутствии классифицированных рбу.чащих* выборок в условиях 'априорной неопределённости, использует два основных подхода: геометрический (Миркин Б.Г.Жэмбю М., Дюран Б., Оделл П., Мендель И.Д.) и вероятностный (Фукунага К., Миленький A.B., Book я.). Первый подход интерпретирует наблюдения как .точки В пространстве наблюдений Ш* и использует в качестве меры "близости" раз- ' личные метрики. Второй, вероятностный, представляет Наблюдения как реализации случайных векторов. С точки зрения возможностей аналитического исследования теория, которая возникает на основе последнего, оказывается значительно богаче. Более того, многие алгоритмы," которые первоначально строились исходя из чисто геометрического представления о классифицируемых -наблюдениях, удаётся переформулировать в понятиях распределения вероятностей и дополнительно изучить.
В классической теории статистической.' классификации в случае наличия полной априорной информации о классах задача синтеза оптимального в смысле минимума риска (средних потерь) решающего правила (РП) получила своб решение в виде байесовского РП (БРП). Большинство известных алгоритмов кластер-анализа при выполнении некоторых условий допускает представление в виде подстановочных РП (ПРП, "piug~in~ruio"), которые получаются из БРП в результате подстановки вместо неизвестных вероятностных характеристик классов ж -статистических оценок по так называемой неклассифицированной обучающей выбор--ке (то есть выборке из смеси вероятностных распределений).
Известно, что при выполнении определённых условий регулярности и неограниченном росте объёма выборки предельным значением риска ПРП является риск БРП. Однако на практике важно оценить устойчивость ПРГ1 по отношению к эффектам конечных объемов выборки. Кроме того, модельные предположения о классифицируемых наблюдениях зачастую нарушены (Айвазян O.A., л ruler-berg u.R.): искажения "гипотетических", бероятностных распределений, описывающих классы; зависимость элементов выборки; пропуски значений компонент у векторов-наблюдений.
Неучбт этих нарушений и использование классических РП приводят к потере оптимальности последних. Возникают две основные проблемы:
- анализа устойчивости классических РП;
- построения робастных (устойчивых) РИ и их исследования.
В дискриминантном анализе, использующем классифицированные- обучающие выборки, накоплен опыт решения этих двух задач методом асимптотических разложений: использование лишь первых членов в разложениях риска по степеням величин, убывающих с ростом числа наблюдений и уменьшением уровня искажений, позволяет при незначительных потерях в точности вычислить многие важные характеристики РП и оценить их устойчивость (Харин Ю.С., Дучинскас К.А., Раудис Ш.Ю.). В кластер-анализе подобные исследования только начинаются: "очень значительный рост числа методов и приложений кластер-анализа вс5 ещЭ не сопровождается развитием статистической теории, с помощью которой можно оценить результаты группировок" (Хартиган Дж.А.).
Таким образом, практическая необходимость решения задач кластер-анализа при наличии нарушений классических модельных предположений, а также эффективность метода асимптотических разложений и определяют актуальность темы диссертационной работы.
Целью работы является разработка методов исследования устойчивости классических и построения робастных РП в кластерном анализе, предполагающая решение следущих основных задач:
1. Оценивание устойчивости классического подстановочного БРП (ПБРП) при наличии искажений вероятностных распределений и построение робастных ПРП.
2. Разработка. вероятностной интерпретации классического алгоритма ь-средних (как наиболее распространённого), синтез его робастных аналогов и анализ их устойчивости.
3. Построение оптимального ПРП при наличии зависимости номеров классов и анализ его устойчивости.
Методы исследования. Основными методами исследования являются методы: теории статистических решающих функций; асимптотического разложения риска; многомерного статистического анализа и асимптотической теории оценивания; робастной статистики; теории экстремумов случайных последовательностей и
процессов. Широко используется .аппарат ' теории матриц и обобщенных функций.
Основные результаты, выносимые на защиту:
1. Разработаны методы исследования ' асимптотической устойчивости РП кластер-анализа, основанные на разложениях риска и коэффициента робастности по степеням величин, убывающих с ростом объёма выборки и уменьшением• уровня искажений, который характеризует степень возможного отклонения от классических модельных предположений.
2. В случае искажений Тьюки-Хьюбера впервые: исследована устойчивость ПВРП, использующего классические оценки минимального контраста (ОМК) по неклассифицирванной обучающей выбоке; построено робастное ПБРП, основанное на устойчивых ОМК с "усечённой" функцией контраста (ФК); синтезировано новое устойчивое минимаксное ПРП.
3. Дана вероятностная интерпретация известного в кластер-анализе алгоритма ь-средних и исследована его устойчивость в случае конечной выборки. При наличии искажений вероятностных распределений типа Тьюки-Хьюбера впервые оценена устойчивость классического РП х-средних и его робастного ана-логй, основанного на удалении аномальных набдюдений-"выбросов". Рассмотрены также другие виды нарушений модельных предположений: равномерное "засорение" и параметрические искажения.
4. В случае как угодно зависимых номеров классов построено оптимальное РП (ОРП) и исследована его устойчивость при помощи теории экстремумов случайных последовательностей. Рассмотрена обобщённая на случай марковской зависимости классов модель Фишера, для которой исследован риск ОРП при произвольном (возможно конечном) объёме классифицируемой выбрки и в асимптотике растущего числа классов. Синтезировано и изучено методом имитационного моделирования на ЭВМ ПРП, использующее оценки по методу моментов.
• 5. Для часто встречающейся в практических приложениях "искажённой" модели смеси нормальных (гауссовских) распределений на основе построенных асимптотических разложений риска получены формулы для вычисления допустимых объёмов выборки и пороговых точек, гарантирующих заданную точность решений.
Научная новизна диссертационной работы заключается в основных результатах, перечисленных выше, которые впервые получены и опубликованы автором.
Практическая значимость. Результаты работы используются при решении прикладных задач кластер-анализа многомерных наблюдений. На основе предложенных в-работе устойчивых алгоритмов 'разработан и реализован на ГШЭВМ хви at комплекс программ на
языке Turba Рааса.1 (tur. 5.5), В0Ш6ДШИЙ В ШКвТ ЯрИКЛЭДНЫХ программ по робастному статистическому анализу данных (ППП "F0CTAH") и компьютерную -систему статистического анализа, регулирования и контроля качества (система "САРКК'.'). Результаты диссертационных, исследований использованы в БГУ при выполнении госбюджетной НИР 01890080692 "Разработка методов, алгоритмов и программного обеспечения устойчивого (робаст-ного) анализа данных для автоматизации научных исследований, математического моделирования на ЭВМ сложных систем в условиях априорной' неопределенности" .(РНТП "Информатика", задание 04.05.01), НИР '-"Разработка теории робастного (устойчивого) статистическогй распознавания образов" ' по Фонду фундаментальных исследований (грант Ф40-267), а 'также хоздоговорной НИР й 30960 . .
Апробация работы. Результаты диссертационной работы обсуждались на: конференциях "Актуальные проблемы информатики: математическое, 'программное и информационное обеспечение" (Минск, I988-1992), Республиканской научной конференции "Математическое и программное обеспечение анализа данных" (Минск, 1990), Всесоюзной научно-технической конференции "Идентификация, измерение характеристик-и имитация случайных сигналов" -'(Новосибирск, 1991), Республиканской научной школе-семинаре "Компьютерный анализ данных и моделирование" (Минск, 1992), vi- конференции математиков Беларуси (Гродно, 1992), Международной математической конференции, посвящбнной 200-летию- со.,дня .рождения Н.И. Лобачевского (Минск, 1992), Международной конференции "Информация и классификация" (Дортмунд, 1992), 17 ежегодной конференции "Общества по классификации" (Кайзерлаутерн, 1993), 6 Международной конференции по теории вероятностей и математической статистике (Вильнюс, 1993), а также докладывались в Белгосуниверситете на семинарах кафедры
математического моделирования и анализа Данных, на конференциях молодых учёных.
Публикации. По теме диссертации опубликовано 20 печатных
работ.
Структура и объём диссертации. Работа состоит из списка основных обозначений и сокращений, введения, трбх глав, заключения, приложения и списка литературы, включающего 150 наименований. Диссертация содержит 234 страницы, включая 12 рисунков и 3 таблицы.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность диссертационной теми, кратко излагается содержание работы и приводятся основные положения, выносимые на защиту.
Первая глава посвящена задаче анализа устойчивости классического ПБРП при наличии искажений вероятностных распределений, описывающих классы, и построению робастных ПРП.
В § 1.1 изложены общие вопросы классической теории кластер-анализа при отсутствии нарушений модельных предположений. ■ На основе вероятностной модели введено понятие РП (рандомизированного и нерандомизированного), его риска (средних потерь при классификации), а также оптимального в смысле минимума риска байесовского РП. Рассмотрены две ситуации: I) подстановочное БРП используется для классификации наблюдений из обучающей неклассифицированной выборки, по которой строились оценки, и характеризуется подстановочным риском ("р1ие~1п-г1вь")-, 2) ПБРП применяется для классификации вновь поступающих наблюдений, и в качестве меры оптимальности используется безусловный риск (средние потери). В теореме 1.1.1 устанавливается связь подстановочного и безусловного риска с риском БРП, позволяющая утверждать о целесообразности использования безусловного риска как меры оптимальности независимо от того, какие наблюдения классифицируются: из обучающей выборки или вновь поступающие.
В § 1.2 строится математическая модель кластерного анализа при наличии искажений вероятностных распределений.
В пространстве наблюдений К" регистрируются независимые
В СОВОКУПНОСТИ случайные наблюдения х1,...,а!п,!>:п+1,хп+г,... ко ь»г классов {П(.....Qx}- {а1,...,хп образуют неклассифицированную обучающую выборку I ••• !®*)т» а ®п+}>*п+2. •... -вновь поступающие наблюдения). Причем, в отличие от классической модели из § I.I, наблюдение из nt есть случайный и-вектор с плотностью pt(*), теК", допускающей искажения:
Pt(-^t(qt(-),e+l), íes И'."-.Ч»
где ^t(qt(* ),e+t) - множество допустишх плотностей для f)t; s+{ -уровень искажений в t-ом классе (если £+{=о. то искажений в П{ нет, p1(,)s4t(') - неискаженная ("гипотетическая") плотность распределения вероятностей; t(-),o) при этом является одноточечным множеством и содержит один элемент <¡{(•))•
В качестве критерия оптимальности ПРИ d(x;x): IRNxKnN-»s используется безусловный риск. Возможны два случая.
4. Вновь поступающие наблюдения » . ... неискаже-
ТЪт 7 Птс
ны, то есть описываются классической моделью из § I.I . Безусловный риск в этой ситуации имеет вид:
гп,А^гг, Ч.п-Гг.г»(4<'•**>>- J ,Bi,d(»;x)<,i(e)daí'
ie3 к"
где wtJ¿o - величина потерь при отнесении наблюдения, принадлежащего к классу flj, в класс П^; %( - априорная вероятность <-го класса (i,jes).
Б. Если наблюдения ••• искажены, то безуслов-
ный риск допускает представление:
i€S г
Робастность ПРП \х) будем характеризовать при помощи:
- коэффициента устойчивости (робастности):
Ж„,Л.1(<1(,;ХИ= (rn,t - ' И^Ь
где го>о - риск БРП do(*);
- коэффициента асимптотической устойчивости:
i i n^+co n'{
(если ге^ t=o, то ПРП d(-;x) асимптотически устойчиво в случае
- минимального 5-допустимого объёма обучающей выборки:
пЯ=п(б)= min\n: \Хп t|<5} (при n¿n*(6) гарантировано |aen {|<б, где £>>о - наперёд задано);
- пороговой ТОЧКИ 6 ДЛЯ Sï max S :
+ г
» . . * I * V V /г
£ =mm-ju: max г =r V , г = > X, ) ш,, /и
+ 1 CK S <u П,< Z_ 1 ¿_ lJî
(при e+àe+ безусловный риск ПРП d(-может'достигать "пороЛ гового значения" риска г*, которое соответствует "наихудшему" РП по принципу равновероятного жребия);
- порядка устойчивости: ПРП <л(';х) считается устойчивым порядка к при , если выполняется:
œ i=o(7Ä+'), 7=т«х4е , п~0,5} -—* о .
n, t ' ' 1 + 1 tw+a»
Далее в качестве основной модели рассматриваются искажения Тьюки-Хыобвра:
o£6{se+t <•/}■, tes,
T T
где 0°ев, в - открытое множество в ¡¡Г; е°=(б° е^ )т -составной вектор неизвестных параметров (e°e0Lsörm); ) -произвольная плотность "загрязняющего" распределения (.
В § 1.3 в теореме 1.3Л уточнено стохастическое разложение Чибисова для классической ОМК 9, построенной для 6° при •наличии искажений (е+>с), а в теоремах 1.3.3 и 1.3.4 получены асимптотические разложения рисков гп А и гп ß ПБРП d(*;9). Установлено, что при классификации неискажённых наблюдений Vu »*п+2-' ' • • 11БРП и"66,11 порядок устойчивости, равный единице, а при классификации искажённых наблюдений (случай Б) он снижается до нуля.
. В § 1.4 построено устойчивое ПБРП d(-;êc), использующее робастную ОМК бс:
n
z£(6c)= in/ i£(0) , ь*(8). n-y^t;e) , ееЭь fei
с "усечённой" фк
ф(в;в)= /(*;в)-(/(*;в)-С)и(/(в;в)-С), где Ш(-) - единичная функция Хэвисайда; Се<- параметр "усечения". В частности, при €=+® получим классическую ОМК ё+да=ё с ФК /(s;ö) (e^, 0 - замыкание в).
Теорема 1.4Л. Функция ф(г;в) является ФК для семейства плотностей р%(х;в°)= тс.(р(!г;в°) +...+ %Lр(зг;8°), если выполнены следующие условия регулярности:
У1) ФК /(*;б) ограничена снизу: /(я;8)>-®, OeGL;
У2) f /(x;9)h{(i)dx< +00 , eeBL, tes;
vT
УЗ) уровень искажений e+=e+(n) и параметр "усечещя" (Е=(Е(е ) удовлетворяют асимптотике:
sup _ IX /(¡r;9)(U(/(a;;0)-(E)q1i;(a;;Go)da:| = о(е+); e^e^e-se1 к"
У4) функция ф(ж;J) дифференцируема по бе©1, почти всюду относительно меры Лебега в 0?".
Через ^ Zjj, ), ,2,з,... обозначим последовательность случайных if-векторов, зависящую от последовательности случайных м-векторов z1,z2,z3,... , и обладающую свойством:
'izkh п.н.,
где j и zkl компоненты с номером г векторов »J) и
г. соответственно. «
Теорема 1.4.2. Пусть выполнены условия регулярности У1-УЗ, усиленное'условие У4:
У4') функция ф(х;6) дважды дифференцируема по 0бвь почти всюду относительно меры Лебега в 0?", a eS частные производные равномерно интегрируемы по х относительно (ж), q(x;0* ),
а также дополнительные условия У5 и У6:
У5) операции интегрирования и дифференцирования перестановочны:
/ф^вМ«;^)*** J- ^оф (i ; б ) q ( а; ; 9* )dx\
Г . Г
J(|)(®;e)ht(Œ)da:=J л; ; 9 ) h. t (a; >d.a;, tes, Gê0L, 9*e8, fc=f,2;
У6) функционал ь(0;9°)= J- г(1;е)Ч7С(а;;90)ах,
К"
q%(•;9°•;e°)I g =0 , удовлетворяет условиям:
Тогда оценка 6e строго состоятельна: 0e п.н^ go
TW+OO '
и имеет место стохастическое разложение:
д9с= (е°)vQoi^(e°)+ '(0o)<y0oi£(eo)), .
>-0
В теореме 1.4.3 получены выражения для моментов д9с,-а в теореме 1.4.5 при помощи условия УЗ определено значение параметра "усечения"
г , ии-в )1/я -,
где Ф 1(•) - квантиль стандартного, нормального закона, для случая гауссовских "гипотетических" плотностей:
и классической ФК вида:
/(а?;б)= -In У %.evp(-0.5(x-9. )т2~' (х-в..) ) . iáfg 4 4 4
На примере ô-образных плотностей "загрязняющих" распределений: (3>=ö(s-zt), tes, где l*t}-t<=3- точки концентрации "выбросов", показано преимущество робастной ОМК 9е над классической Ô.
Далее исследуются безусловные риски гс И1
**г *
;е ).
Теорема Í.4.6. Пусть выполнены условия регулярности У1-УЗ, У4', У5, У6, q(x-,e*) непрерывно дифференцируема по е*еВ, дифференцируема по агеШ". Тогда, если для е+=е+(п):
i£m е+(n)'V»P >о ,
то риск ß допускает асимптотическое разложение:
гп,Г го + X et7Ct ^"íj J V<*>b<*> - <»(®;Ö4>)a» + "(e+),
ieS je Э ¡^N ^
где у" - область принятия решения "da-j", jes, классическим БРП. ^
Из теоремы 1.4.6 следует, что в случае классификации вновь поступающих наблюдений, соответствующих искаженной по Тькжи-Хыоберу модели (е+>о), не имеет смысла заменять классическое ПВРП d(-;9) на робастное d(*;Bc). ■Обозначил: Vf<œ) = 'VV/(x;90)r'; fhJ (x;û° )=o}~ байесовская даскриминантная поверхность для пары классов'П^, Uj (k¿j), i,j,b&s.
Теорема 1.4.7. Пусть выполнены условия регулярности У1-УЗ, У4 , У5, Уб, q(x;6) трижды непрерывно ' дифференцируема по бей и дифференцируема по хеК", тогда при условш существования и конечности встречающихся ¡шже поверхностных интегралов риск rcn А представим в виде:
-«> * -ír I Z <v-Í I v*''9^«^*
t.e.J«S fc=í Г?.(9°)
J F '
x'eoq(®;0°)bA (œjdo^ + + n~1) ,
r ~ e
где )}■ - (тхт)-блоки матрицы
vc(e°)= p<e°)pT(9a') + ije°)n-1, а для (3(9°) ( |p(e°)|=o(e+) ) и го(в°) в диссертационной работе приведены явные формулы.
Поскольку при*С=+<»: А - риск классического ПБРП, .
то можно произвести сравнительный'анализ РП d(-;в) и <*(•;вс). Очевидно, что в асимптотике е+=<г(п~0-5) не имеет смысла заменять классическую ОМК в робастным аналогом 8е. Во всех • остальных случаях величина может быть сколь угодно
большой, и использование робастного РП d(-;вс) оправдано.
Следствие 1.4.3. В условиях теоремы 1.4.7 подстановочное БРП d(- ;6С) являтся устойчивым порядка í., и с точностью до <г(е^+ п~') справедливы приближения:.
С л "^О _ „С _ / \ /
г /»г Á ; se i « эе ,= (г л~ г )/г ,
п,А п,А п,А п,А х п,А ° о
где
J~1 г
* 4- I I ww J
t,e,J<&3 k-1 TIO /Л«!
XV oq{a;0 )b (r)doN t . e *
Далее в § 1.4 рассматриваются случай двух классов (ъ=г) и численный пример.
В § 1.5 построено робастное минимаксное ПРП:
d*(a;9c)= argffiin f*Ax",9е); п je a J
<e£l
для классификации искаженных наблюдений, минимизирующее гарантированное ("наихудшее") значение риска. Посредством асимптотического разложения риска (теорема 1.5.2) получены формулы для его приближенного вычисления, и установлено преимущество d*(-;9c) над ПБРП d(-;Bc).
Все результаты, полученные в § I.3-I.5, проиллюстрированы на численных примерах с нахождением минимального ô-допустимого объёма выборки х и пороговой точки £* в случае
"искаженной" модели Фишера; приведены графики, демонстрирующие точность приближённых формул для их вычисления.
В главе 2 строятся и исследуются на устойчивость РП, основанные на методе х-средних.
В § 2.1 рассматривается случай, когда классифицируемые наблюдения неискажены: класс П{ описывается плотностью ч(*;9р, которая известна с точностью до параметра сдвига, равного математическому ожиданию:
Г xq(x;9°)dx = 6® , {es, R"
и принадлежит семейству J»=-{q(a:;9), ¡reK": в^К"}-. Задача состоит в оценивании вектора истинной классификации zf=(d°,... и составного вектора неизвестных математических ожиданий 6°^** по случайной выборке х объёма п. Известно, что метод х-средних определяет оценки в и Ъ для 6° и как решение задачи:
л.
№rt(e,D) -* in/ ; ffn(9,D)= vT1Y Hat-9d II2.
GeR^.W ' fei *
Очевидно, что
ff* (9)= min ff (9,H)= тГ'У mí* ||x.-9.||2 П De3 n {es * *
является статистической оценкой следующего функционала: w°(0;eo)= J «(*;e)q_(»;ee)ite ;
Bf
4^(1:9°)= у Я4ч(я;в°) , e(*;e)» mía ||*-9{||2,
fea íe£J
и классическое РП х-средних может быть записано в виде:
d„ (а;ё)в argnin И®-в.|| ; 9= argtnf !У* (6) .
1е3 П Л
В теореме 2.1 Л исследовано поведение оценки 9 при tw®.
Теорема 2.1.1. Пусть выполнены следующие условия регулярности :
К,) функция с(г;в) дважды дифференцируема по 8eK*"N (К -расширенная числовая прямая) почти всюду относительно меры Лебега в Of, а е9 частные производные равномерно интегрируемы по ее относительно q(®;ü), üetR";
К2) операции интегрирования и дифференцирования.перестановочны :
Vg JÄ(x;0)q(:r;B)dT= J 7^Ä{x;9)q(a;;ü)dx, 9eöf-N, , Ъ=1,2', .
г г
К3) единственна точка минимума:
и невыроадена симметрическая матрица вторых производных:
у л |е=е
Тогда для уклонения оценки в справедливо стохастическое разложение:
дё = ё-е"=-л"'(в*;е°)?е.иЛ(е*) + <г1и",(е*;ес,^0»№*(е*)), т^+оо, и, кроме того, имеет место сходимость:
9 п-н-» е* .
п
Следствие 2.1.1. Если классы "хорошо разделимы":
ч(г;0{)ч(®;9]) -»- О, V ¡сеК", 1,^3,
а в качестве ||«|| используется:
1М1= Алёу . В>-'о, то в условиях теоремы 2.1.1 оценка ё строго состоятельна: ' е п-н-> 9° .
ПГ.+®
Далее исследуется устойчивость РП ;в) в условиях конечной выборки х. В качестве показателя эффективности используется безусловный риск г (9; 9°) ^ , где гж(в*;0°) -вероятность ошибочной классификации при помощи РП (б*).
Теорема 2.1.3. Пусть выполняются условия регулярности К,-К3> тогда если:
Ы() Ъ\\2 непрерывно дифференцируема по и конечны
поверхностные интегралы и#ъ,
то риск гп . допускает асимптотическое разложение: гП|.» г.(0*;9о) + о(пр), Р<-о.5 ; М2) выполнены условия следствия 2.1.1; я(х',В) трижды непрерывно дифференцируема по Бей", дифференцируема по аеК", и
Ш(||х-9°||2- ||*т9°||2) = Ш(туи;9р -тогда
гп,-= + п~11 • го + в(е°)п-' ,
где коэффициент разложения в(9°)=<о(г) определён в диссертации.
'Из результатов теоремы 2.1.3 видно, что в случае М2 РП ь-средних имеет порядок устойчивости, равный 1, а в
случае М( оно не является асимптотически устойчивым.
С ) max А < +со ; ¿ t.JeS tJ
C3) Существуют и конечны пределы:
< lint -1—ln - < +00 , V D,D°eSn ,
fW® П Í>(D°)
тогда для rDc- rDo (o)= Ptfi } выполнено: rD°/í:D0 1 ' . Vе ' - e*p(" yg^^--**P(»n<)),
TI
где /in(b(n)) , a m* определяется из следующего асимптотического уравнения:
U(n))-" J вЯр( V(mf-m;) - 0.5<mf-m;)2 ) 1 J
ms^
= ( in(p(D)/p(D°)) - 4-1 )/( E Ad;,dt )°'5 í
~ In n _ In(in(L(n)))
a = a —
2o„ 2a .
n n.
Исследован случай конечного объбма п выборки х и оценена вероятность ошибиться при классификации только одного наблюдения из х при фиксированном (остальные п-1 наблюдений классифицируются правильно):
'¿'М Х> - 4V ='}
Теорема 3.1.9. Пусть классы равноудалены друг от друга:
тогда в условиях обобщённой модели Фишера справедлива двусторонняя оценка для г^о :
' - - 4)* ^ -<' - пд-§- - .
где Ф(-) - функция распределения вероятностей стандартного
нормального закона;
с „ох ln MSliXL , с. 2n MüLllL. ;
d,f-s P(D°) 4 dte3 P(D°)
n(t)= ...,d°_(,dt,d°+1,....d°)T, t=í,n .
- 17 -
В § 3.1 обсуждается также возможность построения ПРП на основе ОРП и проблема анализа его устойчйвости.
Далее в § 3.2 рассматривается случай марковской зависимости классов. Последовательности х1.....и
считаются связанными следующий образом: наблюдение а^ принадлежит классу , то есть' описывается плотностью а
г
. .-,<1°,... - однородная односвязная цепь Маркова с пространством состояний з. .
В § 3.3 исследуется обобщённая на случай марковской зависимости классов модель Фишера при помощи результатов § 3.1, и приводится ПРП," использующее оценки по методу моментов для неизвестных параметров.
В заключений перечислены основные результаты.
С .задачей классификации традиционно .связывают-проблему' формирования информативных признаков, которая особенно остро стоит в кластер-анализе: вследствие априорной неопределбнносд'и с увеличением размерности п пространства наблюдений К" существенно 'возрастает вычислительная сложность »алгоритмов принятия решений. В приложении I проводится анализ устойчивости классической процедуры Карунена-Лоэва формирования информативных признаков при наличии искажений вероятностных распределений с учбтом специфики кластер-анализа, и предлагается еб робастный аналог, основанный на использовании устойчивых оценок специального вида для ковариационной матрицы.
Приложение 2 содержит акт внедрения результатов диссертационной работы. .
По результатам исследований .опубликовано 20 работ, основные из них:
1. Жук Е.Е. Оптимальное решающее правило в случае зависимых' наблюдений /Математическое -и программное обеспечение анализа данных: Тезисы докладов Респудиканской научной конференции. - Минск, 1990. - С. 69.
2. Жук ЕЛ2. О статистической классификации при наличии зависимости классов //Проблемы компьютерного анализа данных и моделирования: Сб. науч. ст. - Минск: Белгосуниверситет, 1991. - С. 43-49. •
3. Жук Е.Е. Устойчивость процедур кластер-анализа-при искажениях вероятностных распределений. - Мн., 1991. - 14 с. -Деп. в ВИНИТИ 30.01.92', të 3I4-B92.
4. Жук Е.Е. Синтез робастного решающего правила при наличии искажений Тьюки-Хьюбера //Компьютерный анализ данных и моделирование: Тезисы докл, Республ. научной школы-семинара. -Минск, 1992. - С. 50.
5. Жук Е.Е. 00 одном классе м-оценок, являющихся оценками минимального контраста //Актуальные проблемы информатики: математическое, программное и информационное- обеспечение: Материалы межреспубл. научно-практич. конф. творч. молодёжи. -МИНСК, 1992. - С. 37-38.
6. Жук Е.Е. Об устойчивости алгоритма ¿-средних //vi Конференция математиков Беларуси: Тезисы докл., ч. 4. - Гродно, 1992. - С. 164.
7. Жук Е.Е. Асимптотическая робастность в кластер-анализе при искажениях Тьюки-Хьюбера //Современные проблемы компьютерного анализа данных и моделирования: Сб. науч. ст. - Минск: Велгосуниверситет, 1993. - С. 24-29.
8. Жук Е.Е. Об устойчивости процедуры Карунена-Лоэва формирования информативных признаков в задачах распознавания образов //5 научная конф. стран СНГ "Применение многомерного стат. анализа в экономике и оценке качества продукции":'Тезисы докл. - Москва, 1993. - С. 64-55.
Э. Kharln Yu., Zhu)s E. Diatortlong of probabilité distributions and robuetneee of olueter analyele prooeduree //Proo. of the Internatlonal Conférence "Information and Olaeeifica-tion". - Dortmund, 1992. - 1 p.
10. Kharln Yu., Zhuk JE. Aeymptotio robuetneee In oluoter-analyele for the caee of Ти'Ьву-ЯиЪвг dletortione //Information and Classification'. Concepte, Methode and Applications /Proc. of the 16th Annua.1 Gonf. of the "GeeelÏBChaft fur Klaeeiflka-tion e.V." - Berlin: 3pringer-Verlag, 1993. - P. 31-39.
11. Zhuk E. h-тпеапв algorlthm stabilité //17 Annuaï Conf. 3/ th.s Gesellechaft fur Klageifikation e.V.: Talk abetraote. -ïaiserstautern, 1993. -1p.
12. Жук Е.Е. 0 робастном оценивании параметров смеси ввро-1ТНОСТ1ШХ распределений //Вестн. Белорус, ун-та. Сер. I: Физ. Лат. Мех. - 1993. - 6 с. (В печати)
/О/