Метод минимизации эмпирического риска в задачах восстановления регрессии и обучения распознаванию образов тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Ольшевская, Ольга Викторовна
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Минск
МЕСТО ЗАЩИТЫ
|
||||
1993
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
РГб од
2 1 '¡¡01№&ё&скт ОРДЕНА. ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им. В.И. ЛЕНИНА
На правах рукописи
. ОЛЬШЕВСКАЯ ОЛЬГА ВИКТОРОВНА
УДК 519.23
МЕТОД МИНИМИЗАЦИИ ЭМПИРИЧЕСКОГО РИСКА В ЗАДАЧАХ ВОССТАНОВЛЕНИЯ РЕГРЕССИИ И ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ
01.01.05 - Теория вероятностей и математическая статистика
АВТОРЕФЕРАТ диссертаций на соискание ученой степени кандидата физико-математических наук
МИНСК, 1993
Работа выполнена в отделе стохастического анализа Института математики Академии наук Беларуси
Научный руководитель - доктор физико-математических наук, Б.А.Залесский
Официальные оппоненты :
- доктор физ.-мат. наук, профессор кафедры высшей математики Гомельского госугагеерситета
им. Ф.Скорыны Малинковский Ю.Б.
- кандидат физ.-мат. наук, доцент кафедры теории вероятностей и математической
статистики Белгосуниверситета им. В.И.Ленина Морозов В. А.
Ведущая организация - Московский государственный университет шени М.В.Ломоносова
Защита состоится чЛЗ" 1993 г. с /С *часов
на заседании специализированного Совета к 056.оз.17 при Белорусском государственном университете имени В.И.Лешна по адресу : 220050, г. Минск, пр. Скорины, 4, Белгосуниверситет, гл. корпус, ауд. 206.
С диссертацией можно ознакомиться в научной библиотеке Белгосунивербитета
Автореферат разослан -/У- 1993 г.
Ученый секретарь специализированного Совета доцент
Ю.В.Меленец
\
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы .Исследования в области восстановления функциональных зависимостей и, в частности, восстановления регрессии и обучения распознаванию образов в настоящее время являются актуальным направлением в математической статистике. Это связано с расширяющимся применением разрабатываемого в этой области теоретического аппарата в различных областях физики, химии, медицины, биологии, социологии и т.д.. В последние годы при аппроксимации регрессионных зависимостей сталд широко использоваться сплайны.
Классическое направление в области восстановления функциональных зависимостей, основанное на методах параметрической статистики, связано с именами Р.Фишера, К.Пирсона, Г.Крамера, С.Уилкса, М.Квндалла, А.Стыоарта. В последнее время получил развитие подход, в основе которого лежит принцип минимизации эмпирического риска. Исследованиями в этом направлении занимались Л.Ле-Кам, В.Н.Вапник, А.Я.Червонёнкис [11], Деврой [12], Александер [13], Дадли* Уолд, Анселон и др..
Важнейшим моментом в развитии метода минимизации эмпирического риска является построение оценок скорости равномерной сходимости эмпирического риска к теоретическому в задачах восстановления регрессии и обучения распознаванию образов.На основе полученных оценок строятся доверительные интервалы для качества функций,минимизирующих эмпирический риск. Построенные доверительные интервалы также успешно используются в качестве критериев выбора при решении задач восстановления функциональных зависимостей для "малых" выборок методом упорядоченной
Э
.минимизации риска.
А.И.Михальский, Ю.С.Завьялов, Б.И.Квасов, В.Л.Мирошниченко и другие исследовали эффективность применения полиномиальных сплайнов для восстановления регрессии. По сравнению с методами полиномиальной регрессии сплайн-аппроксимация регрессионной зависимости имеет преимущество в задачах прогнозирования, т.к. дает возмокность равномерного приближения функции регрессии.
Цель работы. Построение оценок скорости равномерной сходимости эмпирического риска к теоретическому в задачах обучения распознаванию образов и восстановления регрессии. Разработка методов построения многомерных ломаных кусочно-непрерывной и непрерывной поверхностей регрессии.
Научная новизна и практическое значение. В диссертации построены оценки скорости равномерной сходимости эмпирического риска к теоретическому в трех задачах обучения распознаванию образов и двух задачах восстановления регрессии, которые точнее ранее известных оценок. Разработаны два метода построепя многомерных ломаных кусочно-непрерывной и непрерывной поверхностей регрессии.
Результата диссертационной работы могут быть использованы в прикладной статистике в задачах восстановления регрессии и обучения распознаванию образов, в физике, химии, инженерных исследованиях, медицине, сельском хозяйстве, социологии и т.д.
Апробация работы. Результаты диссертации докладывались на республиканских научных конференциях " Математическое и программное обеспечение анализа данных"(г.Минск, 1990г.) и "Проблемы внедрения новых информационных технологий в АПК "(г.Минск,
1991 г.); на международной школе " Предельные теоремы и непараметрическая статистика " (г.Бвлефальд, 1992г.); на республиканской научной школе-семинаре "Компьютерный анализ, данных и моде- . лирование " (г.Минск, 1992г.); на городском научном семинаре " Математическое и программное обеспечение анализа данных организованном кафедрой математического моделирования и анализа данных Белгосуниверситета; на научных семинарах лаборатории статистических методов Института математики АН Беларуси.
Публикации. Основные результаты диссертации опубликованы в ю работах, список которых приведен в конце рефе^ ата [ 1-ю ].
Структура и объем диссертации. Диссертация состоит из введения и двух глав, которые включают ю параграфов, и списка литературы (98 наименований). Общий объем работы - 99 страниц машинописного текста.
СОДЕРЖАНИЕ РАБОТЫ '
Во введении дается краткий обзор литературы и результатов, полученных другими авторами. Кратко изложены основные результаты диссертационной работы. .
Первая гжава диссертации посвящена построению оценок скорости равномерной сходимости эмпирического риска к теоретическому в трех задачах обучения распознаванию образов и двух задачах восстановления регрессии. На основе полученных оценок строятся доверительные интервалы для качества функций,минимизирующих эмпирический риск.
Принцип минимизации эмпирического риска состоит в минимизации вместо теоретического риска
I(a) = J (y-Fte.cO^ícbc.dy),
o
где (y-F(x.a)) - функция потерь, зависящая от переменной у,
векторной переменной х=(х1.....xk)£Rk, параметра сел (функция
Р(х,а) принадлежит параметрическому множеству функциональных '
зависимостей), эмпирического риска
п
v<a> = н ¿(yr?(xd'a,)2'
построенного по выборке х1 .у.,;... ;хп,уп . Функция Р(х,аэ), ми-нимизирущая г (а), близка к функции F(x,a0), минимизирующей ' l(a), при условии существования равномерной сходимости эмпирического риска к теоретическому, т.е.когда для любой заданной величины уклонения ае может быть указано неравенство
Р { sup | i(a)-v(a) ) > зг } < т) . a
В § 1.1. построена оценка скорости равномерной сходимости
частот появления событий.к их вероятностям в задаче обучения
распознаванию образов в случае конечного числа решающих правил.
Теорема 1.1. Пусть g.,у., í=i,...n - обучающая последовательность длины а, множество решающих правил конечно и состоит
из N правил : F (х,at),...,
тогда
P{sup '|1«х.М»(а.)| > ае } <
i
< 2N шах í(k'l),p(l))(p(I)) '(l-pd))
1<1<т*-ш
n-k(l)Г П I [k(l)j'
о
где то = [аеп] (здесь [аеп] - целая часть аеп) при дробном sen и
(1-р) (к+1)
т =аеп-1 при целом аеп, Х(к,р) -- > Jc(Z) = т + г,
1 —р—пр+Зс
Ш/, 1 Р<г> = й +п--*-
В таблице 1 приведены значения процентных точек ае для :
- построенной в Теореме 1.1 оценки (обозначено ае0),
- для аир р { |Р(а)-у(а)| > ж > (обозначено х ),
р
- для оценки В.Н.Вапника и А.Я.Червоненкиса 111] (ае^) при N=1. Например, при п=40 для т)=0.05 аер=о.1б7, 3^=0.215, эео=0.1б9;
при п=200 для 17=0.025 эгр=0.082, ае, =о.Ю5, ае0=о.083. Таблица 1
хорошо иллюстрирует, что процентная точка х0 намного лучше, чем аед и очень близка к агр. Таким образом, ае0 позволяет точнее оценивать доверительный интервал в исследуемой задаче.
В § 1.2. получена оценка скорости равномерной сходимости частот появления событий к их вероятностям в задаче обучения распознаванию образов с использованием емкостных характеристик множества решающих правил. Определим независимые одинаково распределенные бернуллиевские случайные величины £которые будут использоваться в формулировке теоремы,
п
Р(£-)=1}=Р{?;)= -1}=о.5,;)=1,...,п, Зп= У
Определим систему событий 3(а)={ х,у: (у-Р(х,а))2 = 1 }.
Теорема 2.1 На случайной независимой выборке п пар х1,у1;...;^1,уп справедлива оценка скорости равномерной сходимости частот к вероятностям по классу событий Б(а) для к=[ ^ ] * ЗД0СЬ Целая часть а ), при к,п одновременно обоих четных либо нечетных
РС аир |1(а)-г(а) |>эе } < 6 р{ ,>к+1 >,
а£Д К-
при к,п одном четном другом нечетном
р{ аир |i(a)-v«x)|>ae } < 6 р{ 5„ >к+1 }. аед к. п
В таблице 2 приведены значения процентных точек х для :
- построенной в Теореме 2.1 оценки (обозначено зг„т),
- для оценки В.Н.Валника и А.Я.Червоненкиса [11] ( ае^ ) . Показано, что в наиболее употребимом диапазоне 0.1 < tj < 0.25 построенная оценка позволяет более точно оценивать доверительный интервал для качества решающего правила, минимизирующего эмпирический риск.
В } 1.3. построена оценка скорости равномерной сходимости частот появления событий к их вероятностям в задаче обучения распознаванию образов в классе линейных по параметрам решающих правил. Пусть класс решающих правил состоит из индикаторов всех линейных полупространств
Р(х,а)=1 с k v
{¿WW0 }
а=(а1,...,а1с+1)е.Л б Rk+1,x=(x1t...,xk) е Rk , Теорема 3.1 Предположим, что случайные величины X имеют плотность по лебеговой мере i<x)<L, пусть носитель г(х) принадлежит кубу к со стороной длины м. Класс решающих правил ?(х,а), а£Л состоит из индикаторов всех линейных полупространств, как описаго выше. Тогда
(1) Р { аир | I(a)-v(a) | > эе ) < 2С., (к^ехр^гге2)!},
а 1
(2) Р { sup (Ца)-v(а) ) <~з> } < с. (k)nkekp{-2a?n), . а '
к 2
(3) Р { sup ( l(a)-v(a) ) > ае } < c2(k)n ехр{-2ае n},
к-1
где 0, (к)= 2 ^ кк2 | (М+1 кг/2_31с/2Ь1с(4+вхр{4))квхр{к},
к-1
С2(к)= 2 ^ кк2 | (М+1 )к2к кг/г_3к/2Ьк5к9хр{к},
здесь ^ т | 1 биномиальные коэффициенты.
Построенная оценка, как и оценка Деврой [ 12,13 ] имеет оптимальный порядок экспоненты, но лучшую ассимптотику при п чоо .
3 } 1.4. построена оценка скорости равномерной сходимости средних к их математическим ожиданиям в задаче восстановления . регрессии по значениям неслучайных предикторных переменных в I ассе линейных по параметрам функций. Определим регрессию в классе линейных по параметрам функций как
У1=Р(*1,а)+е^ 1=1,...,и, где Р(х,а), сел. - класс линейных по параметрам функций
К+1
р(*,а)= £ = (а,ф(*)), а=(а,.....«к+ч)©*1"'1,
ф(х)=(<р., <х).....<рк+1 (х))©1к+1, «р^^ (х)^,«©^1. Модель строится в
предположении ,. что в<е)=о и все е. независимы и имеют
одинаковую дисперсию. Пусть .....хпб ^-неслучайные
переменные, в этом случае функционал х(а) сводится к
1 П 2 а(а)=п-1 ^е(у^-р(х.. ,а))
п
Эмпириче ский функционал 3 (а) =п~1 ^ (У^-Р (х^, а)).
Пусть и а < < ь, I = 1,...,п. Это вполне естественные ограничения на область определения у2, т.к. область определения значений отклика имеет определенный физический
смысл и значения верхней и нижней границ области изменения
отклика можно установить из физических соображений, анализа
данных. Обозначим г=зир|а|, г < » .здесь |.|- обычная евклидова а
норма в и114"1 .порожденная скалярным произведением. Определим
независимые случайные величины'
^.....3'=1.....п'
где е^у^-ЕСу^) - независимые скалярные случайные величины, определяющие ошибку наблюдения у. Очевидно, что Ег^=0, ■ ;}=1,...,п. Пусть "П^^-Еб^. легко видеть, что Ег]^=0, ¿=1,...,п. Обозначим
п п
Е82=02,^Е|а;{|2 = о2 Х^ф^Я2 = Р2.
Теорема 4.1 Пусть для некоторых 1£, справедливы неравенства
Е|8|И < ~ О2!*"2 И - < Ь*"2 , ш=2,3...,
2 |Ф<^)!2
ь = ье1ф , тогда
¿=1
Р { вир I «г (а)-.г (а) | > зе } < |а|<г
I. I п(Ь-а) J I (-2р2+ (пзе-з0)Ь ->^2 .1]
где
Г Г 2 те2 1 Г (пае-«) Ц
в = Аг@п1п ехр ]--— У + 2 ехр ■{--И .
0<*<п2е|. I п(Ь-а) ) I (пзе-^)Ь ^4г2 )\
Для этой ке задачи в случае, когда ошибки наблюдений явля-
ются стандартными гауссовскими случайными величинами, построена оценка, имеющая простую экспоненциальную форму и оптимальный порядок экспоненты.
'В § 1.5. построена оценка скорости равномерной сходимости средних к их математическим ожиданиям в задаче восстановления регрессии в классе линейных по параметрам функций. Пусть
k+1
F(x,a)= J = (a.x), «Ma,.....Oic+i)®1^1,
j—1
*. • • )ERk » и x - .случайные переменные .Теоретический риск равен 1(a).
Теорема 5.1 Пусть случайные величины |Y| < м, |х| < R, параметр |а| < г. Тогда
(1) р { svp | i(a)-J(a) | > х ) < гСоСк.г.Юп^ехр^гэ^пЛм+гН)4},
|a|<r
(2) Р { sup l(a)-J(a) > зе } < Coik.r.RJn^expi^a^n/di+rR)4},
|a|<r ' 3
где C3(k,r,R)=25kek(rR)klc_k/2(lI+rR)""3k.
Построенная оценка имеет лучший показатель экспоненты, чем полученная при условии равномерной ограниченности потерь оценка В.Н.Вапника и А.Я.Червоненкиса, и ту же ассимптотику при п .
В } 1.6 - 1.7 для "малых" выборок использован метод упорядоченной минимизации риска,в котором в качестве критериев выбора при решении задач восстановления функциональных зависимостей используются построенные в диссертации доверительные интервалы для качества функций, минимизирупцих эмпирический риск. Вторая глава диссертации посвящена разработке двух методов
построения многомерных ломаных кусочно-непрерывной и непрерывной поверхностей регрессии. В основу обоих методов положен принцип выделения из совокупности переменных, задающих сплайн, подсовокупности независимых переменных, через которые линейно выражаются остальные коэффициенты. Это позволяет уменьшить размерность расширенной матрицы плана.
В { 2.1 разработан алгоритм построения многомерной кусочно-непрерывной ломаной поверхности регрессии.
Обозначим к-мерный параллелепипед о = (а,,4, Ыа^.а^Зе и1*, пусть хЕО, Предположим, что задано разбиение
. Р
параллелепипеда э р- параллелепипедами Б = и о.,, п п. = о,
1 3 31 '32
Параллелешшеды ,в свою очередь, образованы разбиением каадого интервала (а^,^], ¿=1,...,к на т^ частей
Каждой вершине построенных параллелепипедов сопоставим мультииндекс ¿(к). = полагая 1=1.....к,
Пусть у^
ук
, 1=1,...,р-1,
образована векторами-строками у1, (=1,...,к, координат вершин
общей грани, 1к=[1.....1]т, У^1 =[0]- нулевая кхк матрица.
Занумеруем параллелепипеда определенным образом. В кавдом методе указывается свой способ нумерации параллелепипедов.
Пусть п наблюдений *1,... упорядочены по параллелепипе-
дам так, что первые ¿1 наблюдений лежат в параллелепипеде , •
следующие 17- в Ь? и т.д., поспедние I наблюдений лежат в пара-
Р
ллелепипеде ор, причем ^ I. = п .
Теорема 1.1 к-мерная ломаная кусочно-непрерывная поверхность представима в виде
ве = 29 •
где п х (к+р) матрица г имеет следу щи вид: векторы-строки
Ч"1х*и1 .....V(>1к»*а1),
.... )1 к.«^). 1 ■-<▼!!-, 1 ) -о.....о].
1-1 I
I М I «V • 1=2.....» •
У=1 у=1
В 5 2.2 разработан алгоритм построения многомерной непрерывной ломаной поверхности регрессии. Пусть (к))-вершина параллелепипеда с мультииндексом 3(к),1^(0,...,0,1,о,..,о).
Пусть далее (к)=(1,...,1 ,...,1), 1 < а,< т. , 1= 1.....к.
1 1—1 ■ .1 1
Пусть наблюдения независимых переменных в регрессионной
матрице х упорядочены по принадлежности к параллелепипедам 9
возрастающими номерами: перше п., наблюдений принадлежат 1-му
параллелепипеду, наблюдения с номерами ц: п._4+1< ц < п.
принадлежат параллелепипеду о номером » и т. д. до последних
наблюдений от, п до пр=п, принадлежащих р-му параллелепипеду.
Теорема 2.1 к-мерная непрерывная ломаная.поверхность
представима в виде
е9 =: 26 ,
где вд^вОс,),...,в^)]1,*^ 1 < I < п наблюдения к-мерной предикторной переменной.
к
Z « ( V + W ) - nxg- матрица , где g=k+l+^ (т,-1)
1=1
Для 1=1,...,п. 5=1.....к, vij=xij , т. е.
V . . .V
nt пк
Для строк с номерами п^+1 < I < п^, где г>- номер параллелепипеда с мультииндексом опорной вершины ¿(к), элементы к+1- го столбца имеют ввд
4d
d=l
ТГГГТ •
При r=2,...,3d-i,wifl ^=3.....Юн,4=1.....к
d-t
xdtrd(k)) - r,lr,(k)-1J
i,k+ Y(m.-1 )+r
. где r (k)=jJ (k)-ml ,
dv d4
id
d-1
i,k+
|(m -1)+j
xd(jd(k)-i„) • остальные vij=o.
При ¿.>1
d-l
- Wi.k+1= -I '1 +1»
i,k+ 7(m -1 )+j j-« 1
остальные
Vi = 0 ' t '
означает суммирование по d: j >1.
d=l
s
В 5 2.3 дано очень краткое описание комплекса программ regro, ' реализующего два метода построс:шя многомерных лсманых поверхностей регрессии.
•Основные результаты диссертации опубликованы в работах:
1. Залесский Б.А., Ольшевская О.В. Построение многомерной кусочно-непрерывной ломаной регрессии // Весц1 АН БССР.Сер.физ.-мат. навук.-1988. . -С. 3-8.
2. Залесский Б.А., Ольшевская О.В. Построение многомерной непрерывной ломаной регрессии // Весщ АН БССР.Сер.физ.- мат. навук. -1990.-№4.-С. 10-15.
3. Программное обеспечение ЭЗМ /АН БССР. Ин-т математики. Мн. ,1990. Вып. 88: Комплекс программ REGRO построешя многомерных кусочно-непрерывной и непрерывной ломаных поверхностей регрессии // Залесский Б.А., Исакова Г.А., Ольшевская 0.B..56C.
4. Залесский Б.А.,Исакова Г.А., Ольшевская О.В. Комплекс программ regro построения многомерных кусочно-непрерывной и непрерывной ломаных поверхностей регрессии // Тез. докл. республ. научн. конф." Математическое и программное обеспечение анализа данных".- Минск. 1990,- с.138.
5. Залесский Б.А.,Исакова Г.А., Ольшевская О.В. Построение многомерной регрессии средствами комплекса программ regro//Проблемы компьютерного анализа данных и моделирования: Сб. науч.ст./ Цод ред. Ю.С.Харина.- МН.:БГУ им.В.И.Ленша. 1991.-с.56-60.
6. Залесский Б.А., Ольшевская О.В. Многомерная непрерывная ломаная регрессия // Тез. докл республ. научн. конф. " Проблемы внедрения новых информационных технологий в АПК ".Минск. 1991.-С.30-32.
7. O.V. Olshevska, B.A.Zalesskii Estimations of Minimum оf Quadratic RiBk for Pattern Recognition And Regression Problems // Bielefeld University. 1993.- p.11.
8. Залесский Б.А., Ольшевская О.В. Оценка скорости равномерной сходности частот появления событий к их вероятностям в задаче обучения распознавании образов // Тез. докл республ. научн. школы-сешшера "Компьютерный анализ данных и моделирование ".-Минск, дек. 1992.-с.40.
9. Олыаевская О.В. Метод минимизации эмпирического
риска в задаче обучения распознаванию образов / Ин-т Математики АН Беларуси,- Мн. 1993.-» 5(496).- 12 с.
ю. Ольшевская О.В. Восстановление регрессии по значениям неслучайных предикторлых переменных в классе линейных по параметрам функций методом минимизации эмпирического риска / Ин-т .Математики АН Беларуси,- Мн. 1993.-№ 7(498).- 21 с.
11. Вапних В.Н. Восстановление зависимостей по ампири* )с-ким данным.- М.: Наука. 1979.
12. Devroye L. Bounds for.the uniform deviation of empirical measures// J.liultivariate Anal.1982.- »12.-p.72-79.
13. Kenneth S. Alexander. Probability inequalities for empirical processes and a law of the iterated logarithm // The Annals of Probability. 1984.- Vol.12, No.4.-1041-1067.