Метод ближайших соседей в задачах непараметрического оценивания регрессии тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Пулатов, Бахрам Нигматович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Ташкент
МЕСТО ЗАЩИТЫ
|
||||
1993
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
Р Г 6 од 5 / ШОП 1993
АКАДЕМИЯ НАУК РЕСПУБЛИКИ УЗБЕКИСТАН
Институт математики инегш в. И. Романовского
МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ В ЗАДАЧАХ НЕ ПАР АМЕТРИЧЕ С КО Г О ОЦЕНИВАНИЯ РЕГРЕССИИ
01.01.05 - Теория вероятностей и
математическая статистика
АВТОРЕФЕРАТ
диссертации на соискании ученой степени кандидата ♦изико-натенатическик нале
Ха пра&ш [щкопихм.
ПИЛАТОВ БАХРАМ НИГИАТОВНЧ
С
Ташкент - 1993
Работа выполнена в Институте математики имени в. И. Романовского АН Республики Узбекистан.
Научный руководитель - доктор Физико-математических наук
Щ. А. Хашимоа
Официальные оппоненты - доктор Физико-математических наук.
профессор Ш. К. Форманов
- кандидат Физико-математических наук м. с:. мунинов
Ведуиая организация - Белорусский Государственный
Университет.
Зашита диссертации состоится щ Á-J" - JódtíÍL^Lr—.._____ 1993 г,
в 14 часов на заседании специализированного совета Д 015.17.21 в институте натенатики имени В. и. Романовского АН Республики Узбекистан по адресу: 700143. г.Ташкент 143. ул. Ф. Ходхаева. 39.
С диссертацией мохно ознакомиться в библиотеке института математики имени В. Я. Романовского АН Республики Узбекистан.
Автореферат разослан __¿éfif^L^___:____l. 1993 г.
-Ученый секретарь специализированного совета доктор Физ. -мат. наук
UU
ш. а. Хашимов
ОБЩАЯ УШКтЖЕИКА. РАБОТЫ '
А к г у а л ь я- о а г ь. темы. Яепара.",:втрическое оцениваете -болызои раздел математической статистики,имею-2Ш1! дело с задачами оценки функционалов или элементов некоторых- функциональных пространств в ситуациях, когда они на определяются заданием конечного числа параметров. К задачам яапараметрпческог.о. оценивания относятся такие задачи как, восстановления законов распределений и плотностей распределений по эмпирическим данным, оценивание функциональных характеристик случайных величин или векторов п различных функционалов от законов распределений и т.д. Особое место в научной литературе занимают работы посвященные построению и исследованию различных статистические сволств оценок плотностей распределений. На сегодняшний день существует много способов разрешения.проблемы оценивания плотностей распределений и кривой' регрессии. Например, метод ядерных функций, проекционные оценки, метод- максимума правдоподобия со штрафными функциями, метод сплайн функций и' др.
Среди оснозополагащих работ теории непараметрического оценивания следует отметить работы В.И.Гливенко, Н.В.Смирнова, У.Розенблатта, Н.НЛенцова и Э.Парзена. Позднее эта область математической статистики была развита многими математиками, например И.А.Ибрагимовы?,! и Р.З. Хасьминсквм, Э.Надарая, У.йирзахмедовнм, В.Конановым, Ш.А.Запшмовым, Л.ДевроЛ, Л.Дьерфи и др.
-Важной функциональной, характеристикой случайных величин является функция регрессии - Х - ^
где - двумерный случайны! вектор. Функция '^егре-ч^
^С^) обладает важным свойством минимальности, т.е. среди всех функции (Д^ , которые дают возможно лучшее представление (в сдасле' принципа • наименьших квадратов) другой величине "У , достигается цри функции С} (Х^ - ^(.Х)- Задача непараметричаского оценивания по наблюдениям неизвестном ■функции регрессии "2-00 впервые рассматривалась Э.Надарая и Г.Ватсоном.' Они, основываясь на ненараметрнческио оценки ■ Дарзена-Розенблатта елотно'сте вероятности, предлонили уак называемые ядерные оценки для. неизвестной функции "сЦ^ • В научной литература рассматриваются .и другие типы оце-
I
нок неизвестном кривой регрессии: проекционные оценки Чен-цова, оценки блилсайдшх соседей, сплайк оценки и другие.
В последние года специалистами довольно .интенсивно изучаются, так называемые, оценки Злигайших соседей пли блиааНпше соседи. . . . •
Цри заданном X выборка-'упорядочхшает-ся по возрастанию величин расстоянии . В резуль-
тате поручается вектор рангов ^^^ ,. . . , где
\ - . , есть с-й бликайший сосед точки ''5^ '.. В слу-.чае совпадения расстояний выбор блиаайшего соседа производится исходя из сравнения индексов. Оценки "ближайших со-.' седэй представляет собой обобщения ядерной в гвстограшной' оценок а обладают такими отличительными, по сравнению, с другими сценками, двойствами как: а) лучшее поведение цри малых выборках; й) робастность; в) простое рекуррентное задание; г) локально дасграиваемое сглаживание.
Оценки блваайших соседей для ноиавестной кривой рог- .
рессии, по-видимому, впервые были введены в рассмотрение в работах К.Стоуна. Ш.Янг в случае частного выбора ядра оценки блвжайилх соседей доказан состоятельность и асимп-. тотическую нормальность предложенной им статистики. В.Стут рассматривал оценки ближайших соседей с более общими..ядрами и изучал условия при которых оценка будет асимптотически нормальной. Аналогичный результат для оценок ближайших•соседей в случае зависимых наблюдений был получен в работе " К.Йошпхара. Исследованию свойств (состоятельность,.асимптотическая нормальность и сильная состоятельность) оцэнок ближайших соседей кривом регрессии в многомерном случаэ посвящэны работы Бхаттачарпя П.Х. и Мак И.П. (1990), Дик-та Г. (1990), Стут В. и Мантига В. (1990), Мэхра К.Л.(1991) и др.
Ц о л ь работы. I) по имеющейся априорной информации о принадлежности кривой регрессии к .определенному классу функций, установить точную скорость сходимости оценок блняайичх соседей к истинной кривой регрессии; 2) найти условия сходимости распределения - мерного вектора, компонентами которого являются значения оцэнок блпкайпшх . соседей в различных точках числовой црямой к много-
мерному нормальному закону; 3) последовать зозмсшгю цре-дельЕые рзконы (в зависимости от выбора коэффициента "размытости" оценки) раг тредолеипя глобального отклонения оцэнок ближайших соседей функции регрессии,как в случае справедливости нулевой гипотезы о виде кривой регрессии, так а црз справедливости сблиаающэй альтернативы; 4) установить цре-дэльноэ распределение максимального уклонзния оцэнок бла-
сайших соседей &'к:;ции регрессии.
!Л ет о д a s.a- и с с л е д а-з а в в я. При исследовании' указанных задач'применялись различные, аналитические е вероятностные метода, в том числе метод сопряженных рас- ■ нределений, .метод Крамера-Уоляца, предельные теоремы для обобщенных функциояаловЛЬазаса.
Научная новизна., Все.основные результаты диссертации являются новыми. К наиболее существенна:.! её положениям относятся следующие:
- установлено, что если функция регрессии- из класса Гельдера со степенью гладкости jb , то класс оценок 'L^Ct,') сходится к функций регрессии "Ltt) со скоростью 'iC^FJ \
- установлена асимптотическая норглальность случайного вектора • •' .
.....
' где • •, ^-iru Различные -очки из и ^-фиксированное число;
- найдены ш:'лие границы минимаксных рисков произвольных '■ нэдараметрпческих оценок функции регрессии ^Х) в схеме сигнал плюс 'дум в классе Гельдера;
- изучен предельный закон квадратачзского отклонения оце- • нок блигаЛлих соседей функции регрессии при оптимальном выборе коэффициента "размытости", которое в известном смысле миншззазирует среднекзадратичыскую ошибку;
- получен предельный закон распределения максимального уклонения оценки ^It) 01 неизвестно;! функции регрессии
(Л.*) • на конечном интервале;' - построены; асимптотические доверительные интервалы для ■ неизвестной функции регрессии.
Т е о р- е т. и ч е .с к а я и. • п р а к т и ч е екая ц'э н н о с т. ь. Результаты диссертационной работы носят теоретический характер. Они йогу™ быть использованы з статистических исследованиях по идентификации стохастических систем, в задачах статистической теории связи, обработке данных медицинских исследований и др..
• А п р о б а ц и-я . р а боты. Основные результаты . диссертации'в разном объема'докладовались на: Всесоюзной конференции "Симметричные- статистики: Вероятностная теория и применение в обработке данных эксперимента" (г.Киев,июнь" ' 1388 г.)', Всесоюзной конференции по предельным-теоремам, теории вероятностей, посвященная 70-летию, академика АНТзССР С.Х.Сиражданова (г.Ташкент,-май.1290 г.), Всесоюзной, научно-технической конференции с международным участием стран, членов СЭВ "Чримэнениэ статистических методов в производстве и управлении (г.Пермь, сентябрь.1990 г.), семинара по .теории вероятностей и математической.статистике' Денинград-. ского отделения Математического института им.З.А.Стеклозз АН СССР (г.Ленинград", октябрь 1990 г.);; совместном семинаре по теории вероятностей-и г тематической статистике инс-■ тута математики и механики им.Н.Г.Чеботарева и Казанского государственного университета, (г.Казань, ноябрь 1991 г.) , семинаре по теории вероятностей п математической статистике при Ташкентском государственном университете, а такаа на семинарах и егеюдных конференциях молодых ученых в знс-
титуте математики Академии Наук Республики Узбекистан."
Л у б.лЕкации. Осцовные результаты диссертации опубликованы в работах jj-7^»
Стр у к ту ра й. объем диссертации. Диссертация состоит из введения, двух глав, разбитых на параграфы, и списка литературы содержащего 80 наименований. Общий объем работы - 128 страницы, объем- без списка литературы - 118 страницы. ' -
#
С0ДЕЕКАШ1Е РАБОТЫ
Во введении обосновывается актуальность темы исследования, излагается история вопроса и приводится краткое, описание основных результатов и методов исследования.
В первом параграфе главы I даны некоторые предварительные сведения о функционалах Ыизеса, сощзяяенных распределениях и определения класса '"оценок блж&йшх соседей функции-регрессии. Приводятся такке результаты по цредельнытл теоремам, которые-в дальнейшем необходимы при доказательстве наших результатов б некоторые обозначения принятые в.работе.
Во втором параграфа главы Г в качестве оценки функции регрессии ~ рассматривается класс оце- ■
нок блвкайшх' соседей [в.Стут (1984)1 вида
где. H^U^ - последовательность положительных чисел, удовлетворяющая условию К.-« О , щ)й П.-* w ,
послвдов^уельность независимых, одинаково распределенных
случайных векторов,' - 'эмпирическая функция распре-
деления построенная на основании выборки \i , - некоторая ядерная функция.
Цельк. § 2 гл. I является установление скорости.сходи-моет! класса оценок■ ближайших соседей "Ly^C) к функции регрессии в случае, когда•заранее известна информация о том,- что кривая рецессии Ъ^АЛ принадлежит определенному классу функций.'Например, в теореме 1.2 установлено,что если функция perpeccm t- Cw^ из класса Гельдера со степенью гладкости jb и выполнены еще некоторые условия, то среднеквадратичёская сходимость класса оценок'- "2-^.tt.) к санкции регрессии "Lit) имеет порядок'. Далее, полученный результат распространяется на болей широкий класс функций потерь. Доказана (теорема 1.3), что если функция потерь удовлетворяющая неравенству
то справедливо соотношение
w ^ ■ t u)L - г№)\ < с» .
.п. гиь) и*4.
Доказанные в этом параграфе результаты показывают, гто скорость сходимости класса оценок ^^^ к *L(t) зависит от степени, гладкост" функции регрессии .
В § 3 главы I изучается асимптотическая нормальность оценок бликайших соседей функции рег^эссии.
Пусть - ITL - различные точки простран-
ства (vtL^ I - цэлое. фиксированное число). В теорокэ 1.4
устанавливается, что случайный вектор
И&^-г&а; гО^.....г^У^Л
будет асимптотически нормальным с нулевым средним в ковариационной матрицей , и, ^ - 1. ч... . где
. с.»,
Если ~ известна, то теорэьа 1.4 поз-
I
воляет построить асимптотический доверительшй интервал для значений кривой регрессии. Кроме того, на основе этого результата' манщо предлагать критерии согласия о виде неиз-. вестной- кривой регрессии • •
. Постановка задачи четвертого параграфа гл. I состоит в получении оптимальной в минимаксном смысла порядки скорости сходимости оценок функции регрессии |(,СО в схеме ' - , М- (3Десь независимые одина-
ково расцределенные случайные величины с плотностью вероятностей |>\Л«0 > независимые одинаково распределен-.• ные случайные величины с плотностью вероятностей ) ■ в случае, когда расстояние Хеллингера для ^ (Д.) аедет себя как степенная функция 0 . Основной результат
(теорема 1.5, этого параграфа указывает точную нижнею гра-
1 _
ницу минимаксных рисков (эта граница равна ) про-
извольных "непараметрических оценок функции регрессии в выше указанной схеме сигнал плюс даум.
Вторая глава. - "Асимптотические распределения некоторых статистик , связанных с классом непараиетрических оце-
кок блияайпях соседей" - состоит из трех параграфов. В этой главе'изучаются предельные распределения глобального отклонения оценок ближайших соседей кривой регрессии при нулевой гипотезе и сближающей альтернативе, а такне предельное ■распределение максимального уклонения этих оценок от Гунх-ции регрессии.
Основная теорема § I гл. П посвящена установлению предельного закона глобального отклонения T^-^l^tV^it^AFit) ¡19параметритеской оценки t-^t) кривой регрессии при оптимальном выборе коэффициента "размытости" - .
Согласно утверждению теоремы 2.2, если функции' и IvAX^ удовлетворяют некоторым условиям регулярности а
VÜrt при VL са , то
...
I {wv 1
Здесь
I -ч I -I • t -I
К. , если лАС -»0 , Ъ>1 ,
если <э t > 0 , H.H. ^ ,
. если. ^>0 , rf^A, ' о <5. -X -С 00 ,
Ч
wr. -I
где. Ф^Й.") - стандартная .норглальньй закон, ^ и ^' некоторые функционалы, зависящие от кривой регрессии . ядра ^(Х) "и Ъ - порядка цроизводной функции • В § 2 гл. П устанавливается предельное распределение глобального отклонения &• случае последовательности близких альтернатив .к основной гипотезе. Показывается, (теорема 2.3), что при X -* Ой статистика.
цри альтернативе -1 * распределена
в пределе нормально с параметрами -
где индекс снизу указывает на то, что характеристики вычислены при функции распределения соответ- ''
ствущей линиям регрессии . , а \Jjll} квадратично
интегрируемая функция,-величина О.^"-» О
В третьем параграфе главы Д-рассматриваются вопросы связанные с, предельным распределением максимального уклонения оценки Ч^^от неизвестной функции регрессии . ;. на конечном интервале. Один, из основных результатов этого параграфа (теорема 2.10) утверждает, что '
»-■ Щ*«*».\ I ^ 1 1
х-да ^^Ш-г^/Ьх) , уи^ -¥оо
яри и ^"ЭДдЛ- К°Р0НЬ уравнения
1 • _ ' \ - Т
и, *—, 0 е .
мсм ^
Теорема 2.10 применяется для построения асимптотических доверительных областей для нвИ1вестной функции регрессии с заданным коэффициентом доверия.. Пользуясь, случаем автор выражает глубокую благодарность свопму научному руководителю ведущему научному сотруднику,. доктору физико-математических наук Ш.А.Хашимову за постановку задачи, постоянное внимание к работе в многочисленные полезные обсупдення.
Основные результаты диссертации опубликованы в следующих работах:
1. Хашпмов Ш.А., Цулатов Б.Н.' Об одной непарзмэтрзческой оценке кривой.регроссЕй //Рук.двпонир. в ВИНИТИ 25.05.8". й 4025-В 88, 49 о.
2. Цулатов Б.Н. .0 глобальном отклонении одной непарамэт-рнчсзскои оценки кривой регрессии // Известия Ш УзССР. сер.фзз.-маг.наук 1288. й 6. С. 25-31.
3. Цулатоз Б.Н. . О нияней границе минимаксного рнгка не-■ параютрпческвх оцопок функции регрессии //Известия
АН УзСбР. сер.фи.-глт.наук 1939. & 4. С. 17-20.
4. Ну латав Б.Н. Нвеняя кгозиакспая граница ряска непара-иетрическнх оценок функций рогрос-пп //Тезисы докл. Всесоюзной научпо-тохппчоскоа коЕфэрэтда о нзгэдна-юдпш участием сэрзн члэноэ СРЗ. гЛЬрмь 1993. 2.1. С. 71-72.
5. Пулатов Б.Н. О некоторых свойствах оценок "бликайпшх соседей" для .функций регрессии //Доклады АН РУ серия г,!а'теи., техн. науки, естествознание-1992. I.- С.5-6.
6. Зулатоз Б.Н. ; Некоторые свойства оценок "блигайзшх со-; седей" для функций регрессии //Компьютерный анализ данных н моделирование'г.Минск 1992. С.'53.
7. Хашииов И.А;, Пулатов Б.Н. О максимальном уклонении
■ оценок бдпзайшего соседа функции регрессии //Бук. де-. . ■понар. в. ВИНИТИ 3,11.92. .'г 3162-В 92. 36 с. ■ .
РЕГГ2СС11ЯШ НОПАРАЖГРЖ БАХОЛАШ ¿1АСАШАРВДА ЩШ КЙШШР УСУШ
Нопараметрик саз$олас - .математик статпстиканинг катта булттларвдан бира булзб, унда фушщионаллар ё:ш функционал фазоларвднг баъзи элемектларинз (улар чекли зопдаги нала-нетрлар билан гула' ани^ланмайдаган холда) ба^олаш масала-лари урганилади. Эмгщрзк берилганларга-куро таксвмот конун-.ларшш тпклзш, зитшпс санкция, регрессия чизш^тарп ёки та-содифил ьщдорларшгаг функционал харакгеристжаларннз нопа-раметрик ба^олаа ва ^оказолар. щулар зсумласидандир. Булар-дан регрессия чнзш$ларнш ба^олаш ва-унинг статистик хосса-ларьнэ урганищ ало^ида урин тутади..
Диссертацияда регрессия чгзи^ларини ящга зупнилар усу-ли билан нопараметрш; базсолаи масалалари урганнлган. Регрессия чизнри учун'таклиф далинган я1>зн ку'шнплар ба^оси-нинг регрессия чизигига урта квадратик я^инлашши тезлиги, асимптотик нормаллпгз, шу' ба^онинг регрессия чвзигидан энг катта четлазилининг -боилангич ва му^обил тахминлардаги лимит та^амоти, чекли оралцзда ба^онинг регрессия чизнгидан теки с о?исз лишт та^симоти ва боща баъзи масалалар Урганилган.
KilliOD OP SHE K3ARES11 EBIGH30HS .K® KOI.l^ftHAMETRIC REGRESSION ESTIiiaTIOI. ■
Hcnparametric estimation is a big part of " nathesia-tical statistics. In.the theory oi1 nonparanetric, estimation the problems of deconvolution of.laws distributions, estimation of density function, the functions of regression and functionals of them are studied.
In this v/ork the nonparainetric estixaators of nee-rest neighbor of regression function aie considered.
Exact rate of convergence asymptotic rorcality, Unit behaviour of global and TnaTimum deviations of nearest neighbor estimators* of regression curve are established. For unknown regression curve the confidence intervals haver constracxed.
IltunHcESO B qoMBTi 29.04.93 r. •■ 3aKas 8 41.Tup« 100 ats.-
OTnoHaTGEo oa poTanpuuvc COKE. 700ITO. r. TanEon x, Bo js oaapcKo ro, 26.