Метод ближайших соседей в задачах непараметрического оценивания регрессии тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Пулатов, Бахрам Нигматович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Ташкент МЕСТО ЗАЩИТЫ
1993 ГОД ЗАЩИТЫ
   
01.01.05 КОД ВАК РФ
Автореферат по математике на тему «Метод ближайших соседей в задачах непараметрического оценивания регрессии»
 
Автореферат диссертации на тему "Метод ближайших соседей в задачах непараметрического оценивания регрессии"

Р Г 6 од 5 / ШОП 1993

АКАДЕМИЯ НАУК РЕСПУБЛИКИ УЗБЕКИСТАН

Институт математики инегш в. И. Романовского

МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ В ЗАДАЧАХ НЕ ПАР АМЕТРИЧЕ С КО Г О ОЦЕНИВАНИЯ РЕГРЕССИИ

01.01.05 - Теория вероятностей и

математическая статистика

АВТОРЕФЕРАТ

диссертации на соискании ученой степени кандидата ♦изико-натенатическик нале

Ха пра&ш [щкопихм.

ПИЛАТОВ БАХРАМ НИГИАТОВНЧ

С

Ташкент - 1993

Работа выполнена в Институте математики имени в. И. Романовского АН Республики Узбекистан.

Научный руководитель - доктор Физико-математических наук

Щ. А. Хашимоа

Официальные оппоненты - доктор Физико-математических наук.

профессор Ш. К. Форманов

- кандидат Физико-математических наук м. с:. мунинов

Ведуиая организация - Белорусский Государственный

Университет.

Зашита диссертации состоится щ Á-J" - JódtíÍL^Lr—.._____ 1993 г,

в 14 часов на заседании специализированного совета Д 015.17.21 в институте натенатики имени В. и. Романовского АН Республики Узбекистан по адресу: 700143. г.Ташкент 143. ул. Ф. Ходхаева. 39.

С диссертацией мохно ознакомиться в библиотеке института математики имени В. Я. Романовского АН Республики Узбекистан.

Автореферат разослан __¿éfif^L^___:____l. 1993 г.

-Ученый секретарь специализированного совета доктор Физ. -мат. наук

UU

ш. а. Хашимов

ОБЩАЯ УШКтЖЕИКА. РАБОТЫ '

А к г у а л ь я- о а г ь. темы. Яепара.",:втрическое оцениваете -болызои раздел математической статистики,имею-2Ш1! дело с задачами оценки функционалов или элементов некоторых- функциональных пространств в ситуациях, когда они на определяются заданием конечного числа параметров. К задачам яапараметрпческог.о. оценивания относятся такие задачи как, восстановления законов распределений и плотностей распределений по эмпирическим данным, оценивание функциональных характеристик случайных величин или векторов п различных функционалов от законов распределений и т.д. Особое место в научной литературе занимают работы посвященные построению и исследованию различных статистические сволств оценок плотностей распределений. На сегодняшний день существует много способов разрешения.проблемы оценивания плотностей распределений и кривой' регрессии. Например, метод ядерных функций, проекционные оценки, метод- максимума правдоподобия со штрафными функциями, метод сплайн функций и' др.

Среди оснозополагащих работ теории непараметрического оценивания следует отметить работы В.И.Гливенко, Н.В.Смирнова, У.Розенблатта, Н.НЛенцова и Э.Парзена. Позднее эта область математической статистики была развита многими математиками, например И.А.Ибрагимовы?,! и Р.З. Хасьминсквм, Э.Надарая, У.йирзахмедовнм, В.Конановым, Ш.А.Запшмовым, Л.ДевроЛ, Л.Дьерфи и др.

-Важной функциональной, характеристикой случайных величин является функция регрессии - Х - ^

где - двумерный случайны! вектор. Функция '^егре-ч^

^С^) обладает важным свойством минимальности, т.е. среди всех функции (Д^ , которые дают возможно лучшее представление (в сдасле' принципа • наименьших квадратов) другой величине "У , достигается цри функции С} (Х^ - ^(.Х)- Задача непараметричаского оценивания по наблюдениям неизвестном ■функции регрессии "2-00 впервые рассматривалась Э.Надарая и Г.Ватсоном.' Они, основываясь на ненараметрнческио оценки ■ Дарзена-Розенблатта елотно'сте вероятности, предлонили уак называемые ядерные оценки для. неизвестной функции "сЦ^ • В научной литература рассматриваются .и другие типы оце-

I

нок неизвестном кривой регрессии: проекционные оценки Чен-цова, оценки блилсайдшх соседей, сплайк оценки и другие.

В последние года специалистами довольно .интенсивно изучаются, так называемые, оценки Злигайших соседей пли блиааНпше соседи. . . . •

Цри заданном X выборка-'упорядочхшает-ся по возрастанию величин расстоянии . В резуль-

тате поручается вектор рангов ^^^ ,. . . , где

\ - . , есть с-й бликайший сосед точки ''5^ '.. В слу-.чае совпадения расстояний выбор блиаайшего соседа производится исходя из сравнения индексов. Оценки "ближайших со-.' седэй представляет собой обобщения ядерной в гвстограшной' оценок а обладают такими отличительными, по сравнению, с другими сценками, двойствами как: а) лучшее поведение цри малых выборках; й) робастность; в) простое рекуррентное задание; г) локально дасграиваемое сглаживание.

Оценки блваайших соседей для ноиавестной кривой рог- .

рессии, по-видимому, впервые были введены в рассмотрение в работах К.Стоуна. Ш.Янг в случае частного выбора ядра оценки блвжайилх соседей доказан состоятельность и асимп-. тотическую нормальность предложенной им статистики. В.Стут рассматривал оценки ближайших соседей с более общими..ядрами и изучал условия при которых оценка будет асимптотически нормальной. Аналогичный результат для оценок ближайших•соседей в случае зависимых наблюдений был получен в работе " К.Йошпхара. Исследованию свойств (состоятельность,.асимптотическая нормальность и сильная состоятельность) оцэнок ближайших соседей кривом регрессии в многомерном случаэ посвящэны работы Бхаттачарпя П.Х. и Мак И.П. (1990), Дик-та Г. (1990), Стут В. и Мантига В. (1990), Мэхра К.Л.(1991) и др.

Ц о л ь работы. I) по имеющейся априорной информации о принадлежности кривой регрессии к .определенному классу функций, установить точную скорость сходимости оценок блняайичх соседей к истинной кривой регрессии; 2) найти условия сходимости распределения - мерного вектора, компонентами которого являются значения оцэнок блпкайпшх . соседей в различных точках числовой црямой к много-

мерному нормальному закону; 3) последовать зозмсшгю цре-дельЕые рзконы (в зависимости от выбора коэффициента "размытости" оценки) раг тредолеипя глобального отклонения оцэнок ближайших соседей функции регрессии,как в случае справедливости нулевой гипотезы о виде кривой регрессии, так а црз справедливости сблиаающэй альтернативы; 4) установить цре-дэльноэ распределение максимального уклонзния оцэнок бла-

сайших соседей &'к:;ции регрессии.

!Л ет о д a s.a- и с с л е д а-з а в в я. При исследовании' указанных задач'применялись различные, аналитические е вероятностные метода, в том числе метод сопряженных рас- ■ нределений, .метод Крамера-Уоляца, предельные теоремы для обобщенных функциояаловЛЬазаса.

Научная новизна., Все.основные результаты диссертации являются новыми. К наиболее существенна:.! её положениям относятся следующие:

- установлено, что если функция регрессии- из класса Гельдера со степенью гладкости jb , то класс оценок 'L^Ct,') сходится к функций регрессии "Ltt) со скоростью 'iC^FJ \

- установлена асимптотическая норглальность случайного вектора • •' .

.....

' где • •, ^-iru Различные -очки из и ^-фиксированное число;

- найдены ш:'лие границы минимаксных рисков произвольных '■ нэдараметрпческих оценок функции регрессии ^Х) в схеме сигнал плюс 'дум в классе Гельдера;

- изучен предельный закон квадратачзского отклонения оце- • нок блигаЛлих соседей функции регрессии при оптимальном выборе коэффициента "размытости", которое в известном смысле миншззазирует среднекзадратичыскую ошибку;

- получен предельный закон распределения максимального уклонения оценки ^It) 01 неизвестно;! функции регрессии

(Л.*) • на конечном интервале;' - построены; асимптотические доверительные интервалы для ■ неизвестной функции регрессии.

Т е о р- е т. и ч е .с к а я и. • п р а к т и ч е екая ц'э н н о с т. ь. Результаты диссертационной работы носят теоретический характер. Они йогу™ быть использованы з статистических исследованиях по идентификации стохастических систем, в задачах статистической теории связи, обработке данных медицинских исследований и др..

• А п р о б а ц и-я . р а боты. Основные результаты . диссертации'в разном объема'докладовались на: Всесоюзной конференции "Симметричные- статистики: Вероятностная теория и применение в обработке данных эксперимента" (г.Киев,июнь" ' 1388 г.)', Всесоюзной конференции по предельным-теоремам, теории вероятностей, посвященная 70-летию, академика АНТзССР С.Х.Сиражданова (г.Ташкент,-май.1290 г.), Всесоюзной, научно-технической конференции с международным участием стран, членов СЭВ "Чримэнениэ статистических методов в производстве и управлении (г.Пермь, сентябрь.1990 г.), семинара по .теории вероятностей и математической.статистике' Денинград-. ского отделения Математического института им.З.А.Стеклозз АН СССР (г.Ленинград", октябрь 1990 г.);; совместном семинаре по теории вероятностей-и г тематической статистике инс-■ тута математики и механики им.Н.Г.Чеботарева и Казанского государственного университета, (г.Казань, ноябрь 1991 г.) , семинаре по теории вероятностей п математической статистике при Ташкентском государственном университете, а такаа на семинарах и егеюдных конференциях молодых ученых в знс-

титуте математики Академии Наук Республики Узбекистан."

Л у б.лЕкации. Осцовные результаты диссертации опубликованы в работах jj-7^»

Стр у к ту ра й. объем диссертации. Диссертация состоит из введения, двух глав, разбитых на параграфы, и списка литературы содержащего 80 наименований. Общий объем работы - 128 страницы, объем- без списка литературы - 118 страницы. ' -

#

С0ДЕЕКАШ1Е РАБОТЫ

Во введении обосновывается актуальность темы исследования, излагается история вопроса и приводится краткое, описание основных результатов и методов исследования.

В первом параграфе главы I даны некоторые предварительные сведения о функционалах Ыизеса, сощзяяенных распределениях и определения класса '"оценок блж&йшх соседей функции-регрессии. Приводятся такке результаты по цредельнытл теоремам, которые-в дальнейшем необходимы при доказательстве наших результатов б некоторые обозначения принятые в.работе.

Во втором параграфа главы Г в качестве оценки функции регрессии ~ рассматривается класс оце- ■

нок блвкайшх' соседей [в.Стут (1984)1 вида

где. H^U^ - последовательность положительных чисел, удовлетворяющая условию К.-« О , щ)й П.-* w ,

послвдов^уельность независимых, одинаково распределенных

случайных векторов,' - 'эмпирическая функция распре-

деления построенная на основании выборки \i , - некоторая ядерная функция.

Цельк. § 2 гл. I является установление скорости.сходи-моет! класса оценок■ ближайших соседей "Ly^C) к функции регрессии в случае, когда•заранее известна информация о том,- что кривая рецессии Ъ^АЛ принадлежит определенному классу функций.'Например, в теореме 1.2 установлено,что если функция perpeccm t- Cw^ из класса Гельдера со степенью гладкости jb и выполнены еще некоторые условия, то среднеквадратичёская сходимость класса оценок'- "2-^.tt.) к санкции регрессии "Lit) имеет порядок'. Далее, полученный результат распространяется на болей широкий класс функций потерь. Доказана (теорема 1.3), что если функция потерь удовлетворяющая неравенству

то справедливо соотношение

w ^ ■ t u)L - г№)\ < с» .

.п. гиь) и*4.

Доказанные в этом параграфе результаты показывают, гто скорость сходимости класса оценок ^^^ к *L(t) зависит от степени, гладкост" функции регрессии .

В § 3 главы I изучается асимптотическая нормальность оценок бликайших соседей функции рег^эссии.

Пусть - ITL - различные точки простран-

ства (vtL^ I - цэлое. фиксированное число). В теорокэ 1.4

устанавливается, что случайный вектор

И&^-г&а; гО^.....г^У^Л

будет асимптотически нормальным с нулевым средним в ковариационной матрицей , и, ^ - 1. ч... . где

. с.»,

Если ~ известна, то теорэьа 1.4 поз-

I

воляет построить асимптотический доверительшй интервал для значений кривой регрессии. Кроме того, на основе этого результата' манщо предлагать критерии согласия о виде неиз-. вестной- кривой регрессии • •

. Постановка задачи четвертого параграфа гл. I состоит в получении оптимальной в минимаксном смысла порядки скорости сходимости оценок функции регрессии |(,СО в схеме ' - , М- (3Десь независимые одина-

ково расцределенные случайные величины с плотностью вероятностей |>\Л«0 > независимые одинаково распределен-.• ные случайные величины с плотностью вероятностей ) ■ в случае, когда расстояние Хеллингера для ^ (Д.) аедет себя как степенная функция 0 . Основной результат

(теорема 1.5, этого параграфа указывает точную нижнею гра-

1 _

ницу минимаксных рисков (эта граница равна ) про-

извольных "непараметрических оценок функции регрессии в выше указанной схеме сигнал плюс даум.

Вторая глава. - "Асимптотические распределения некоторых статистик , связанных с классом непараиетрических оце-

кок блияайпях соседей" - состоит из трех параграфов. В этой главе'изучаются предельные распределения глобального отклонения оценок ближайших соседей кривой регрессии при нулевой гипотезе и сближающей альтернативе, а такне предельное ■распределение максимального уклонения этих оценок от Гунх-ции регрессии.

Основная теорема § I гл. П посвящена установлению предельного закона глобального отклонения T^-^l^tV^it^AFit) ¡19параметритеской оценки t-^t) кривой регрессии при оптимальном выборе коэффициента "размытости" - .

Согласно утверждению теоремы 2.2, если функции' и IvAX^ удовлетворяют некоторым условиям регулярности а

VÜrt при VL са , то

...

I {wv 1

Здесь

I -ч I -I • t -I

К. , если лАС -»0 , Ъ>1 ,

если <э t > 0 , H.H. ^ ,

. если. ^>0 , rf^A, ' о <5. -X -С 00 ,

Ч

wr. -I

где. Ф^Й.") - стандартная .норглальньй закон, ^ и ^' некоторые функционалы, зависящие от кривой регрессии . ядра ^(Х) "и Ъ - порядка цроизводной функции • В § 2 гл. П устанавливается предельное распределение глобального отклонения &• случае последовательности близких альтернатив .к основной гипотезе. Показывается, (теорема 2.3), что при X -* Ой статистика.

цри альтернативе -1 * распределена

в пределе нормально с параметрами -

где индекс снизу указывает на то, что характеристики вычислены при функции распределения соответ- ''

ствущей линиям регрессии . , а \Jjll} квадратично

интегрируемая функция,-величина О.^"-» О

В третьем параграфе главы Д-рассматриваются вопросы связанные с, предельным распределением максимального уклонения оценки Ч^^от неизвестной функции регрессии . ;. на конечном интервале. Один, из основных результатов этого параграфа (теорема 2.10) утверждает, что '

»-■ Щ*«*».\ I ^ 1 1

х-да ^^Ш-г^/Ьх) , уи^ -¥оо

яри и ^"ЭДдЛ- К°Р0НЬ уравнения

1 • _ ' \ - Т

и, *—, 0 е .

мсм ^

Теорема 2.10 применяется для построения асимптотических доверительных областей для нвИ1вестной функции регрессии с заданным коэффициентом доверия.. Пользуясь, случаем автор выражает глубокую благодарность свопму научному руководителю ведущему научному сотруднику,. доктору физико-математических наук Ш.А.Хашимову за постановку задачи, постоянное внимание к работе в многочисленные полезные обсупдення.

Основные результаты диссертации опубликованы в следующих работах:

1. Хашпмов Ш.А., Цулатов Б.Н.' Об одной непарзмэтрзческой оценке кривой.регроссЕй //Рук.двпонир. в ВИНИТИ 25.05.8". й 4025-В 88, 49 о.

2. Цулатов Б.Н. .0 глобальном отклонении одной непарамэт-рнчсзскои оценки кривой регрессии // Известия Ш УзССР. сер.фзз.-маг.наук 1288. й 6. С. 25-31.

3. Цулатоз Б.Н. . О нияней границе минимаксного рнгка не-■ параютрпческвх оцопок функции регрессии //Известия

АН УзСбР. сер.фи.-глт.наук 1939. & 4. С. 17-20.

4. Ну латав Б.Н. Нвеняя кгозиакспая граница ряска непара-иетрическнх оценок функций рогрос-пп //Тезисы докл. Всесоюзной научпо-тохппчоскоа коЕфэрэтда о нзгэдна-юдпш участием сэрзн члэноэ СРЗ. гЛЬрмь 1993. 2.1. С. 71-72.

5. Пулатов Б.Н. О некоторых свойствах оценок "бликайпшх соседей" для .функций регрессии //Доклады АН РУ серия г,!а'теи., техн. науки, естествознание-1992. I.- С.5-6.

6. Зулатоз Б.Н. ; Некоторые свойства оценок "блигайзшх со-; седей" для функций регрессии //Компьютерный анализ данных н моделирование'г.Минск 1992. С.'53.

7. Хашииов И.А;, Пулатов Б.Н. О максимальном уклонении

■ оценок бдпзайшего соседа функции регрессии //Бук. де-. . ■понар. в. ВИНИТИ 3,11.92. .'г 3162-В 92. 36 с. ■ .

РЕГГ2СС11ЯШ НОПАРАЖГРЖ БАХОЛАШ ¿1АСАШАРВДА ЩШ КЙШШР УСУШ

Нопараметрик саз$олас - .математик статпстиканинг катта булттларвдан бира булзб, унда фушщионаллар ё:ш функционал фазоларвднг баъзи элемектларинз (улар чекли зопдаги нала-нетрлар билан гула' ани^ланмайдаган холда) ба^олаш масала-лари урганилади. Эмгщрзк берилганларга-куро таксвмот конун-.ларшш тпклзш, зитшпс санкция, регрессия чизш^тарп ёки та-содифил ьщдорларшгаг функционал харакгеристжаларннз нопа-раметрик ба^олаа ва ^оказолар. щулар зсумласидандир. Булар-дан регрессия чнзш$ларнш ба^олаш ва-унинг статистик хосса-ларьнэ урганищ ало^ида урин тутади..

Диссертацияда регрессия чгзи^ларини ящга зупнилар усу-ли билан нопараметрш; базсолаи масалалари урганнлган. Регрессия чизнри учун'таклиф далинган я1>зн ку'шнплар ба^оси-нинг регрессия чизигига урта квадратик я^инлашши тезлиги, асимптотик нормаллпгз, шу' ба^онинг регрессия чвзигидан энг катта четлазилининг -боилангич ва му^обил тахминлардаги лимит та^амоти, чекли оралцзда ба^онинг регрессия чизнгидан теки с о?исз лишт та^симоти ва боща баъзи масалалар Урганилган.

KilliOD OP SHE K3ARES11 EBIGH30HS .K® KOI.l^ftHAMETRIC REGRESSION ESTIiiaTIOI. ■

Hcnparametric estimation is a big part of " nathesia-tical statistics. In.the theory oi1 nonparanetric, estimation the problems of deconvolution of.laws distributions, estimation of density function, the functions of regression and functionals of them are studied.

In this v/ork the nonparainetric estixaators of nee-rest neighbor of regression function aie considered.

Exact rate of convergence asymptotic rorcality, Unit behaviour of global and TnaTimum deviations of nearest neighbor estimators* of regression curve are established. For unknown regression curve the confidence intervals haver constracxed.

IltunHcESO B qoMBTi 29.04.93 r. •■ 3aKas 8 41.Tup« 100 ats.-

OTnoHaTGEo oa poTanpuuvc COKE. 700ITO. r. TanEon x, Bo js oaapcKo ro, 26.