Асимптотические свойства оценок плотностей распределений, связанных с точечными процессами тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Шамсуддинов, Баходир Рахимович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
1997
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ п УНИВЕРСИТЕТ
Механико-математический факультет
Шамсуддинов Баходир Рахимович
АСИМПТОТИЧЕСКИЕ СВОЙСТВА ОЦЕНОК ПЛОТНОСТЕЙ РАСПРЕДЕЛЕНИЙ, СВЯЗАННЫХ С ТОЧЕЧНЫМИ ПРОЦЕССАМИ.
01.01.05 — Теория вероятностей и математическая статистика
¡45
2 'г Км*
имени М.В.ЛОМОНОСОВА
На правах рукописи
УДК 519.22
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Москва 1997
Работа выполнена на кафедре теория вероятностен механико-математического факультета Московского государственного университета имени М.В.Ломоносова.
Научный руководитель — кандидат физико-математических наук,
доцент Е.В.Чепурин.
Официальные оппоненты — доктор физико-математических наук,
Ведущая организация — Российский Университет Дружбы Народов
в 16 час. 05 мин. на заседании диссертационного совета Д.053.05.04 при Московском государственном университете им. М.В.Ломоносова по адресу: 119899, ГСП, Москва, Воробьевы горы, МГУ, механико-математический факультет, аудитория 16-24.
С диссертацией можно ознакомиться в библиотеке механико-математического факультета МГУ (14 этаж).
профессор А.В.Печинкин.
кандидат физико-математических наук,
доцент П.В.Шнурков.
Защита диссертации состоится
^ ЯН^ЛМ 1997 г.
Автореферат разослан "
Ученый секретарь диссертационного совета Д.053.05.04 при МГУ доктор физико-математических наук
Т.П.Лукашенко.
Общая характеристика работы
Актуальность темы. Теория полу марковских процессов и, в частности, теория восстановления, будучи самостоятельным разделом теории случайных процессов, имеет также широкое применение в прикладной математике (теории массового обслуживания и теории надежности, теории запасов и т.д.) в физике (теории счетчиков), при построении математических моделей страхования и во многих других областях приложений. Важным условием применимости математических моделей для описания конкретного явления является возможность статистического оценивания характеристик соответствующей модели.
Необходимо отметить, что среди обширной библиографии, статей, посвященных указанным процессам, доля работ, связанных со статистическими аспектами, весьма невелика. В то же время можно считать, что статистический анализ интегральных характеристик полумарковских процессов (матриц переходов, функций распределения времен пребывания в отдельных состояниях) и процессов восстановления (распределения интервалов между моментами восстановлений) в определенном объеме проведен, см. [1].
Помимо теоретического интереса проблема оценки плотностей распределения имеет важные прикладные аспекты. Не все статистические проблемы можно решить, опираясь на оценки интегральных характеристик. В частности, такие проблемы разведочного анализа данных, как формирование гипотезы о типе плотности вероятности времени пребывания процесса в заданном состоянии или плотности распределения интервалов между моментами восстановлений процесса восстановления удобнее делать на основе графического анализа данных с помощью графика оценки плотности распределения. В определенном смысле более удобно использовать оценки плотности распределений при статистическом моделировании траекторий рассматриваемого процесса для статистических выводов в рамках интенсивных компьютерных методов типа " бутстреп" метода.
Теория оценивания плотностей распределения отдельных наблюдений для данных типа независимой выборки имеет более чем полувековую историю, а библиография, связанная с исследованием свойств статистических оценок плотностей распределения, насчитывает не одну
[1] Чепурин Е.В. Статистический анализ восстанавливаемых систем. М.: Знание, 1983.
сотню работ, см.[2],[13]. Теоретические результаты о состоятельности и скорости сходимости непараметрических оценок плотности, развивающих гистограммные, начали появляться в начале шестидесятых годов, см.[4],[5],[6]. Оказалось, что наилучшая скорость сходимости таких оценок — более медленная, чем для параметрических моделей, в зависимости от априорного класса плотностей, которому принадлежит искомая.
В диссертации строятся и исследуются ядерные оценки для плотностей распределения интервалов между событиями процесса восстановления и времен пребывания полумарковского процесса с конечным множеством состояний по реализации на интервале [0,Т]. Для такого рода плана испытаний интервалы времен пребывания полумарковского процесса и интервалы между событиями процесса восстановления в наблюденной траектории становятся зависимыми случайными величинами. В этом случае непосредственно использовать результаты, полученные для независимой выборки, нельзя. Необходимо развивать параллельную теорию и создавать соответствующие методы анализа. Эти методы широко используют стохастические структурные соотношения для анализируемых характеристик на основе использования вложенных марковских моментов модели, а также асимптотическую теорию свойств решений интегральных уравнений типа свертки.
Все вышесказанное составляет вместе и новизну проблематики и новизну методологии статистического анализа свойств ядерных оценок плотностей вероятностей характеристик полумарковских процессов и процессов восстановления.
Цель работы состоит
(а) в исследовании статистических свойств ядерной оценки плотности распределения интервалов между событиями в процессе
[2] Bean S.J., Tsokos Ch.P. Developments in Nonparametric Density Estimation. Intern. Stat. Review, 1980, 48, p.267-287.
[3] Деврой JI., Дьерфи Л. Непараметрическое оценивание плотности: Li - подход. Москва, "Мир", 1988.
[4] Rosenblatt М. Remarks on some non-parametric estimates
of a density function. Annals Math. Statist. 27, 1956, 832—837.
[5] Ченцов H.H. Оценка неизвестной, плотности распределения наблюдениям. ДАН СССР, 1962, 147, 1, 45-48.
[6] Parzen Е. On estimation of a probability density function and mode. Annals Math. Statist., 1962, 33, 3,
восстановления при плане эксперимента [ ШТ] при Т —> оо (глава I);
(b) в исследовании состоятельности ядерной оценки плотности распределения временн пребывания в фиксированном состоянии для полумарковских процессов (глава II);
(c) в исследовании статистических свойств ядерной оценки плотности распределения компоненты двумерного случайного вектора в схеме остановленных случайных последовательностей (глава III).
Научная новизна. Все основные результаты являются новыми и состоят в следующем:
(a) получены асимптотические представления при Т оо для сред-неквадратической ошибки Е [/|,(Т)(и) — /(и)] и ковариацни cov (fv[T)(u),fi>(T){v)) 1 u,v £ [О, Г] ядерной оценки плотности распределения /„(г)(")> доказана асимптотическая нормальность этой оценки (глава I);
(b) Доказана состоятельность ядерной оценки плотности распределения времени пребывания в фиксированном состоянии для полумарковских процессов (глава II);
(c) Доказана состоятельность и асимптотическая нормальность ядерной оценки плотности распределения компоненты двумерного случайного вектора в схеме остановленных последовательностей (глава III).
Практическая и теоретическая ценность . Работа имеет как теоретическое, так и прикладное значение. Ее результаты могут быть непосредственно использованы при статистическом моделировании траекторий рассматриваемого процесса для статистических выводов в рамках интенсивных компьютерных методов типа " бутстрегГ или родственных ему. Полученные оценки полезны также при графическом анализе данных, когда нужно сформулировать гипотезу о типе распределения. Диссертация может представлять интерес для специалистов в различных областях прикладной статистики.
Апробация . Результаты работы докладывались:
(a) на научной конференции " Ломоносовские чтения —1991 " ( МГУ, апрель 1991г.);
(b) на конференции молодых ученых МГУ (МГУ, май 1994г.);
(c) на Международной научной конференции " Компьютерный анализ данных и моделирование " ( Минск, БГУ, сентябрь 1995г);
(d) на Международной научной конференции по современным проблемам математики ( Самарканд, СамГУ, октябрь 1996г. ).
Публикации. Основные результаты диссертации опубликованы в трех работах, список которых приведен в конце автореферата.
Структура работы. Диссертация состоит из введения и трех глав, разбитых на 6 параграфов, и списка литературы из 46 наименований. Общий объем диссертации — 61 страница.
Краткое содержание диссертации
Во Введении дан краткий обзор работ, относящихся к теме диссертации, и приведены краткие формулировки основных результатов.
Первая глава состоит из четырех параграфов. В § 1 изучены такие статистические свойства как, асимптотическая несмещенность и состоятельность ядерной оценки плотности распределения интервалов между событиями в процессе восстановления.
Пусть Т1,Т2,... — неотрицательные независимые одинаково распределенные случайные величины с плотностью распределения /. Положим = 0, 2п — т"1 + ... + т„, тг > 1. Тогда последовательность {£„} , п > 1, представляет собой простой процесс восстановления. Траектория процесса восстановления на отрезке [О, Т] определяется вектором Т - где 1>{Т) = тах{п : т, + ... + тп < Т).
Построим ядерную оценку для }{и) по формуле
1 *1Т) íu-т\ где К(и) — ядро, удовлетворяющее следующим условиям:
(2)
1)ВД = К{-и)-
3)<*1 = /По "2Л»с/и < со, ¿2 = К2{и)(1и < оо;
4)/Г(|и2|)<А'(|и1|) при |,|>|4
/г(Т) — параметр сглаживания. Его выберем так, что
Л(Т)-+0 и Т Л(Т) —» оо при Т —> оо (3)
Заметим, что компоненты вектора т не являются независимыми, поскольку
г, + т2 + ... т-„(Т) < Т.
Лемма 1. Предположим, что
1) А'(-) удовлетворяет условиям (2),
2) /(■) непрерывна и конечна в точке и > О,
3) h{T) ->■ 0 при Т -» оо.
Тогда оценка /к(Г)(и)> определенная по формуле (1), асимптотически несмещенная, т.е.
lim M/„(T)(u) = /(u) (4)
7 -+оо
Лемма 2. Предположим, что /(и) имеет производные до второго порядка включительно, причем, они непрерывны и ограничены. Кроме того, пусть выполняются условия (2) и (3). Тогда для математического ожидания и дисперсии оценки (1) при Т —> оо верны следующие асимптотические представления:
М/„(т)(и) = /(и) + ¿/"(иЦ/^Т) + о (h*(T)), г» г n А ( 1 \
Если иметь в виду то, что средняя квадратическая ошибка есть сумма дисперсии оценки и квадрата смещения, то из леммы 1 и леммы 2 следует
Теорема 1. Пусть все условия леммы 2 выполняются. Тогда, /и(Т)(и) 1 определенная по формуле (1), состоятельная в среднеквадра-тическом оценка во всех точках непрерывности функции /(и).
Мы видим, что для больших Т верно
М (/>(т)(и)-/(«))' =
, , „ ,1,г„, .»2 1.4/тч , .7 1 . 1.4/
ГЛ(Г) +1/4^ (/>)) 'Лт) + 0\ТЦТ)+ /г4(Г))' (5)
Сформулированная выше теорема утверждает, что смещение как функция Л возрастает, а дисперсия убывает. Это качественное соображение раскрывает сущность задачи сглаживания: необходимо достичь баланса между дисперсией и квадратом смещения.
Минимизация правой части (5) по к(Т) и К(и) даст, в силу асимптотической несмещенности и состоятельности, наименьший возможный "разброс" /цг)(и) около значения /(и).
Из (5) вытекает, что для среднеквадратической ошибки максимальная скорость сходимости к нулю достигается при следующем значении параметра сглаживания:
Тогда для среднеквадратпческои ошибки верно следующее асимптотическое представление:
м (/„(Т)(и) - Ни))2 = 23'5 (сЛ 4 /Ни) Г{и))2'5 г-'5 + о (т
В §2 первой главы доказана асимптотическая нормальность оценки /„(т)(и). Обозначим /т(и) = (и(Т)/Т^) /„(т)(и).
Теорема 2 . Пусть все условия леммы 2. выполняются и кроме того, пусть Ь{Т) = о 1 Т —оо.
Тогда при Т —>• оо случайная величина
ИЗД = (/хГ'ГА(Г))1/2 (/т(и)-/(и))
распределена асимптотически нормально со средним 0 и дисперсией ¿2/(и) .
Так как и(Т)/Т ц^1 —)■ 1 при Т -¥ оо с вероятностью 1, то отсюда следует, что оценки /„(т)(") и /т(") имеют одно и то же асимптотическое распределение при Т оо .
Отметим, что при оптимальном выборе параметра сглаживания по формуле (6) имеет место утверждение
жт(и) N (у<^г' Л«). ¿2 Л"))
В третьем параграфе изучается асимптотическое поведение ковари-ации сои (/„(т)(и), /*(т){у)) , и, и £ [О, Т]. Показывается,что оно тесно связано с асимптотическим поведением решения следующего интегрального уравнения типа восстановления:
т
И^(Т,и,«) = У(Г,и,и) + J 2,и,и)сгг(г),
и
где
Ж(Т, и, V) = М (КТ) /„(Т)(и), «/(Г) /„(г)Н), Уз(Г,и>«) = Ц(Г|«,и).
Асимптотическое поведение функции №(Т, и, и), вместе с ней и ко-вариации cov А(Т)(и)) при Т —>■ со зависит от поведения вели-
чины (и — и)/Ь(Т) . Рассмотрены следующие случаи: А1) V - и = рк{Т), р е Т -> оо; А2) Л(Г) = о(г> - и), Т -> оо
Теорема 3. Предположим, что
1) /(и) имеет непрерывные и ограниченные производные до второго порядка включительно и, кроме того, = Мг* < оо, к = 1,2.3 :
2) А'(и) удовлетворяет условиям (2) ;
3) /г(Т) удовлетворяет условию (3) и, кроме того, при Т оо г
I к0{г)с1г = ^Тх+а кр(Т) + о(Т*+а ¡/{Т)) , а >0, (3 > -1. (7) о
Тогда для ковариации оценки (1) при Т —¥ оо в зависимости от выполнения условий А1 и А2 верны следующие асимптотические представления, соответственно или
соу(/„(Т)(и),/„{Т)(и-1-рк{Т))) -щКо(р)/(") , „ ( 1 , ,2,
Т /г(Т) \ThiT)
+ о ——+ Л2(Т) ,
или
М/юШ^Ф) = о (щт) + /г2(т)) •
Замечание. Условие (7) выполняется, например, для функций вида к{Т) = Т\ -1<к<0.
В четвертом параграфе рассматривается частный случай ядра, а именно
1, если т, €
1цт)(т„и)ЦТ) ~
О, если ту ^
Л(Г) А(Т)
и--—; и +
2 ' 2 /.(Г) А(Т)
- -;и+——
2
Для среднеквадратической ошибки при Т —» оо верно следующее асимптотическое разложение:
где ЛГТ = [Г/^].
Во второй главе исследуется задача оценивания плотности распределения времени пребывания в заданном состоянии в полумарковских процессах на основе наблюдения за процессом на отрезке [0,Т], где Т — достаточно большой момент времени.
Пусть £(£) - регулярный полумарковский процесс с конечным числом состояний, {(0) = г — начальное состояние. Момент £ = 0 совпадает с моментом попадания процесса £(<) в состояние г . Введем следующие
обозначения и предположения:
г, — время однократного пребывания в состоянии г;
— время пребывания полумарковского процесса в состоянии i при к-ом посещении его, ту и тц, одинаково распределены ; t,k — время между к-м и (к + 1)-м возвращением в состояние г; Vik — Uk — Tik ;
F(x) = Р{тц < x}, G{x) = P{r,ix < i},G(o)=0, Q(x) = P{t{l < x}. Построим ядерную оценку для плотности распределения случайной величины ту в виде
1 "'(Т) (и-т- \
= ^гЩт) £ к (WJ ' (8)
где i\(Т) = гпах{п : /,]+.. .+f,„ < Т) — число посещений процессом f(i) состояния г на отрезке времени [0,Т], А'(и) и /г(Т) — удовлетворяющие условиям (2) и (3), соответственно, функции.
Введем следующие дополнительные обозначения:
= Ч>к(Т,и) = М(ф„ЛТ)(и))к, к = 1,2.
Методом стохастических соотношений можно показать, что функции <Рк{Т,и), к = 1,2 удовлетворяют следующим интегральным уравнениям типа восстановления:
т
Р*(7\и) = А*(7» + J <pk(T~t,u)dQ(t), к= 1,2,
где
т
о т
о
Т ГТ-j
+щ1КШ) jnv—w*)
о . о
f(s)ds.
"ТО
. о
Показано, что при специальном выборе параметра сглаживания, а именно при
h{T)~T~a, 1/2 < а < 1, Т —» оо
для функций <Рк{Т, и), к = 1,2, верны следующие асимптотические разложения:
Vi(r,u =-Г +-+ , +0(1),
mi nil 2m,
ц>г(Т, и) = .4(и) Т2 + Щи) 7'|+" + С'(„) Т + о(Г),
где
А0(«) = ЛА1(«,и)-/(и)]Д, А(и)=^, В(и)= .
о »1, ( 1 + (1)ТП|
С(и) = --5-
^ К и \ 'Н А0(И) Л«)тЛ Согласно неравенству Чебышева для произвольного £ > 0 :
" Л«)1 >£)< - МТ)/(и))\.
Отсюда с учетом вышеприведенных асимптотических разложений получим следующее утверждение:
Теорема 4. Предположим, что Е1) функция /(•) дважды дифференцируема в точке и 6 [0,Т] и /(«) > 0 ;
Е2) (?(•) дважды дифференцируема; ЕЗ) тк — Мг*, < оо, к = 1,2; Е4) К(-) удовлетворяет условиям (3); Тогда состоятельная оценка.
В третьей главе исследуются статистические свойства ядерной оценки плотности распределения компоненты случайного вектора в схеме остановленных случайных последовательностей. Доказана состоятельность и асимптотическая нормальность этой оценки.
Пусть (ть,Хк),к = 1,2,... есть последовательность независимых одинаково распределенных случайных векторов, компоненты которых
зависимы, и т,- > Оп.н., г = 1,2,____
Введем следующие предположения и обозначения: /х,- = Мг/ < оо, а\ = Бг!, 7П, = < оо, г = 1,2;
= тах{п : + т2 + • • • + тп < ¿} — процесс восстановления; д(х) —оцениваемая плотность распределения случайной величины Х\; \У(х) — ограниченная плотность распределения и удовлетворяет условиям:
оо оо
И'(и) = \¥(-и), = У" и2 \¥(и)<1и < оо, = I \У\и)йи < оо.
—оо -оо
Построим для неизвестной плотности распределения д(х) ядерную оценку в виде
1 "(Т) (х - Х-
где к(Т) —параметр сглаживания. которым в дальнейшем выберем специальным образом.
Теорема 5. Предположим, что д(х) имеет непрерывные и ограниченные производные до второго порядка включительно, и пусть Л(Т) ->■ О, ТЛ(Т) оо при Г -> оо.
Тогда дт(х) состоятельная в среднем квадратическом оценка. Кроме того, если
А4) И{Т) = о (Г"1/5) , Т ->оо,
то,случайная величина
Ут(х) = {^Т11{Т))и2(9т(х)-д[х))
распределена асимптотически нормально со средним 0 и дисперсией ¿2д{х) .
Автор выражает глубокую благодарность своему научному руководителю Е.В.Чепурину за постановку задачи и постоянное внимание к работе.
Работы автора по теме диссертации
1. Б.Р.Шамсуддинов. О состоятельности и асимптотической нормальности ядерной оценки плотности распределения интервалов между событиями в процессе восстановления. Москва, МГУ, 1994, 9 с. ( Рукопись деп. в ВИНИТИ 22.06.96, N - 1594 - В94. )
2. Б.Р.Шамсуддинов. О непараметрическом оценивании плотности распределения в схеме остановленных случайных последовательностей. Тезисы докладов. Международная конференция по современным проблемам математики. Самарканд, 1996, с. 111.
3. Б.Р.Шамсуддинов. Непараметрическое оценивание плотности распределения времени пребывания в фиксированном состоянии для полумарковских процессов. Статистические методы. Межвузовский сборник, г.Пермь, 1996г,стр.75-83.