Асимптотические свойства статистик, основанные на выборках случайного объема тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Галиева, Нургуль Кадыржановна АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2013 ГОД ЗАЩИТЫ
   
01.01.05 КОД ВАК РФ
Диссертация по математике на тему «Асимптотические свойства статистик, основанные на выборках случайного объема»
 
Автореферат диссертации на тему "Асимптотические свойства статистик, основанные на выборках случайного объема"

Московский государственный университет им. М, В. Ломоносова Факультет вычислительной математики и кибернетики

На правах рукописи

ГАЛИЕВА Нургуль Кадыржановна

АСИМПТОТИЧЕСКИЕ СВОЙСТВА СТАТИСТИК, ОСНОВАННЫЕ НА ВЫБОРКАХ СЛУЧАЙНОГО ОБЪЕМА

01.01.05 — теория вероятностей и математическая статистика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

Москва — 2013

14 НОЯ ¿013

005538542

Работа выполнена на кафедре математической статистики факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова.

Научный руководитель:

доктор физико-математических наук, профессор Бенинг Владимир Евгеньеви

Официальные оппоненты: доктор физико-математических наук,

профессор Шоргин Сергей Яковлевич

кандидат физико-математических наук, доцент Коссова Елена Владимировна

Ведущая организация:

Российский университет дружбы наро дов

Защита состоится «13» декабря 2013 г. в 11 часов на заседании диссертационного совета Д 501.001.44 при Московском государственном университете имени М. В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет ВМиК, аудитория 685.

С диссертацией можно ознакомиться в библиотеке факультета ВМиК МГУ. С текстом автореферата можно ознакомиться на официальном сайте факультета ВМиК МГУ http://www.cmc.msu.ru в разделе «Наука» — «Работа диссертационных советов» — «Д 501.001.44».

Автореферат разослан ноября 2013 г.

Ученый секретарь диссертационного совета

профессор

В. А. Костенко

Общая характеристика работы

Актуальность темы. В классических задачах математической статистики объем выборки, доступной исследователю, считается детерминированным и в асимптотических постановках играет роль (как правило, неограниченно возрастающего) известного параметра. В то же время на практике часто возникают ситуации, когда размер выборки не является заранее определенным и может рассматриваться как случайный. Эти ситуации, как правило, связаны с тем, что статистические данные накапливаются в течение фиксированного времени. Это имеет место, в частности, в страховании, когда в течение разных отчетных периодов одинаковой длины (скажем, месяцев) происходит разное число страховых событий (страховых выплат и/или заключений страховых контрактов), в медицине, когда число пациентов с тем или иным заболеванием варьируется от года к году, в технике, когда при испытании на надежность (скажем, при определении наработки на отказ) разных партий приборов (изделий), число отказавших приборов в разных партиях будет разным. В таких ситуациях, когда число наблюдений,заранее не известное, их разумно считать случайной величиной. Другими словами, в таких ситуациях объем выборки является не известным параметром, а сам становится наблюдением, то есть статистикой. В силу указанных обстоятельств вполне естественным становится изучение асимптотического поведения распределений статистик достаточно общего вида, основанных на выборках случайного объема.

На естественность такого подхода, в частности, обратил внимание Гне-денко Б. В. в своей работе1, в которой рассматривались асимптотические свойства распределений выборочных квантилей, построенных по выборкам случайного объема, и было продемонстрировано, что при замене неслучайного объема выборки случайной величиной асимптотические свойства статистик могут радикально измениться. К примеру, если объем выборки является геометрически распределенной случайной величиной, то вместо ожидаемого в соответствии с классической теорией нормального закона, в качестве

'Гнеденко Б.В. Об оценке неизвестных параметров распределения при случайном числе независимых наблюдений // Труды Тбилисского Математического Института, 1989. Т. 92. С. 146 - 150.

асимптотического распределения выборочной медианы возникает распределение Стьюдента с двумя степенями свободы, хвосты которого столь тяжелы, что у него отсутствуют моменты порядков, больших второго. «Тяжесть» же хвостов асимптотических распределений имеет критически важное значение, в частности, в задачах проверки гипотез.

Простейшей статистикой является сумма наблюдений. Для выборок случайного объема число слагаемых в таких суммах само становится случайным и такие суммы называются случайными. Асимптотическим свойствам распределений сумм случайного числа случайных величин посвящено много работ (см., например, работу Гнеденко В.В., Фахим X.2). Такого рода суммы находят широкое применение в страховании, экономике, биологии и т.п. (см., например, работы, Гнеденко Б.В.3 и Бенинга В.Е., Королева В.Ю.4). В классической статистике суммирование наблюдений как правило возникает при определении выборочных средних. При статистическом анализе, основанном на моделях, в которых объем выборки считается неслучайным, асимптотическое поведение статистик типа сумм и статистик типа средних арифметических одинаково - эти статистики после нормировки, обязательной для получения нетривиальных предельных распределений, становятся неразличимыми. Однако, как уже говорилось, в реальной практике очень часто объем выборки сам является статистикой, и, как недавно показано, например, в работе Королева В.Ю.5, асимптотическое поведение статистик типа сумм и статистик типа средних арифметических при их неслучайной нормировке оказывается различным. Заметим, что, конечно же, формально допустима и случайная нормировка, но для построения разумных асимптотических аппроксимаций для распределений статистик (а именно это и является целью асимптотической статистики), она неприменима. Именно использованием неслучайной нормировки и объясняется возникновение не «чистого» нормального закона, а смешанных нормальных предельных распределений у статистик типа сумм и типа средних арифметических. При этом различие этих предельных законов может дать дополнительную информацию о струк-

2Гнеденко Б.В., Фахим X. Об одной теореме переноса // ДАН СССР, 1969. Т. 187. С. 15 - 17.

3Курс теории вероятностей. - М.: Наука, 1988. 446 с.

4Bening V.E., Korolev V.Yu. Generalized Poisson models and their applications in insurance and finance. -VSP Press, 2002.

5Королев В.Ю. О взаимосвязи обобщенного распределения Стьюдента и дисперсионного гамма-распределения при статистическом анализе выборок случайного объема // Доклады РАН, 2012. Т. 445. Вып.6.С.622-627.

туре исходных данных.

Более того, в математической статистике и ее приложениях часто встречаются статистики, которые не являются суммами наблюдений. Примерами являются ранговые статистики, [/-статистики, линейные комбинации порядковых статистик (¿-статистики) и т.п.

Цель работы.

Данная работа ставит своей целью исследование оценок скорости сходимости асимптотических разложений для распределений статистик, основанных на выборках случайного объема.

Методика исследования.

В работе использованы аналитические методы математического анализа, преобразование Фурье и предельные теоремы теории вероятностей.

Научная новизна.

Все основные результаты диссертации являются новыми и состоят в следующем:

1. Получена оценка скорости сходимости для функций распределения асимптотически нормальных статистик, основанных на выборках случайного объема.

2. Построены асимптотические разложения для функций распределения статистик, основанных на выборках случайного объема.

3. Получены оценки для функций концентрации статистик, построенных по выборкам случайного объема.

4. Приведены оценки для функций концентрации регулярных асимптотически нормальных статистик, построенных по выборкам случайного объема.

Теоретическая и практическая значимость.

Работа имеет теоретический характер. Результаты могут найти применение в теории оценивания, а также в прикладных исследованиях, связанных с теорией риска, теорией надежности, финансовой математике и других прикладных областях.

Апробация работы.

Результаты докладывались и обсуждались на научном семинаре кафедры математической статистики факультета ВМК МГУ «Теория риска и смежные вопросы», на конференции Conference on Stochastic Models and their Applications(22-24 августа 2011 г., Дебрецен, Венгрия), на XXX Международном семинаре по проблемам устойчивости стохастических моделей и VI Международном рабочем семинаре «Прикладные задачи теории вероятностей и математической статистики, связанные с моделированием информационных систем»(24-30 сентября 2012 г., Светлогорск, Россия), на научно -методическом семинаре «Современные проблемы прикладной математики и информатики»(16-17 мая 2013 г., Дубна, Россия).

Публикации.

Результаты диссертации опубликованы в 8 печатных работах([1 - 8]), их них 3 статьи опубликованы в журнале, включенном в перечень ВАК ([1], [6],

И).

Структура и объем диссертации.

Диссертация состоит из введения, трех глав, заключения и списка литературы, содержащего 36 наименований. Общий объем работы составляет 84 страницы.

Благодарности.

Автор выражает глубокую благодарность профессору Бенингу Владимиру Евгеньевичу, под руководством которого проходила работа над диссертацией, за постановку задачи и постоянное внимание к работе.

Содержание работы

Введение содержит общую характеристику работы, описание объектов исследования и основных результатов.

В первой главе получены оценки скорости сходимости функций распределения асимптотически нормальных статистик, построенных по выборкам случайного объема к предельному закону. Эти оценки непосредственно зависят от скорости сходимости функции распределения случайного объема выборки и функции распределения статистики, основанной на неслучайной

выборке. Подобного рода утверждения обычно называются теоремами переноса. Таким образом, в данной главе доказаны теоремы переноса, касающиеся оценок скорости сходимости.

Рассмотрим случайные величины ЛГц,^,... и X \, А'2■..., заданные на одном и том же вероятностном пространстве (П, Л, Р). В статистике случайные величины Х^Хъ, ...Хп имеют смысл наблюдений, п - неслучайный объем выборки, а случайная величина Л"„ - случайный объем выборки, зависящий от натурального параметра п О. N. Например, если случайная величина Ып имеет геометрическое распределение вида

1/ 1\*-1 Р(ЛГ„ = *0 = -(1- -) п\ п/

то

= п,

то есть среднее значение случайного объема выборки равно п.

Предположим, что при каждом п > 1 случайные величины Л^ принимают только натуральные значения (то есть ЛГ„ € К) и независимы от последовательности случайных величин Х\, Х2,... • Пусть случайные величины Х\, Х2,... независимые и одинаково распределенные случайные величины, имеющие функцию распределения -Р(х).

Пусть Тп = Тп(Х\, ...,Хп) некоторая статистика, то есть действительная измеримая функция от наблюдений Х\, ...,Хп. Назовем Тп асимптотически нормальной с параметрами (¿г, 1 /сг2), д е Д, а > 0, если

Р (сгу/п (Тп -ц)<х)-¥ Ф{х), п оо, х е К, (1)

где Ф(х) - функция распределения стандартного нормального закона.

Примеры асимптотически нормальных статистик хорошо известны. Например, выборочное среднее (при условии существования дисперсии), оценки максимального правдоподобия (при соответствующих условиях регулярности), центральные порядковые статистики и т.п.

Для каждого п > 1 определим случайную величину Тмп, полагая

Тлг„И = Гадр^Н, ...,Хк[ы)(и)), ш € П. (2)

Таким образом, - это статистика, построенная на основе статистики Тп по выборке случайного объема ЛГП.

Для асимптотически нормальных статистик (1) в статье Бенинга В.Е., Королева В.Ю.6 доказана следующая обобщенная теорема переноса.

Теорема 1. (Бенинг В.Е., Королев В.Ю.) Пусть {с1п}-некоторая неограниченно возрастающая последовательность положительных чисел. Предположим, что Ып —> <х) по вероятности при п —> оо. Пусть статистика Тп = Тп(Хх, ...,Хп) асимптотически нормальна, то есть

Р (ау/п (Г„ - ц) < х) Ф(х), п -)• оо.

Тогда для того, чтобы

Р (Тдгп - ц) < х^ <?(х), п -> оо, 0 < йп t оо

необходимо и достаточно, чтобы существовала функция распределенияН{х) с Н{0+) = 0 такая, что

Р (ЛГ„ < йпх) -> Н(х), п —^ оо, х > 0,

при этом функция распределения 0(х) имеет вид

^гоо

' Ф(х^у)с1Н(у), хек, о

то есть С{х)~ масштабная смесь нормального закона с смешивающим распределением Н.

Для дальнейшего нам будет более удобно заменить условие асимптотической нормальности статистики Т„ (1) на более сильное условие, описывающее скорость сходимости функции распределения нормированной статистики Тп к нормальному закону.

Пусть выполнено следующее

Условие 1. Существуют константы а > 0, С\ > 0 такие, что 8пр\Р(ау/п(Тп-(1) <х) -Ф(ж)| < % п е N.

еБенинг В.Е., Королев В.Ю. Об использовании распределения Стьюдента в задачах теории вероятностей и математической статистики // Теория вероятностей и ее применения, 2004. Т. 49. Вып. 3. С. 417 -435.

Сформулируем условия, описывающие предельное поведение функции распределения нормированного случайного объема Л^.

Условие 2. Существуют константы ¡3 > 0, Сг > 0 и функция распределения Н(х) с Н(0+) = 0 такие, что

С2

sup

х>0

В главе 1 доказана следующая теорема [1].

Теорема 2. Пусть статистикаТп = Тп(Хi,...,Хп) удовлетворяет условию Í, а случайный объем выборки Nn - условию 2. Тогда справедливо неравенство

sup IР (ay/a (TNn -n)<x)~ G(x) | < CiEN-a + Ц, пей, где функция распределения G(x) имеет вид

Г 00

G(x) = / Ф{xjy)dH{y), Jo

Далее доказана общая теорема, позволяющая получать оценки скорости сходимости распределений статистик, построенных по выборкам случайного объема.

Теорема 3.([1]) Пусть случайный элемент Хп, принимающий значения в произвольном измеримом пространстве, случайные величины ЛГ„ заданы на одном вероятностном пространстве и независимы при каждом п £ N. Предположим, что действительная статистикаТп — Тп{Хп) и случайные величины .Л/п удовлетворяют следующим условиям

1. Существуют константы а > 0, а > 0, ц £ К, С\ > 0 и последовательность 0 < с1п 1" оо, п —;> оо такие, что

sup

p(ay/d¡(Tn-n) <®) -Ф(аО

< —,n€ N.

~~ па

2. Существуют константа > 0 и последовательность 0 < 5п 4- 0,п —> оо и функция распределения Н(х) с Н(0+) = 0 такие, что

sup

х>0

Р ( Y < ® ) - ВД

< С26п, п <Е N.

Тогда справедливо неравенство

sup |Р (TNn - /х) < я) - Ф(я)| < C\EN~a + Щ5,

'п>

где функция распределения G(x) имеет вид

/■00

G(x)= / Ф(ху/у)<Ш(у), хек.

о

Далее теоремы 2 и 3 применены в случаях, в которых предельные функции распределения являются известными функциями - функциями распределения Стьюдента и Лапласа.

Во второй главе получены асимптотические разложения (а.р.) для функций распределения статистик, построенных по выборкам случайного объема. Эти асимптотические разложения непосредственно зависят от асимптотического разложения функции распределения случайного объема выборки и асимптотического разложения функции распределения статистики, основанной на неслучайной выборке. Подобного рода утверждения принято называть теоремами переноса. Иными словами, в данной главе доказаны теоремы переноса для асимптотических разложений статистик, построенных по выборкам случайного объема.

Сформулируем условие, определяющее асимптотические разложения для функций распределения статистики Тп при неслучайном объеме выборки.

Условие 3. Существуют константы I £ К, ^ € 1, а > 0, а > 1/2, 7^0, С\ > 0, дифференцируемая функция распределения Р(х) и дифференцируемые ограниченные функции ¡¡{х),] = 1,...,/ такие, что

Следующее условие определяет асимптотическое разложение функции распределения нормированного случайного индекса Nn.

Условие 4. Существуют константы т 6 N, /3 > т/2, Сг > 0, функция О < g(n) f 00, п —>• оо, функция распределения Н(х),Н(0+) = 0 и функции ограниченной вариации hi(x),i = 1,...,т такие, что

sup

х>0

р(

\ т С

:) - Н(х) - n~i/2hi(x) < п € N.

В этой главе строится асимптотическое разложение для функции распределения нормированной статистики основанной на выборке случайного объема, получена аппроксимация вида

P(agi(n){TNn-v) <х) RíG„(i), п оо, (3)

где функция Gn{x) имеет вид (см. условия 3, 4)

7 °Г

Gn(x) = J F{xyi)dH{y)+ Y,"'42 J Fixyldhiiy) +

i/s(n) Í=1 1/g(n)

I °°

+ £9->/2(n) j fj{xy1)dH{y)+

j=1 1/S(n)

/ ^ oo

f 771 Л

+EEre_iV'/2(n) j y-^fjMdhiiy). (4)

j=1 i=1 ' l/ff(n)

В работе [7] доказана следующая теорема.

Теорема 4. Пусть статистикаТп = Tn(Xi, .-,Хп) удовлетворяет условию 3, а случайный объем выборки Nn - условию 4. Тогда существует константа Сз > 0 такая, что справедливо неравенство

С 4- С М

sup|Р(crp7(n)(7}yn - fx) < х) - Gn{x)| < C\EN~a + 3 2

П'

где

оо ¡

f„ = sup J \^{F(xf) + Щ(У9(П)Г^ fiixyi))

dy

Мп

1 ш з~

и а.р. Сп(х) определено по формуле (4).

Далее приведены два примера применения теоремы 4 с предельными функциями распределения Лапласа и Стьюдента.

В третьей главе доказана общая теорема, позволяющая получать оценки сверху для функций концентрации статистик, основанных на выборках случайного объема из оценок для функций концентрации статистик, построенных по выборкам неслучайного объема, а также приведены оценки функций концентрации регулярных статистик, построенных по выборкам случайного объема.

Как известно, функция концентрации - это одна из характеристик случайной величины. Функция концентрации широко используется для изучения предельных свойств сумм независимых случайных величин.

Функцией концентрации случайной величины Z называется функция вида (см., например, монографию Петрова В.В.,7 стр. 53)

Q(Z\ А) = sup Р (х < Z ^ х + А), А ^ 0. (5)

X

Очевидно функция концентрации Q{Z\ А) - неубывающая функция А, удовлетворяющая неравенству

0 ^ Q(Z; А) < 1,

для любого А > 0.

Из ее определения следует оценка

sup Р (Z =х) = Q(Z- 0) < Q{Z- А), А ^ 0, (6)

X

позволяющая оценить максимальную вероятность отдельного значения случайной величины Z. Из определения (5) функции концентрации следует, что для любого числа а Е К и любого Ь > 0 справедливы тождества

Q{Z + о; А) = Q(Z- A), Q(bZ; А) = Q(Z;X/b). (7)

Применениям функций концентрации к проблемам слабой сходимости посвящены главы 3 и 4 монографии Хенгартнера В., Теодореску Р.8 Известны точные выражения для функций концентрации через функцию распределения случайной величины Z: если функция распределения F(x) случайной величины Z симметрична относительно точки a G R и одновершинна, то соответствующая ей ф.к. Q(Z, А) имеет вид

Q(Z-, А) = 2F(a + А/2) - 1. (8)

Отмечена связь между оценками типа Берри-Эссеена для функции распределения статистик и оценками для функций концентрации.

'Петров В.В. Суммы независимых случайных величин. - М.: Наука, 1972. 414 с.

8Хенгартнер В., Теодореску Р. Функция концентрации. - М.: Наука, 1980. 172 с.

I / \ с

вир \Р[ап&{Тп-11) <х) - Ф(х) < —, пёМ, (9)

х ' \ ' ТЬ

Пусть для функции распределения нормированной статистики Тп = Тп{Х 1,..., Хп) справедлива оценка скорости сходимости к нормальному закону

) п-(1) <х) - <2{х) < ^

где С > О, 5 > О, сг > 0, а>Ои^бК - некоторые числа. Тогда справедлива следующая лемма

Лемма 1.([8]) Пусть выполнено неравенство (9). Тогда для функции концентрации статистики Тп выполнено неравенство

чч 4С АХап6 ^

№А) ^ + -ш *

<° + -ж) — К

В работе [8] доказана следующая теорема.

Теорема 5. Пусть функция концентрации статистики Тп удовлетворяет неравенству

<?(ГП;А) < Лтах(А, — п 6

N

где Л>0, 5>0, 7>0 - некоторые числа. Тогда для функции концентрации статистики построенной по выборке случайного объема ЫП1 справедливо неравенство

Я(Тг,п;А) < А Е тах(А, ^ 2А тах^А, В Е

Далее во второй части третьей главы получены оценки для функций концентрации статистик, построенных по выборкам случайного объема. Эти оценки непосредственно зависят от скорости сходимости функций распределения таких статистик к предельному закону. Применениям функций концентрации к проблемам слабой сходимости посвящены главы 3 и 4 монографии Хен-гартнера В., Теодореску Р.9 и статьи Круглова В.М.10 и Алекперова Ш.О.,

9Хенгартнер В., Теодореску Р. Функция концентрации. - М.: Наука, 1980. 172 с.

10Круглов В.М. О принадлежности функций концентрации областям притяжения устойчивых законов // Теория вероятностей и ее применения, Т. 37. Вып. 3. С. 459 - 467.

Круглова В.М.11

Лемма 2.([3]) Пусть £ и г) - две случайные величины, тогда справедливо неравенство

Напомним определение унимодальности распределения вероятности по Хин чину (см., например, учебник Феллера В.12, стр.186 , монографию Лукач Е.13, стр.118). Согласно этому определению, случайная величина £ имеет унимодальное (одновершинное) распределение, если существует точкаа:0 такая, что функция распределения F^(x) случайной величины £ выпукла при х < xq, а функция 1 — F^{x) выпукла при х > xq. При этом точка xq называется модой случайной величины Точка xq может быть точкой разрыва функции распределения F$(x), но вне точки xq одновершинность предполагает существование у функции распределения F^(x) плотности, которая монотонна в интервалах х < хц и х > х$. Несложно убедиться, что любая унимодальная функция распределения непрерывна всюду, за исключением, может быть, моды.

Лемма 3.([3]) Пусть £ - случайная величина с симметричным унимодальным распределением. Тогда для А > О

Пусть Ф(х) - функция распределения стандартного нормального закона. Теорема 6.([6]) Для любого п € N имеет место неравенство

гдеЗп = Х1 + ...+ Х„, /?з = Е\Хх\ъ < оо и а2 = БХг.

Будем говорить, что статистика Тп (то есть измеримая функция от наблюдений Х1,..., Хп) асимптотически нормальна, если существуют 5 > О,

"Алекперов Ш.О, Круглов В.М. Сходимость сверток функций концентрации к вырожденному, нормальному и пуассоновскому законам // Теория вероятностей и ее применения, 1994. Т. 39. Вып. 2. С. 248 - 271.

12Феллер В. Введение в теории вероятностей и ее приложения. - М.: Мир, 1984. т.2. 172 с.

]3Лукач Е. Характеристические функции. - М.: Наука, 1979. 423 с.

sup|Q€(A) - Qv(А)| < 4 sup|P(£ < x) - P(rj < x)\.

ASäO

Qi(A) = p(|£| < A/2).

v > 0 и ц £ R такие, что для любого х € R справедливо соотношение

Р(6п"(Тп - ») < х) —¥ Ф(х), п оо. (Ю)

Предположим, что известна оценка скорости сходимости в (10) вида

sup |Р(5п"(Тп - м) < х) - Ф(*)| < (11)

xeR п

где С > 0, 7 > 0.

Теорема 7.([6]) Предположим, что статистикаТп удовлетворяет соотношению (11). Тогда для любого п G N имеет место неравенство

sup

А»0

QrM - 2ф(^) + 1

<2.

rf

Рассмотрим статистики, построенные по выборкам случайного объема. Теорема 8.([6]) Предположим, что для некоторых д е М, С > 0, а > 0, V > 0 и симметричной непрерывной унимодальной функцией распределения статистика Тд-п удовлетворяет соотношению

вир|Р(<7п"(Г^ - ц) < х) - ОД| <

Тогда для любого п £ N имеет место неравенство

'\cmv\

sup

А^О

<3Г„„(Л) - *»(*=-) + 1

с

п1

Далее рассмотрены примеры, в которых используется применение теорем 6, 7, 8, касающихся распределений Лапласа и Стьюдента.

В заключении приводятся выводы диссертационной работы и возможные перспективы дальнейших исследований.

Основные результаты

В диссертационной работе получены асимптотические разложения для распределений статистик, основанных на выборках случайного объема. При этом рассматривались оценки скорости сходимости и асимптотическое поведение функций концентрации.

Основные результаты диссертации состоят в следующем:

1. Получена оценка скорости сходимости для функций распределения асимптотически нормальных статистик, основанных на выборках случайного объема. Доказаны теоремы переноса, касающиеся оценок скорости сходимости.

2. Построены асимптотические разложения для функций распределения статистик, основанных на выборках случайного объема. Доказаны теоремы переноса, касающиеся асимптотических разложений.

3. Приведены оценки для функций концентрации статистик, построенных по выборкам случайного объема. Доказаны теоремы переноса, касающиеся оценок для функций концентрации.

4. Предложены варианты использования полученных результатов в исследованиях, связанных с распределением Стьюдента, а также распределением Лапласа.

Список публикаций по теме диссертации

1. Бенинг В.Е., Галиева Н.К. Оценки скорости сходимости для функций распределения асимптотически нормальных статистик, основанных на выборках случайного объема // Вестник Тверского гос. ун-та. Сер.: Прикладная математика - 2012. - №17. - С.53-65.

2. Bening V.E., Galiyeva N.K. On rate of convergence in distribution of asymptotically normal stasistics based on samples of random size //Conference on Stochastic Models and their Applications. Hungary, Debrecen. - 2012. - T.39. - C.17-28.

3. Бенинг В.E., Галиева Н.К., Королев В.Ю. Об аппроксимации функций концентрации регулярных статистик, построенных по выборкам случайного объема // Статистические методы оценивания и проверки гипотез.Пермь: изд-во Пермского гос.ун-та - 2012. - С.110-124.

4. Bening V., Galiyeva N., Korolev V. Transfer theorems concerning asymptotic expansions for the distribution functions statistics constructed from samples with random size// XXX International Seminar on Stability Problems for Stochastic Models and VI International Workshop «Applied Problems in Theory of Probfbili-ties and Mathematical Statistics Related to Modeling of Information Systems»-2012. - C. 11-15.

5. Bening V,, Galiyeva N., Korolev V. On concentration functions of regular statistics constructed from samples with random size// XXX International Seminar on Stability Problems for Stochastic Models and VI International Workshop «Applied Problems in Theory of Probfbilities and Mathematical Statistics Related to Modeling of Information Systems»-2012. - C. 15-18.

6. Бенинг В.E., Галиева Н.К., Королев В.Ю. Об оценках функций концентрации регулярных статистик, построенных по выборкам случайного объема // Информатика и ее применения. - 2013. - Т.7., №1. - С.116-123.

7. Бенинг В.Е., Галиева Н.К., Королев В.Ю. Асимптотические разложения

для функций распределения статистик, построенных по выборкам случайного объема // Информатика и ее применения. - 2013. - Т.7., №2. - С.75-83.

8. Галиева Н.К. Оценки для функций концентрации статистик, основанных на выборках случайного объема //Материалы научно-методического семинара «Современные проблемы прикладной математики и информатики» Дубна - 2013. - С.19-21.

Напечатано о готового оригинал-макета

Издательство ООО "МАКС Пресс" Лицензия ИД N00510 от 01.12.99 г. Подписано в печать 05.11.2013 г. Формат 60x90 1/16. Усл.печл. 1,0. Тираж 100 экз. Заказ 352. Тел./факс: (495) 939-3890,939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 527 к.

 
Текст научной работы диссертации и автореферата по математике, кандидата физико-математических наук, Галиева, Нургуль Кадыржановна, Москва

Московский Государственный Университет им. М.В.Ломоносова Факультет вычислительной математики и кибернетики

На правах рукописи

04201365265

Галиева Нургуль Кадыржановна

Асимптотические свойства статистик, основанных на выборках случайного объема

01.01.05 - теория вероятностей и математическая статистика

ДИССЕРТАЦИЯ на соискание ученой степени кандидата физико -математических наук

Научный руководитель:

д.ф.-м.н., проф.

Бенин г Владимир Евгеньевич

Москва - 2013

Содержание

Введение ...........................................................................2

1 О скорости сходимости для функций распределения асимптотически нормальных статистик, основанных на выборках случайного объема .........................26

1.1 Предварительные результаты ....................................................26

1.2 Опенки скорости сходимости для функций распределения асимптотически нормальных статистик, основанных на выборках случайного объема ....................32

1.3 Распределение Стыодента и распределение Лапласа.............................35

2 Асимптотические разложения для функций распределения статистик, основанных на выборках случайного объема...................................................40

2.1 Предварительные результаты ....................................................40

2.2 Асимптотические разложения ....................................................43

2.3 Применение к распределению Стыодента и распределению Лапласа.............46

3 Оценки для функций концентрации статистик, основанных на выборках случайного объема.............................................................................56

3.1 Функция концентрации...........................................................56

3.2 Конкретные статистики...........................................................59

3.3 Выборки случайного объема......................................................61

3.4 Случай распределения Стыодента и распределения Лапласа.....................65

3.5 Об оценивании функций концентрации регулярных статистик, построенных по выборкам случайного объема........................................................69

Заключение .......................................................................80

Литература .......................................................................81

Введение

В классических задачах математической статистики объем выборки, доступной исследователю, традиционно считается детерминированным и в асимптотических постановках играет роль (как правило, неограниченно возрастающего) известного параметра. В то же время на практике часто возникают ситуации, когда размер выборки не является заранее определенным и может рассматриваться как случайный. Эти ситуации, как правило, связаны с тем, что статистические данные накапливаются в течение фиксированного времени. Это имеет место, в частности, в страховании, когда в течение разных отчетных периодов одинаковой длины (скажем, месяцев) происходит разное число страховых событий (страховых выплат и/или заключений страховых контрактов), в медицине, когда число пациентов с тем или иным заболеванием варьируется от года к году, в технике, когда при испытании на надежность (скажем, при определении наработки на отказ) разных партий приборов (изделий), число отказавших приборов в разных партиях будет разным. В таких ситуациях число наблюдений, которые будут доступны исследователю, и заранее не известное, разумно считать случайной величиной. Другими словами, в таких ситуациях объем выборки является неизвестным параметром, а сам становится наблюдением, то есть статистикой. В силу указанных обстоятельств вполне естественным становится изучение асимптотического поведения распределений статистик достаточно общего вида, основанных на выборках случайного объема.

На естественность такого подхода, в частности, обратил внимание Б. В. Гнеденко в работе [2], в которой рассматривались асимптотические свойства распределений выборочных квантилей, построенных по выборкам случайного объема, и было продемонстрировано, что при замене неслучайного объема выборки случайной величиной асимптотические свойства статистик могут радикально измениться. К примеру, если объем выборки является геометрически распределенной случайной величиной, то вместо ожидаемого в соответствии с классической теорией нормального закона, в качестве асимптотического распределения выборочной медианы возникает распределение Стыодента с двумя степенями свободы, хвосты которого столь тяжелы, что у него отсутствуют моменты порядков, больших второго. «Тяжесть» же хвостов асимптотических распределений имеет критически важное значение, в частности, в задачах проверки гипотез.

Простейшей статистикой является сумма наблюдений. Для выборок случайного объ-

ема число слагаемых в таких суммах само становится случайным и такие суммы называются случайными. Асимптотическим свойствам распределений сумм случайного числа случайных величин посвящено много работ (см., например, [1], [2], [6], [7], [8], [12], [14]). Такого рода суммы находят широкое применение в страховании, экономике, биологии и т.п. (см., [2], [4], [8], [14]). В классической статистике суммирование наблюдений как правило возникает при определении выборочных средних. При статистическом анализе, основанном на моделях, в которых объем выборки считается неслучайным, асимптотическое поведение статистик типа сумм и статистик типа средних арифметических одинаково - эти статистики после нормировки, обязательной для получения нетривиальных предельных распределений, становятся неразличимыми. Однако, как уже говорилось, в реальной практике очень часто объем выборки сам является статистикой, и, как недавно показано, например, в работе [33], асимптотическое поведение статистик типа сумм и статистик типа средних арифметических при их неслучайной нормировке оказывается различным. Заметим, что, конечно же, формально допустима и случайная нормировка, но для построения разумных асимптотических аппроксимаций для распределений статистик (а именно это и является целыо асимптотической статистики), она неприменима. Именно использованием неслучайной нормировки и объясняется возникновение не «чистого» нормального закона, а смешанных нормальных предельных распределений у статистик типа сумм и типа средних арифметических. При этом различие этих предельных законов может дать дополнительную информацию о структуре исходных данных.

Более того, в математической статистике и ее приложениях часто встречаются статистики, которые не являются суммами наблюдений. Примерами являются ранговые статистики, [/-статистики, линейные комбинации порядковых статистик (¿-статистики) и т.п.

Диссертация посвещана исследованию асимптотических свойств статистик, основанных на выборках случайного объема. Рассмотрены оценки скорости сходимости и асимптотические разложения для функций распределения статистик. Рассмотрены асимптотические аппроксимации для функций концентраций таких статистик. В качестве конкретных примеров рассмотрены два частных случая: распределение Стыодента и Лапласа.

В работе приняты следующие обозначения: М - множество вещественных чисел, N -множество натуральных чисел, Ф(ж), у?(х) - соответственно функция распределения и плотность стандартного нормального закона.

Рассмотрим случайные величины N2,... и Х2,..., заданные на одном и том же вероятностном пространстве (П, Л, Р). В статистике случайные величины Х2, имеют смысл наблюдений, п - неслучайный объем выборки, а случайная величина - случайный объем выборки, зависящий от натурального параметра п € N. Например, если случайная величина 7УП имеет геометрическое распределение вида

1 / 1 \

Р(Мп = к) = -[1- -) п \ п/

то

ЕЛГ„. = п,

то есть среднее значение случайного объема выборки равно п.

Предположим, что при каждом ?г > 1 случайные величины 7УП принимают только натуральные значения (то есть 6 К) и независимы от последовательности случайных величин Х\,Х2, ■■■■ Пусть случайные величины Х\, Х2,... независимые и одинаково распределенные случайные величины, имеющие функцию распределения Р(х).

Пусть Тп = Тп(Хх,..., Хп) некоторая статистика, то есть действительная измеримая функция от наблюдений Х\, ...,Хи. Назовем Т„ асимптотически нормальной с параметрами (¿¿, 1/сг2), /х € Я, о > 0, если

Р (стл/гг (Тп - ц) < х) Ф(ж), п -> оо, (1)

где Ф(ж) - функция распределения стандартного нормального закона.

Примеры асимптотически нормальных статистик хорошо известны. Например, выборочное среднее (при условии существования дисперсии), оценки максимального правдоподобия (при соответствующих условиях регулярности), центральные порядковые статистики и т.п.

Для каждого п > 1 определим случайную величину полагая

Т„п(ш) = Тм^Х^ш), ...,Х„п(ы){ч>)), шеП. (2)

Таким образом, Тдгп - это статистика, построенная на основе статистики Тп по выборке слз'чайного объема Мп.

В первой главе получены оценки скорости сходимости функций распределения асимптотически нормальных статистик, построенных по выборкам случайного объема к предельному закону. Эти оценки непосредственно зависят от скорости сходимости функции

распределения случайного объема выборки и функции распределения статистики, основанной на неслучайной выборке. Подобного рода утверждения обычно называются теоремами переноса. Таким образом, в первой главе доказаны теоремы переноса, касающиеся оценок скорости сходимости.

В работах [1], [2] доказаны первая и вторая теорема переноса для частных случаев суммы независимых случайных величин и выборочной квантили.

Теорема 1([1], стр. 147). Пусть Хх, Х2,... - независимые одинаково распределенные случайные величины и £ N - последовательность случайных величин независящих от Хх, Х2,. .. Тогда, если существуют постоянные Ъп > 0, ап Е К такие, что

2. Р - <х^ Н(х). Я(0+) = 0, поо, где Ф(х), II (х)-функции распределения, то при п —> оо

Р I у ^ (Хг - ап) < х\ <?(ж), п оо

где функция распределения С (ж) определяется своей характеристической функцией

где ф(£) -характеристическая функция функции распределения

Теорема 2 ([1], стр. 148) Пусть Хх,Х2,... - независимые одинакова распределенные случайные величины и ДГП е N - последовательность случайных величии независящих от Хх,Х2,... и пусть Хуп - эмпирическая квантиль порядка 7 6 (0,1), построенная по неслучайной выборке Хх,Х2, ..Хп. Тогда, если существуют постоянные Ьп > 0. а„е! такие, что

и

п —> оо

и

2. Р ->• Н{х), Я(0+) =0, п^ оо,

где Ф(ж); Н(х) - функции распределения, то при п —>■ оо

Р - лг„ - ап) < х ) -» С(ж), п —> оо

'ть

где С(х) имеет вид масштабной смеси нормального закона со смешивающим распределением Н

роо

ОД - / Ф{Хл/у)<1Н(У). Jo

Для асимптотически нормальных статистик(см. (1)) в работе [3] доказана следующая обобщенная теорема переноса.

Теорема 3.([3]) Пусть {¿„}-некоторая неограниченно возрастающая последовательность положительных чисел. Предположим, что Кп —> оо по вероятности при п —» оо. Пусть статистика Тп = ТЦХх,..., Хп) асимптотически нормальна, то есть

Р ((Тл/п (Тп — р) < х) Ф(ж), п —^ оо.

Тогда для того, чтобы

Р (сг(ТМп - ц) < ж) п оо, 0 < йп | оо

необходимо и достаточно, чтобы суы,ествовала функция распределения Н(х) с Н(0+) = 0 такая, что

Р (Ып < йпх) ->• Н(х), п оо, х > 0, при этом функция распределения (7(ж) имеет вид

/■оо

ОД = / Ф(хл/у)сгя(у), х € Е Jo

то есть С (ж) - масштабная смесь нормального закона с смешиваючцим распределением Н.

Для дальнейшего нам будет более удобно заменить условие асимптотической нормальности статистики Тп(см.(1)) на более сильное условие, описывающее скорость функции распределения нормированной статистики Тп к нормальному закону. Пусть выполнено следующее

Условие 1. Существуют константы а > 0, С\ > 0 такие, что 8ир|Р(<7Л/гс(Тп-/х) <х) -Ф(х)| < п€М.

Сформулируем .условия, описывающие предельное поведение функции распределения нормированного случайного объема ЛГП.

Условие 2. Существуют константы ¡3 > О, С2 > 0и функция распределения Н(х) с Я(0+) = 0 такие, что

В главе 1 доказана следующая теорема

Теорема 4. Пусть статистика Тп = Тп(Хх, ...,Хп) удовлетворяет Условию 1, а случайный объем выборки Мп-Условию 2. Тогда справедливо неравенство

Анализируя доказательство Теоремы 4, несложно получить следующий общий результат.

Теорема 5. Пусть случайный элемент Хп, принимающий значения в произвольном измеримом пространстве, случайные величины заданы на одном вероятностном пространстве и независимы при каждом п € N. Предположим, что действительная статистика Тп = Тп{Хп) и случайные величины удовлетворяют следуючцим условиям,

1. Суи^ествуют константы а > 0, а > 0, ^ 6 К, С\ > 0 и последовательность О < с1п | оо, п —>• оотакие, что

2. Существуют константа С2 > 0 и последовательность 0 < 5п I 0, ?г —» оо и функция распределения Н(х)с Я(0+) = 0 такие, что

зир |Р (<г^(Т„„ -1м)<х)~ С(х)\ < С,ЕМ~а + 7г € N.

где функция распределения С(гг) имеет вид

Тогда справедливо неравенство

где функция распределения 0(х) имеет вид

лоо

ад - / ф{Хл/у)йН(у),хеЖ. J^)

'ОО

О

Приведем два примера применения Теоремы 4, в которых предельная функция распределения С (ж) является известным распределением.

Первый пример касается распределения Стьюдента, а второй- распределения Лапласа.

В работе [3] показано, что если случайный объем выборки Мп имеет отрицательно биномиальное распределение с параметрами р — 1/пиг > 0, то есть (при г = 1 имеем геометрическое распределение)

то для асимптотически нормальной статистики Тп справедливо предельное соотношение ([3], Следствие 2.1, стр. 426)

где Gf{x) - функция распределения распределения Стьюдента с параметром 7 = 2г, то есть имеющее плотность вида

где Г(-) - эйлерова гамма - функция, а 7 > 0 - параметр формы (если параметр 7 натурален, то он называется числом степеней свободы). В нашей ситуации он может быть произвольно мал, то есть мы имеем типичное тяжелохвостиое распределение. Если 7 = 2, то есть г = 1. то функция распределения. С2(ж) выражается в явном виде

В работе [10] получена оценка скорости сходимости случайного объема выборки в виде (0 < г < 1)

Р(ал/п (Тнп — /л) < х) —> С2г(ж у/г), п ^ оо

(3)

где

е~ГУ уГ-1 ^ 0)

Г

н'{х) = т1

при г = 1 правую часть этого неравенства можно заменить на 1/(п — 1).

Таким образом Нг(х)- функция распределения гамма-распределения с параметром г е (0,1] при этом

ЕАГ„ = т(п-1) + 1,

Нетрудно получить, что

ЕЛ::1 =

(5)

(6)

(п-1)(1

Пусть для функции распределения статистики Тп справедлива оценка скорости сходимости тира Берри-Эссеена, то есть

эир

X

(7)

р(ау/п{Тп-ц)<х^ -Ф(х)

то с учетом Теоремы 4 с а = 1/2,/3 = г/(г + 1), соотношений (З)-(б) в описываемой ситуации имеем оценку скорости сходимости

вир

Р (ауД {Т„п - ц) < х) -

= О

п

г/2

,г € (0,1),п € N.

(8)

Рассмотрим распределение Лапласа с функцией распределения Ае(х) и плотностью

1 г л/21x11 А0(х) = ^ехр|--в > 0, хеК.

В работе [9] была построена последовательность случайных величин Л7,, (а), зависящая от параметра я е N следующего вида. Пусть Уь У2, • • • - независимые одинаково распределенные случайные величины, имеющие непрерывную функцию распределения. Определим случайные величины

N(■/71) -- 1шп{ г > 1 • тах У3 < тах Ук}

т+1<к<тп+г

Хорошо известно, что так определенные случайные величины имеют распределение вида

р№> ^ Ч = ^тзт. * * 1. (9)

Пусть теперь Л^1^'), ... - независимые одинаково распределенные случайные

величины, имеющие распределение (5.19). Определим случайные величины

Nn(m) = max NU)(m),

1<7<™

тогда в работе [9] показано, что

lim pfMül < х) = g-m/^ ж>0) (10)

п—>оо \ П I

и для асимптотически нормальной статистики Тп справедливо соотношение

Р(<7^/n(TNri{m) - /i) < х) ->• Al/m(^), п —> ОО,

где Ai/m(.x) - функция распределения распределения Лапласа с параметром 7 = 1/т (см. также работу [10]).

В работе [11] была получена оценка скорости сходимости в соотношении (10) вида 'Nn(m) \ _/_ . С„

sup

х>0

(УШ < х) - е< ^ Ст > 0, n€N. (П)

\ 11 ) п

Поэтому, если функция распределения статистики удовлетворяет неравенству типа Берри-Эссеена(см.(7)), то с учетом неравенства (11) имеем

sup

P(V^ (7V„M - /х) < х) - A1/m(x)| = ^((EArV))172) + 0 • (12)

Рассматривая более подробно величину ЕАГП1 (ш). получаем

Г°° хп~2

E7Vn"1(m) <тп --r——dx.

Jo {т + x)n+1

Для вычисления данного интеграла используем формулу из [13] (формула 856.12, стр 184). В итоге получаем

EN-\m) < 0(п-г). С учетом этой формулы и (12) окончательно имеем

sup |р(сг^?г (TNn{m) - /i) < ж) - A1/m(x) =

Во второй главе получены асимптотические разложения для функций распределения статистик, построенных по выборкам случайного объема. Эти асимптотические разложения непосредственно зависят от асимптотического разложения функции распределения случайного объема выборки и асимптотического разложения функции распределения

статистики, основанной на неслучайной выборке. Подобного рода утверждения принято называть теоремами переноса. Таким образом, в данной главе доказаны теоремы переноса для асимптотических разложений статистик, построенных по выборкам случайного объема.

Сформулируем условие, определяющее асимптотические разложения для функций распределения статистики Тп при неслучайном объеме выборки.

Условие 3. Существуют константы I € 14, ц 6 К, а > 0, а > 1/2, 7 > 0, Сг > О, дифференцируемая функция распределения ^(х) и дифференцируемые ограниченные функции /^(х),] = 1такие, что

Следующее условие определяет асимптотического разложения функции распределения нормированного случайного индекса Ып.

Условие 4. Существуют константы т 6 М, /? > т/2, С% > 0, функция 0 < д(п) | оо,п —У оо, функция распределения Н