Асимптотическое поведение р-значений непараметрических статистик для проверки согласия тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Леонтьев, Ростеслав Степанович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Ленинград МЕСТО ЗАЩИТЫ
1990 ГОД ЗАЩИТЫ
   
01.01.05 КОД ВАК РФ
Автореферат по математике на тему «Асимптотическое поведение р-значений непараметрических статистик для проверки согласия»
 
Автореферат диссертации на тему "Асимптотическое поведение р-значений непараметрических статистик для проверки согласия"

ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

ЛЕОНТЬЕВ Ростеслав Степанович

АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ Р-ЗНАЧЕНИЙ НЕПАРАМЕТРИЧЕСКИХ СТАТИСТИК ДЛЯ ПРОВЕРКИ СОГЛАСИЯ

01.01.05 —ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

АВТОР ЕФ ЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

ЛЕНИНГРАД — 1990

Работа выполнена на кафедре теории вероятностей и математической статистики Ленинградского государственного университета.

Научный руководитель — доктор физико-математических наук, профессор НИКИТИН Я- Ю.

Официальные оппоненты: доктор физико-математических наук, профессор ЕРМАКОВ С. М. кандидат физико-математических наук, доцент АМОСОВА Н. Н.

Ведущая организация — Институт математики им. В. И. Романовского АН УзССР.

3 с

Защита состоится « » 1990 г. в ^ часов па

заседании специализированного совета К 063.57.29 по присуждению ученой степени кандидата физико-математических наук в Ленинградском государственном университете по адресу: 198904, Ленинград, Старый Петергоф, Библиотечная пл., 2, матсматико-механический факультет ЛГУ.

С диссертацией можно ознакомиться в библиотеке имени А. М. Горького ЛГУ (Университетская наб., 7/9).

Автореферат разослан « ^ » 1990 г.

Ученый секретарь специализированного совета, кандидат физ.-мат. наук РЕЙНОВ О. И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

АКТУАЛЬНОСТЬ ТЕМЫ. Одной из актуальных задач математической статистики является задача вычисления асимптотической эффективности статистических критериев. Решение этой задачи позволяет статистику сделать обоснованный выбор статистического критерия из нескольких имеющихся в его распоряжении критериев. Маяно считать, что в рамках параметрической статистики рассматриваемая проблема не является особенно острой. Дело в том, что здесь разработаны вполне формальные методы построения критериев (например, байесовских или отношения правдоподобия), которые обладают рядом замечательных свойств и обычно оказываются асимптотически оптимальными в смысле тех или иных определений этого пои .пия, В непараметрической же статистике обычно имеется множество критериев, предложенных из эмпирических соображений, и их сравнение друг с другом является трудной и содержательной задачей.

Количественной характеристикой, позволяющей упорядочить статистические критерии между собой, является асимптотическая эффективность (АЭ). Многочисленные исследования посвящены вычислению так называемой бахадуровской эффективности непараметрических статистик. Показатель этой эффективности - точный наклон - может интерпретироваться с помощью закона больших чисел для Р-значений изучаемой последовательности статистик. В 1982 году Ламберт и Холл [I] начали новый этап в исследовании асимптотики Р-значений, доказав, что при определенных условиях последние имеют в пределе логарифмически нормальное распределение. До недавних пор оставалось неизвестным, выполнены ли эти условия для ряда наиболее известных и употребительных непараметрических статистик, поскольку для этого требуется детальная информация о больших уклонениях рассматриваемой последовательности статистик и о ее предельном поведении при альтернативе.

ЦЕЛЬ РАБОТЫ, Целью работы является доказательство асимптотической логнормальности распределения Р-значений статистик типа Колмогорова-Смирнова, омега-квадрат и их разновидностей, а также некоторых разделимых статистик типа "рг и Кресси-Рида и их обобщений, используемых для проверки согласия.'

МЕТОДЫ ИССЛЕДОВАНИЯ. В диссертационной работе используют- ' ся прямые вероятностные методы, методы теории проверки статистических гипотез и предельных теорем теории вероятностей, ме-

тода теории эмпирических процессов и одного вероятностного пространства.

НАУЧНАЯ НОВИЗНА. В диссертации получены следующие новые результаты:

- найдены предельные распределения при альтернативе ряда употребительных непараметрических статистик для проверки согласия;

- для распределений статистик интегрального типа и разделимых статистик Кресси-Рида получены оценки скорости сходимости при альтернативе к пределу;

- получены уточнения асимптотики вероятностей больших уклонений рассматриваемых статистик;

- установлена асимптотическая логнормальность Р-значений всех рассматриваемых статистик с явно выписываемыми асимптотическими дисперсиями; дня интегральных статистик получена оценка скорости сходимости.

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ. Полученные в работе результаты позволяют сравнить друг с другом статистические критерии для получения обоснованных рекомендаций по их использованию на практике, могут применяться при изучении робастности статистических критериев.

АПРОБАЦИЯ РАБОШ. Результаты диссертации докладывались на У-й Международной Вильнюсской конференции по теории вероятностей и математической статистике (1989 г.) , Всесоюзной научно-технической конференции с участием стран СЭВ (Пери», 1990 г.) , на научной конференции молодых математиков в институте математики АН УССР (1988 г.) , на конференциях молодых ученых математи-ко-механического факультета Ленгосуниверситета в 1986-89 г.г.

ПУБЛИКАЦИИ. Основные результаты диссертации отражены в пяти работах [8]- [Г2] .

СТШТУРА И ОБЪЕМ РАБОТЫ. Диссертационная работа состоит из введения, четырех глав и списка литературы, содержащего 77 наименований. Общий объем работы 125 страниц.

СОДШАНИЕ РАБОТЫ

Во введении обсуждается тема диссертации, дается краткий литературный обзор, рассматривается содержание работы.

Приведем вначале определение понятия Р-значения.

Пусть (36,01)- выборочное пространство, соответствующее наблюдению X . Предполагается, что его распределение Рд оп-

ределяется параметром 0 , принимающим значение в параметрическом множестве © . Пусть $ = (Х,,ХД,...) - последовательность независимых одинаково распределенных случайных величин, принимающих значения в X и имеющих там распределение Рд , 6 £ © . Пусть ©„ с © , и стадится задача проверки гипотезы Н» ' 0 £ 0„ против альтернативы : 0 € 0\®„ на основе наблюдений Х< ,..., Ха . Для этой цели мы располагаем последовательностью статистик {Тл\, ТП=Т11(Х1,..., Х„) » считая (без существенной потери общности) критическими большие значения Т„ . Обозначим для любых 0 и t

Ьл*; е) - Ре СТЛ«><*),

= ^ { 0.) : ел ©Л,

N

Определение. Величина

называется достигаемым уровнем или Р-значением.

Р-значение может интерпретироваться как некая мера, с помощью которой по наблюдениям отвергают или принимают нулевую гипотезу. На практике, при работе с конечными выборками, Р-значение сравнивают с заданным уровнем значимости и отвергают нулевую гипотезу, если Р-значение меньше . Имеется обширная литература, описывающая свойства и основные характеристики Р--значений.

Асимптотическое поведение Р-значений представляет значительный интерес при сравнении последовательностей статистик и соответствующих статистических критериев и является основным объектом наших исследований. Распределение Р-значения при В € ©0 устроено довольно просто. Очень часто оно имеет равномерное распределение на [0,1], а в общем случае выполняется следующее соотношение:

РЛР.Л*)** , она.

При 6 £ асимптотическое поведение Р-значений резко отличается от случая основной гипотезы. Обычно имеет место схода-

- б -

мость с Ре-вероятностью I:

где ст(0) - некоторая положительная функция © на 01 , которая называется точным наклоном по Бахадуру последовательности

Ламберт и Холл доказали в [I], что при больших п и определенных условиях логарифмы Р-значемий имеют асимптотически нормальное распределение с параметрами (-П , пX* (0)) ,

где Ст(9) - это точный наклон по Бахадуру, Т* (0) - асимптотическая дисперсия.

Оказывается, что асимптотическая дисперсия вместе с точным наклоном могут служить более чувствительной, чем только точный наклон, мерой сравнения статистических критериев, аналогично тому, как в теории оценивания качество несмещенной оценки (и ее выбор, соответственно) зависит от дисперсии. Более того, если два различных критерия имеют одинаковые или близкие точные наклоны, а соответствующие асимптотические дисперсии различны, то именно сравнение последних и позволяет сделать правильный выбор критерия.

Первая глава носит вспомогательный характер. В ней рассматриваются основные понятия теории Р-значений и АЭ, сформулированы достаточные условия логнормальности Р-значений - лемма Ламберт-Холла [I]. В первой главе также дается перечень применяемых в дальнейшем критериев.

Во второй главе рассматривается предельное поведение всех изучаемых статистик при альтернативе.

Пусть , X* ,... - независимые одномерные наблюдения с генеральной функцией распределения (ф.р.) Г . Рассмотрим задачу проверки гипотезы Не • против простой альтерна-

тивы Н, : Р = р, ^ Гв , где Ге и р( - заданные непрерывные ф.р. § 2.1 посвящен изучению предельного поведения интегральных статистик типа омега-квадрат при справедливости гипотезы Н, • Рассмотрим статистику Крамера-фон Мизеса-Смирнова:

• ВД " Р»] *<№*), (2)

— «•

где -.эмпирическая ф.р., построенная по исходной выборке.

Введем ряд обозначений:

ио

л2--\ [ГДх)- Гв(*)]2с(Р0(*), (3)

— оо

ОО во

(ГЧ«1) ] $ [РДх)- Ре(х)] [ Ь (у) ■- ВД] •

— «до

•[^СиипС*,^) - ^(х)^^)] ЯР0(*)с(Ге(^). (4)

Комбинируя методы теории эмпирических процессов с "венгерским методом" Комлоша-Майора-Тушнади, удается доказать следующее утверждение.

Теорема 2.1.2. При справедливости гипотезы Н1 и и-*-«*»

у.

|р^№-аж)<*} - Ф| - 0(4$*), . (5) '

где - стандартная нормальная ф.р.

Заметим, что полученная нами в (5) скорость сходимости не улучшаема рассматриваемым "венгерским методом", однако, как видно из работы [2} (лемма 2) Азларова и Хашимова , эта скорость может быть улучшена до путем сведения статистик (Х>\

к и -статистикам. Надо отметить, что наши результаты получены независимо от работы [2], и в дальнейшем при рассмотрении больших уклонений получается погрешность такого же порядка

для оценки логнормальности Р-значений рассматривавши: нами статистик интегрального типа.

Аналогичные теоремы доказываются для статистики Чепмэна--Мозеса

со;=][Рк(»)-Рв1*)] ял*)

и статистики Ватсона

и;(«»:)*.

Предельное распределение при альтернативе статистик Колмогорова-Смирнова

= *Ч> I F. (ОС) - F.Mi,

К e *«f (F»(*) - F.(»)),

X

изучалось Рагавачари [3]. В § 2.2 получены подобные результаты для статистик Ват с она-Дарлинга .

со

= jup

I F.W - F.(«) - J.(F. М- F.(x)) «iF.(x)|,

X" —«o

CO

мя+ = sup (Fa(*)- F.W- j (Fa(*)- F.(«>) ,

X - «o

s£p( i С - F. C*)) d F.c») - F.(*bF.(»)),

а также обобщения этих теорем для выборок случайного объема, в предположении его независимости от элементов выборки и некоторых дополнительных условиях. Выделены случаи, когда указанные предельные распределения являются нормальными.

В § 2.3 доказывается асимптотическая нормальность разделимых статистик Кресси-Ьща при альтернативе, получена также оценка скорости сходимости порядка 0(^2-) . '

Пусть Х< Х„ - последовательность независимых одина-

ково распределенных наблюдений случайной величины £ .

Рассмотрим задачу проверки согласия для дискретных распределений. Разобьем множество значений случайной величины на £ множеств , ,...» - без общих точек. Пусть задан

вектор р » 1 = 1,2,...,к, ; р; - это вероятность того,

что величина £ принадлежит множеству

МЕР-О .

Обозначим через количество величин из числа наблюдаемых

Х1 , Хг , ... , Ха, принадлежащих множеству , .

Г ) 1

Тогда - частота попадания величины ^ в множество

при я наблюдениях. Очевидно, что *>;,= 1 .

Рассмотрим задачу проверки гипотезы Н„• р = р*={р;][ против альтернативы Н1 : р-^ - I, где р° и ^ - заданные векторы вероятностей, 1Е р° = ~ ^ .В дальнейшем для

простоты обозначений верхний индекс "нолик" будем опускать.

Для решения этой задачи введем семейство статистик Г^ (х,р), которые могут рассматриваться как асимптотически непараметрические:

(5)

где - измеримая функция-, определенная на (-1, «>) и такая, что для некоторого ¿">0 £6 С2, на [-£,(5 Л , -$"10 . Статистики (5) содержат в себе класс статистин Кресси-Рида [4]:

Легко заметить, что для

статистика (5) переходит в (6).

Заметим также, что класс содержит в себе при А =1

обычную статистику Пирсона ,

1

Введем ряд обозначений:

/ 1; -Р;\

(7)

ЬМ'&гА^'М- г.

0-41) = ¿M; -(¿M;)2, 18)

j-t

W *iaf'(-(*rPi)/Pj) •

Справедливо следующее утверждение.

Теорема 2.3.2. При справедливости гипотезы Н4 и «-»■со

«с I Plw (M*,f> -Мч»' г1 -ф (¡fe)l=

В третьей главе рассматривается асимптотика вероятностей больших уклонений изучаемых статистик при нулевой гипотезе. С помощью сведения, к суммам независимых случайных величин и последующего применения теоремы Бахадура-Ранга Rao и ее обобщения -- теоремы Сетурамана [5], а также известных общих результатов об уклонениях эмпирических мер удается уточнить рассматриваемые асимптотики вероятностей больших уклонений, что и позволяет в дальнейшем доказать асимптотическую логнормальность распределений Р-значений.

В § 3.1 изучаются асимптотики вероятностей больших уклонений интегральных статистик при нулевой гипотезе. Для статистики (2) имеет место теорема, уточняющая результат Могульского[6].

Теорема 3.1.4. При справедливости гипотезы Н, , и

и «в

ÍCJ »£) = " n^(¿) * o(Vñ),

где непрерывно дифференцируемая в окрестности нуля функ-

ция, допускающая при ¿-+0 представление:

Аналогичные результаты получены для других интегральных статистик.

§ 3.2 посвящен асимптотике вероятностей больших уклонений статистик типа Колмогорова-Смирнова, где уточняются результаты Абрахамсон [7].

Теорема 3.2.1. Пусть \ Tn J - любая из статистик

Я* .А, .

£>л . Тогда при справедливости Н0 , £>0 и п 00

Ц Р(Т,»£) =-П04(О +о(Мп),

где ^(£) непрерывно дифференцируемая в окрестности нуля функция, такая, что при £-»-0

h(t) О(е'). (10)

Аналогичные результаты имеют место для статистик Ватсона-Дар-линга, а также для аналогов статистик типа Колмогорова-Смирнова, построенных по случайной выборке.

В § 3.3 получена асимптотика вероятностей больших уклонений разделимых статистик типа Кресси-Рида, введенных в (б). Доказана теорема, аналогичная теоремам 3.1.4 и 3.1.2, при справедливости гипотезы Н0 в задаче проверки согласия для дискретных распределений.

В четвертой главе с помощью леммы Ламберт-Холла устанавливается асимптотическая логнормальность распределений Р-значений рассматриваемых статистик. В ряде случаев получены оценки скорости этой сходимости. Здесь же вычислены локальные наклоны и асимптотические дисперсии изучаемых статистик.

В § 4.1 доказывается асимптотическая логнормальность распределений Р-значений интегральных статистик. Обозначим через

Рл (.Тп) Р-значение статистики Та . Теоремы 2.1.2 и 3.1.4 гарантируют выполнение достаточных условий логнормальности распределений Р-значений статистики (2), что позволяет сформулировать следующее утверждение.

Теорема 4.1.2. При справедливости гипотезы и и-*""

sup | РЬ-* (Н Р. («Ч - «J.м) < *] ■- Ф(%)| = 0(,

где $¿(0 задана в (Э), tl - ^(йг.) <Г(Л-,г) , величины Д2 » С(,СОг) заданы соответственно в (3) и (4). Величина уг(Дг) локально эквивалентна половине точного наклона по Бахадуру статистики СЛ)* , Т* - асимптотическая дисперсия величины

Щ Р„("2).'

Аналогичные утверждения получены и для других интегральных

статистик.

§ 4.2 посвящен доказательству асимптотической логнормаль-ности распределений Р-значений статистик типа Колмогорова-Смирнова при некоторых дополнительных условиях на распределение наблюдений, обеспечивающих асимптотическую нормальность этих статистик при альтернативе. Получены выражения для локальных точных наклонов и асимптотических дисперсий 1сд рассматриваемых статистик.

В § 4.3 доказана асимптотическая логнормальность распределений Р-значений разделимых статистик типа Кресси-Рида (6) в задаче проверки согласия для дйскретных распределений. Теоремы 3.3.1 (из § 3.3) и 2.3.2 гарантируют выполнение достаточных условий логнормальности Р-значений; таким образом, справедлива следующая теорема.

Теорема 4.3.1. При справедливости Н< и »-*■«*>

\

^ I Р { п"2 (Ч Ра ( У * ПЬ ( Г)) < *} - ф (%) | = 0 (%),

где функция при о имеет следующий вид

величины Г и <5'2(1) заданы соответственно в (7) и (8) . Величина §г{\|Г) снова локально эквивалентна половине точного наклона по Бахадуру статистики (5), а Т^ - асимптотическая дисперсия величины .

§ 4.4 посвящен вычислению локальных точных наклонов и асимптотических дисперсий при альтернативе сдвига ^ (я) - Ро (х~0)}

9 £ I?1 , для двух стандартных ф.р.: нормальной с плотностью

распределения ■= е и логистической с плотностью

У(а)= са^"Т • Часть вычислений проводится аналитически,

часть - численным интегрированием. Вычисления проводились для интегральных статистик и статистик типа Колмогорова-Смирнова. Ответы даны в виде таблиц.

Таблица 4.1 Д. Локальные индексы по Бахадуру С и асимптотические дисперсии "Сг для гауссовского распределения при альтернативе сдвига (коэффициенты при О2)

с Г*

со\ 0.955 0.955

СО, 0.906 0.904

0.486 0.410

0.637 0.637

0.955 6.685

м: 0.164 1.148

Таблица 4.1.2.

Локальные индексы по Бахадуру с и асимптотические

дисперсии Т1 дая логистического распределения при альтернативе сдвига (коэффициенты при В4)

с X1

0.333 0.333

си? 0.329 0.317

0.220 0.206

* 0.250 0.250

м.. и: 0.333 2.333

м: 0.164 1.148

3 § 4.4 таблицы 4.1.1 и 4.1.2 дополнены локальными наклонами по Бахадуру и дисперсиями, вычисленными для статистик типа Колмогорова-Смирнова, построенных по выборке случайного объема.

Анализ таблиц 4.1.1 и 4.1.2 показывает, что на упорядочение статистик влияют не только их локальные нахлокы С , но я асимптотические дисперсии. Интересно отметить, что и в логистическом и в гауссовском случаях статистика Чвпмэиа-Моаеса СоЦ

и статистики Ватсона-Д^рлинга Mft , М„ имеют одинаковые величины наклонов, однако различия в значениях асимптотических дисперсий позволяют сделать вывод о том, что статистика соД более конкурентноспособна, чем статистики Mft , И к .

Пользуясь случаем, выражаю искреннюю благодарность своему научному руководителю профессору Я.Ю.Никитину за помощь в работе.

Литература:

1. Lam&it D., Hail VJ. h CLsymptctk icqnc-tmaiity c{- P-vahes// Оли. Stat.- mi. - V. 10, Vi.- Р.4У-6*.

2. Азларов T.A., Хашимов H.A. Оценка скорости сходимости к нормальному закону распределения одной "стьюдентизированной" статистики типа Си* // Изв. АН УзССР, сер.физ.-мат.наук.-1988, №4.- С.3-8.

3. RatfiCurucJiwU И. Limiting, distututicns cfi fotmepcicv-Strümcv type stalirtia undvL tfw altemaiive Ц dm. btat. - 19H. -V.u m. - P. 67-f 3 .

4. Cxesne А/. ReaciT.R. MuMinerruai qccdmis - tf--fit tests// 3. Roy Statist . W. - i9i1. - V.b 46, A/3. - p. W- 4-6*.

5. Sittimamcui 3. Dutfu- yictcMCity cf touji tUvintiens trfr-pMilic$ «fr sanptt tntans // (but. MM. itai. - 49G4. — 1/.35-, vs. - P. 130k - 1316.

6. Могульский A.A. Замечания о больших уклонениях статистики сог // Теория вероятностей и ее примен.- 1У77,- Т.ХХП, PI.-С.170-175.

7. CUko-hatnitn I.i*att ЬаЛосЬг egficienuei fat the foenufc-tcv- SvUnw cuicL fuij>n ent-md- turc-stmpk itaitstut// Olm. Math, btat.- №4.- It.Ji, b/S.-p.tHlo-ibSO.

По теме диссертации опубликованы следующие работы:

8. Леонтьев P.C. Асимптотическое поведение Р-значений для критериев согласия Колмогорова-Смирнова // Вестник ЛГУ.- 1987.-сер. I, вып.1, №1,- С.30-32.

9. Леонтьев P.C. Асимптотика Р-значения статистики омега-квадрат в задаче проверки согласия // Записки научн.семинаров ЛОМИ,- 1988.- T.I66.- С.67-72.

10. Леонтьев P.C. Асимптотика Р-значений статистик Кресси-Рида в задаче проверки согласия // Деп. в ВИНИТИ,- N5 I034-B89 от 17.02.89.- 8 с.

11. Леонтьев P.C. О скорости сходимости распределения Р-значения статистики омега-квадрат для проверки согласия // Тезисы

докладов У-й Международной Вильнюсской конференции по теории вероятн. и мат.статистике.- 1989.- Т.З.- С.361-362.

12. Леонтьев P.C., Никитин Я.Ю. Об асимптотическом поведении Р-значений непараметрических статистик в задаче проверни согласия // Тезисы докладов Всесоюзн. научно-технич.конфер. стран - членов СЭВ "Применение статистических методов в производстве и управлении",- Пермь, 1990,- С.48-49.