Асимптотическая эффективность ранговых критериев независимости тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Степанова, Наталья Александровна АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Санкт-Петербург МЕСТО ЗАЩИТЫ
2000 ГОД ЗАЩИТЫ
   
01.01.05 КОД ВАК РФ
Диссертация по математике на тему «Асимптотическая эффективность ранговых критериев независимости»
 
Автореферат диссертации на тему "Асимптотическая эффективность ранговых критериев независимости"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

на правах рукописи 9

РГБ ОД

СТЕПАНОВА Наталья Александровна

г 4 ДЕК 2000

АСИМПТОТИЧЕСКАЯ ЭФФЕКТИВНОСТЬ РАНГОВЫХ КРИТЕРИЕВ НЕЗАВИСИМОСТИ

01.01.05 — теория вероятностей и математическая статистика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

САНКТ-ПЕТЕРБУРГ — 2000

Работа выполнена на кафедре теории вероятностей и математической статистики Санкт-Петербургского государственного университета

Научный руководитель — доктор физико-математических наук,

профессор Я.Ю.Никитин Официальные оппоненты — доктор физико-математических наук,

профессор Ю.И.Ингстер — доктор физико-математических наук, профессор Г.Л.Шевляков Ведущая организация — Санкт-Петербургский государствен-

ный электротехнический университет им. В.И.Ульянова (Ленина)

Защита состоится С^гЖдБ^М*. 2000 г. в^ часов на заседании дис-

сертационного совета К 063.57.29 по защите диссертаций на соискание ученой степени кандидата наук в Санкт-Петербургском государственном университете по адресу: 198904, Санкт-Петербург, Старый Петергоф, Библиотечная пл., 2, математико-механический факультет Санкт-Петербургского государственного университета.

С диссертацией можно ознакомиться в Научной библиотеке им. М.Горького Санкт-Петербургского государственного университета по адресу: 199034, Санкт-Петербург, Университетская наб., 7/9.

Автореферат разослан »2 М " 2000г.

Ученый секретарь диссертационного совета

кандидат физико-математических наук О.И.Рейнов

в/и. гоз

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Важной задачей математической статистики является вычисление асимптотической эффективности статистических критериев. Многие непараметрические критерии, в том числе ранговые критерии, были предложены из эмпирических соображений. Поэтому необходимо уметь сравнивать такие критерии на основе понятия асимптотической относительной эффективности (АОЭ), которое позволяет упорядочивать существующие статистические процедуры и давать рекомендации по их использованию на практике для больших выборок. Объектом исследования в настоящей диссертации являются ранговые критерии независимости, при этом наибольшее внимание уделяется различным обобщениям классических ранговых коэффициентов корреляции Кендалла и Спирмена. Новые ранговые статистики, появившиеся в последние десятилетия, обслуживают более широкий круг задач, связанных с проверкой гипотезы независимости, в которых классические меры связи оказываются недостаточно эффективными или вовсе неприменимыми. Поэтому актуальной и важной представляется задача вычисления асимптотической эффективности (АЭ) таисих новых статистик. Кроме того, традиционный интерес вызывает проблема выявления условий, при которых асимптотическая эффективность того или иного статистического критерия является максимальной.

Цель работы. Вычисление асимптотической эффективности по Питмену различных обобщений ранговых критериев независимости и определение условий, при которых эти обобщенные критерии являются асимптотически оптимальными (АО).

Методы исследования. В диссертационной работе используются методы непараметрической статистики и предельных теорем теории вероятностей, а также ряд методов математической физики и теории экстремальных задач.

Основные результаты работы. 1. Доказана асимптотическая нормальность при альтернативе различных обобщений ранговых коэффициентов корреляции Кендалла и Спирмена.

2. Найдены явные выражения для асимптотической мощности критериев независимости, основанных на многомерных обобщениях ранговых коэффициентов корреляции.

3. Вычислена питменовская эффективность критериев независимости, основанных на рассматриваемых обобщениях ранговых коэффициентов корреляции.

4. Найдены условия на распределение исходных многомерных наблюдений, при которых изучаемые критерии являются асимптотически оптимальными по Питмену.

5. Для широкого класса распределений обнаружен неожиданный эффект независимости питмевовской АЭ средних критериев Кеидалла и Спирмена от размерности наблюдений.

Научная новизна. Все основные результаты диссертации являются новыми.

Практическая и теоретическая ценность. Полученные результаты обобщают ряд классических утверждений в теории проверки независимости признаков, выявляют новые неожиданные эффекты и могут служить основанием для рекомендаций о применении того или иного из изучаемых критериев в статистической прах-тике.

Апробация работы. Результаты работы были представлены автором на Втором Норвежско-Российском симпозиуме по стохастическому анализу в Бейтостолене (Норвегия, 1999 г.) и Седьмой Всероссийской школе-коллоквиуме по стохастическим методам в Сочи (2000 г.), а также на городском семинаре по теории вероятностей и математической статистике под руководством И. А. Ибрагимова в Санкт-Петербурге (2000 г.) и на семинаре Геттингенского университета под руководством М. Денкера (Германия, 1999 г.).

Публикации. Основные результаты диссертации изложены в работах [1]-[4].

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, разбитых на параграфы, и списка литературы, содержащего 85 наименований. Общий объем работы — 97 страниц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обсуждается тема диссертации, кратко описываются основные результаты и методы исследования.

Первая глава диссертации носит вспомогательный характер. В ней собрали разнообразные математические результаты, используемые в дальнейшем для вычисления и анализа асимптотической эффективности изучаемых критериев независимости.

Первый параграф каждой из последующих глав представляет собой вступление, в котором говорится об истории возникновения изучаемых статистик, уже имеющихся результатах, целях и задачах исследования.

Наиболее общая постановка задачи содержится в параграфе 2.2. Пусть Xi = (Хц,... ,Xjm), i = 1,... ,т, тп > 2, — выборка из непрерывного распределения с генеральной функцией распределения (ф.р.)

Fe(x ь... ,xm) = Fi(xi)... Fm(xm) ... ,Fm{xm)),

(xu... ,xm)e Rm, (1)

и маргинальными ф.р. Fi^),... ,Fm(xm). Функция m переменных ü, называемая обычно функцией зависимости (ф.з.), задана на множестве Im = [0,1]т, удовлетворяет ряду естественных ограничений и имеет смешанную производную

dmQm(zll... ,xm) ■ ,xm) — —------.

0x10x2... dxm

Параметр в — малое вещественное число. Требуется проверить гипотезу независимости

Н0 : 9 = О

против односторонних альтернатив

Я] : в > 0 или Ну : 9 < 0.

Случай двусторонних альтернатив требует аналогичной, но более громоздкой техники, чем та, что применяется в работе, и в настоящей диссертации не рассматривается. Кроме того, из двух по существу одинаковых для данной задачи предположений Hi и Ну в работе изучается случай альтернативы

Число тп обозначает количество признаков, для которых проверяется предположение о независимости. В главе 2 изучается случай m > 3, а исследования третьей и четвертой глав связаны с классической задачей двух признаков, когда т — 2.

Естественные априорные ограничения на П из параграфов 2.2 и 3.2 выделяют семейства Тт, т > 3, и Ti непрерывных функций распределения. Исследование

асимптотических свойств тестовых статистик и вычисление питменовской эффективности основанных на них критериев проводится в предположении, что ф.р. (1) принадлежит классу т > 2.

Отметим, что поскольку питменовекая эффективность носит локальный характер и вычисляется при малых в, то условие (1) может быть заменено более общим предположением

Fi(xu ...,хт) = nfa)... Fm(xm) + 0{lm(Fi(xi), ■ • • .íi.<*»))tt + o(l)),

(xi,...,xm)e IT, (2)

когда 9 —» 0, при этом все результаты диссертации, получение для ф.р. (1) остаются справедливыми и для ф.р. (2). Кроме того, при вычислении питменовской эффективности в работе достаточно ограничиться классическим случаем, когда 6 = вп = — ón"1/2 с некоторым S > 0.

С широко известной моделью зависимости (1), когда m = 2, связан ряд интересных результатов. Так, Фарли (1960) установил, что классические тау-критерий Кендалла и ро-критерий Спирмена имеют максимальную питменовскую эффективность лишь для распределения Фарли—Гумбеля—Моргенштеряа (ФГМ) с ф.з.

Ü[xi,x2) =Cxi(l-x1)x3(l-xi), 0<хих2<1, С> 0. (3)

Другие варианты функций зависимости, при которых те или иные критерии независимости оказываются асимптотически оптимальными, содержатся в работах Ле-двины (1986), Бажорского (1987), Никитина (1995) и других.

Различные подходы к понятию асимптотической эффективности, с помощью ко-юрото сравнивают качество статистических критериев, были предложены Питме-ном, Бахадуром, Ходжесом и Леманом и другими авторами. Для статистик, распределенных при гипотезе и альтернативе асимптотически нормально, обычно используется метод Питмена, предложенный им в 1948 г. Важное продвижение в теории Питмена было получено Pao (1963), доказавшим существование верхней границы для питменовской функции мощности. Результат Pao позволяет вычислять абсолютную питменовскую эффективность статистических критериев и определять условия, при которых эти критерии являются асимтотически оптимальными. Основные факты питменовской теории содержатся в параграфе 1.2 вспомогательной главы.

В качестве тестовых статистик для проверки Но в диссертации рассматриваются

различные обобщения ранговых коэффицентов корреляции Кендалла и Спирмена, а также линейная ранговая статистика с монотонной функцией меток, на основе которой также можно построить полноценный ранговый коэффициент корреляции.

Тестовые статистики во второй главе имеют многомерную структуру. Полученные здесь результаты включают в себя в виде частных случаев ряд фактов двумерной теории и выявляют новые неожиданные эффекты, связанные со структурой многомерных коэффициентов корреляции. Общая постановка задачи и определение тестовых статистик второй главы содержатся в параграфе 2.2.

Пусть X,- = (Хц,... ,Х<т), г — I,... ,п, — выборка из абсолютно непрерывного распределения с ф.р. Р(х) — Р(хх,... ,хт), Яу — ранг Х^ среди элементов Хц,... , Обозначим через множество ортантов в пространстве Ят, такое,

что каждая точка Дь>т_* содержит либо к положительных и т — к отрицательных компонент, либо к отрицательных и т — к положительных. Рассматриваются три вида статистик. Во-первых, это

1>*

("У' £ к-м-ъ)

(4)

2[© + Г;')3-(?)

уе _ (т\

гдеи>* = -^—^—к = т',...т, ш'= .

Статистика (4), нредегавимая в более традиционном виде как среднее тау Кендалла

1 <к<}<т

где г*7 — коэффициент корреляции Кендалла, построенный по выборке {Хц, Х^), г = 1,... , п, 1 < к < з < т, была предложена и изучена Джо (1990). Далее вводится в рассмотрение

Iх- ' 1<з<з'<т ¡=1 4 ' \

Мера зависимости (5) представляет собой среднее ро Спирмена. Идея использования таких статистик впервые встречается в известной монографии М.Кендалла "Ранговые корреляции" (1948). Третья статистика

(«-1|>...д*-I} (6)

является естественным многомерным обобщением коэффициента корреляции Спир-мена и предлагалась различными авторами (Реймхарт и ван Зейлен (1978), Вольф (1980), Джо (1990)).

Хотя указанные статистики известны и применяются в статистической практике уже несколько десятилетий, питменовская эффективность построенных по ним критериев почти не изучалась. Исключение составляет работа Джо (1990), в которой проводится анализ асимптотической эффективности многомерных критериев Кендалла и Спирмена в двух простых частных случаях.

Важную роль при изучении асимптотических свойств статистик (4)—(6) и вычислении питменовской эффективности построенных по ним критериев независимости играют U-статистические представления коэффициентов т^, и Wm<n из параграфа 2.2. На основании общей теории U-статистик в параграфе 2.3 устанавливается асимптотическая нормальность статистик (4)—(6) при альтернативе. Параграф 2.4 носит технический характер. В нем проверяется справедливость условий, налагаемых на распределение исходных наблюдений, при которых питменовская функция мощности имеет верхнюю границу. Питменовская эффективность критериев и Wm,n вычисляется в параграфе 2.5 на основе двух лемм, представляющих самостоятельный интерес.

Пусть 7™i(0), 7^2(Ö) и 7™3(0) — значения функций мощности в точке в для статистик и Wm,„ соответственно, а > 0 — заданный уровень значимости и Ф(га) = 1 — а, где Ф — ф.р. стандартного нормального закона.

Лемма 2.5.1.

= 1-Ф

M'Ii^-li^ii:)'1!;^)^ •

I fm \ * /

х - (Ж1,... ,xm) €1т, 6> 0.

Лемма 2.5.2.

\VfiJ [(I) -f-l]1/2 /

= 1-Ф Za

x={xi,...txm)eTm, S> 0.

Согласно лемме 2.5.1 средние критерии Кендалла и Спирмена, основанные на и , обладают одинаковой эффективностью по Питмену. Полученный результат хорошо согласуется со свойством асимптотической эквивалентности тау Кендалла и ро Спирмена при нулевой гипотезе для двумерных данных.

Параграф 2.5 наряду с примерами , в которых вычисляется питменовская эффективность многомерных критериев, содержит следующий результат. Теорема 2.5.1. Предположим, 'что ф.з. имеет вид

П*(гь... ,х„) Л хк, {хи... ,1и)еГ, т> 3,

i<j Мм

гЗе'Ф(я,к) — ограниченная неотрицательная функция, заданная па квадрате I2 =

[О, I]2, равная нулю на его границе и имеющая, по крайней мере, в открытом мпо-

жестве (0.1) производную щх,у) = —„ V — ——;—-. Тогда питменовская

охду дуох

эффективность средних критериев Кендалла и Спирмена не зависит от m и равняется

= е^.(П*) = 144 QT <S(x,y)dxdyJ ^ ф\хлу)Му.

Заметим, что этой же эффективностью обладают классические тау- и ро-крятерии, построенные по наблюдениям из распределения с ф.з. У(х,у).

Неожиданный результат, согласно которому эффективность критериев и не зависит от размерности наблюдений, в ряде случаев позволяет сохранять высокой эффективность этих процедур. Например, для многомерного нормального закона с ф.з.

1<»<7<т k^ij

где 'р и Ф — плотность и функция рапределения стандартного нормального закона, эффективность составляет 9/я2 «г 0,9119, а для распределения, определяемого ф.з.

Пт(хи... , жт) = sin(rxj) sin(7r^) JJ Zk,

l<t <j<m k/ij

она еще выше я равняется 9216/тг8 и 0,9713.

Важное место во второй главе занимают две теоремы об условиях асимптотической оптимальности по Питмену критериев независимости, основанных на статистиках (4)—(6).

Теорема 2.6.1. Последовательности статистик {т^® } и для проверки

независимости являются АО в классе лишь для распределения с ф.э.

(г1,...,1п)бГ, С> 0. (7)

Теорема 2.6.2. Последовательность тестовых статистик {И^п} является АО в классе Тт лишь для распределения с ф.э.

(®ь ...,1т)бГ, 00, (8)

Обе теоремы обобщают результат Фарли (1960) о достижении тау-критерием Кен-далла и ро-критерием Спирмена максимальной питменовской эффективности на ФГМ-распределении с ф.з. (3).

Обобщенная ФГМ-фупкция (7), представимая иначе в виде

Пйд(»1, ■ • ■ ,хт) = СХ! ... хт £(1 - ®,)(1 - х,),

><]

по-видимому, впервые встречается у Джо (1997).

Доказательство теоремы 2.6.1 сводится к анализу ДТ-статистического ядра коэффициента и применению неравенства Коши—Буняковского—Шварца. Теорема 2.6.2 требует применения более общего, вариационного подхода. Благодаря существованию верхней границы для функции мощности, задача определения условий оптимальности критерия УУт^ сводится к некоторой вариационной задаче. Такой подход был развит и успешно применялся Никитиным (1995). В данном случае для статистики 1¥„11П уравнение Эйлера-Лагранжа для экстремали имеет вид

,хт) = С (9)

и должно рассматрваться совместно с граничными условиями на ребрах и гранях многомерного куба. С помощью известных фактов теории экстремальных задач в параграфе 2.6 строится функция Грина краевой задачи (9), которая и определяет структуру ф.з. (8).

В следующей, третьей главе изучается вопрос об асимптотической эффективности обобщенных коэффициентов корреляции Кочара—Гупты (1987, 1990). Эти статистики были предложены в качестве конкурентов кендалловсхому тау и приводят к состоятельным критериям для проверки независимости против альтернативы строгой положительной квадрантной зависимости

Л2 : F{xux2) > F¡(X¡)F2(x2)

при всех ii и х2, со строгим неравенством хотя бы для одной пары (ibi5). Важным частным случаем Яг является гипотеза Н\.

Постановка задачи и определение тестовых статистик содержатся в параграфе 3.2. Предполагается, что исходные наблюдения распределены по вероятностному закону с ф.р. (1), когда т = 2, а статистики определяются как

UU« "(fc + J 1 Е .....f = 1.2, (10)

где ядра Фд.+1 U-статистик U¡.+l n, когда 1—1,2, задаются следующим образом: $¡Li(№> Yi)> --i (хм, И-н)) равно единице, если га ах X¡ и max Y¡ принадлежат одной и той же паре наблюдений (X, Y), и равно нулю в противном случае; Ф^1((ХиУ1),равно единице, если rain X¡ и min Y¡ принадлежат одной и той же ларе (X, У), и нулю в остальных случаях.

Кроме того, рассматривается линейная комбинация

+ß4+ia + /J = l. (И)

Идея линейной комбинации статистик не нова и часто с успехом использовалась для повышения мощности статистических тестов или эффективности оценок (Хемелрейк (1950), Доксум и Томпсон (1971), Гросс (1998) и др.). Замена наблюдений Xi nY¡ соответствующими им рангами R¡ и Q¡, i = 1,... , п., не изменяет значений статистик (10) и (11), которые, таким образом, являются ранговыми коэффициентами корреляции.

С помощью этих коэффициентов корреляции проверяется гипотеза Н0 о независимости X и Y против альтернативы #¡. Методы, на основании которых вычисляется эффективность критериев данной главы — те же, что во второй главе. Доказательства основных утверждений главы 3 проводятся для коэффициентов корреляции

и ,п- Результаты, относящиеся к их линейной комбинации есть, как правило, прямое следствие утверждений о и

В параграфе 3.4 уточняются и дополняются результаты Кочара и Гупты (1987, 1990) об асимптотической нормальности статистик (10) и (11) и доказывается общее неравенство для питменовской функции мощности. Пусть 7* — функция мощности хритерия и1+1>п — / = 1,2, к > 1, а величины 5, а, га и функция Ф — те же, что в леммах 2.5.1 и 2.5.2. Тогда лемма 3.3.1 утверждает, что

^мЛ0)!

lira чй1 (АЛ = 1 - ф

п-юо "Ы \фь/

za~S

г = 1,2, fc>i, (12)

к2

где ст? (0) = (0) = т——гг, а /¿¡¿+1(0), I = 1,2, являются полиномами по в

' (л/С "г" 1/

и при 9 О

1НМ1 ~ вк(к +1)2 //У)'1хс1у, г>

1*М1(9) ~ вк{к + 1)а Л((1 - х)(1 - у))*"1^, у)вхйу. г»

Из соотношения (12) выводятся общие формулы для питменовской (абсолютной) эффективности критериев и

Далее, в параграфе 3.4 сформулированы три теоремы об условиях асимптотической оптимальности тестовых статистик (10) и (11).

Теорема 3.4.1. Последовательность тестовых статистик является

АО в массе распределений Т?. тогда и только тогда, когда

= -**)»(!-И). 0 < < 1, С > 0, * > 1. (13)

Теорема 3.4.2. Последовательность тестовых статистик является

АО в классе распределений У? тогда и только тогда, когда

«fc+Mή, у) = С(1 - х){1 - (1 - x)fc)(l - у)(1 - (1 - у)к), (14)

0 <х,у,< 1, С > 0, * > 1.

Аналогичное утверждение имеет место для последовательности

Из этих теорем следует, что в роли распределений, для которых критерии Кочара— Гупты оптимальны по Питмену, выступают распределение Вудворта (1966) с ф.з. (13) и его небольшие модификации. Функция Фарли—Гумбеля—Моргенштерна (3)

есть частпый случай функций зависимости (13) и (14). Таким образом, теоремы 3.4.1 и 3.4.2 обобщают результат, полученный Фарли (1960).

В зависимости от типа исходного распределения новые процедуры либо превосходят в эффективности тау-критерий Кендалла, либо проигрывают ему. Важно отметить, что для ряда распределений, среди которых и нормальное распределение, оправдывает себя идея линейной комбинации (11) коэффициентов [/¿+1п и :

при надлежащем выборе а, /3 я к основанный на статистике п критерий независимости оказывается эффективнее критериев п и классической процедуры Кендалла.

Коэффициенты корреляции в заключительной четвертой главе имеют взвешенную структуру. Они появились в статистической практике как альтернатива классическим мерам зависимости Кендалла и Спирмена.

Математическая постановка задачи в главе 4 та же, что в предыдущей главе, а тестовые статистики определяются следующим образом: 2 _^

Та = 7x^7,-X) »^(А - ~ ОД (15)

[2^ Щ — и>н) 7^7

где 51|т(г) = —1, 0 или 1, когда х < 0, =0 или > 0, а функция = : .¡V2 Л

симметрична и ограничена,

т йК&НИ&Н

" 1ШЯГ~'

с фупкцииями ап(г), определенными на интервале (0,1) и стремящимися по норме

1 "

пространства £2(0,1) к некоторой монотонной функции <р(х), о = — От» (17(п + 1)) •

я ¡=1

В частности, можно полагать а„ (¿/(« + 1)) = <р (г/(п +1)) — так называемые приближенные метки, порожденные функцией <р.

Частным случаем (16) является коэффициент Имана и Кояовера (1987)

ЕЗД,-«

п

с метками Сэвиджа 5; = 1 /], который успешно применяется на практике при определении точности различных прогнозов. Специфика (17) состоит в том, что данная статистика акцентирует внимание на нескольких наименьших элементах в

ряду наблюдений Л|, 15, г — 1,...,«, и совпадение первых рангов среди 1Ц, и <3^ г = 1,... ,тг, обеспечивает гу значение, близкое к единице.

Статистика г№, взвешенный коэфидиент корреляции Кендалла, впервые появляется в работе Ши (1998) и связана с практическими приложениями задачи о проверке гипотезы независимости. Подходящий выбор весовых коэффициентов щ позволяет использовать лишь "наиболее значимую" часть наблюдений, уменьшая тем самым экспериментальные затраты. В работе Ши (1998), посвященной изучению различных свойств тщ, остается открытым вопрос об асимптотической эффективности критерия независимости, построенного по данной статистике.

В четвертой главе вычисляется питмеповская эффективность критериев тш и Тпа, и высказывается ряд идей о применении линейной ранговой статистики для задач, в которых требуется определить точность различных (экономических, спортивных, погодных и пр.) прогонозов.

В параграфе 4.2 представлены простейшие свойства тестовых статистик (15)— (17) и доказана

Лемма 4.2.1. Пусть — произвольная монотонная функция, заданная на интервале (0,1). Тогда статистика Тп>1/, достигает своего максимального значена, когда Щ = С^, и минимального значения, когда Л; = <3„+1_;,» = 1,... , п.

Из этого результата следует, что Тп>ч> принимает все свои значения на отрезке [—1,1], то есть является ранговым коэффициентом корреляции.

Основное содержание заключительной главы сосредоточено в параграфе 4.3, в котором вычисляется питменовская эффективность критериев, построенных по мерам зависимости (15)—(17).

Проблема максимальной эффективности критерия решается с помощью теоремы 4.3.1. Обозначим через М класс монотонных, в определенном смысле регулярных функций, заданных на интервале (0,1). Строгое определение М содержится в параграфе 4.3.

Теорема 4.3.1. Для любой функции ц> е М последовательность тестовых статистик {Тп,„} является АО в классе 3-2 тогда а только тогда, когда

у) = ~Х/'рШ^ - у/ ,

о <х,у<1, С > 0.

Аналогичный результат для бахадуровской эффективности был получен Никитиным (1995). Если <р(х) = In - , то Tn,v совпадает с коэффициентом гт, и тогда

ti%(x,y)=Cxylnxlny, 0 <х,у<1, С>0.

В заключении параграфа 4.3 на основании результата Шапиро и Хуберта (1979) доказывается асимптотическая нормальность при альтернативе статистики и определяется АОЭ взвешенного критерия тш по отношению к классическому критерию Кендалла.

ПУБЛИКАЦИИ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ

1. Никитин Я.Ю., Степанова H.A. Одно обобщение кендалловсхого may и асимптотическая эффективность основанного на нем критерия независимости j/ Зап. паучи. семинаров ПОМИ. 1997. Т. 244, С. 227-237.

2. Степанова H.A. Критерии независимости, основанные на обобщенных коэффициентах корреляции, и их асимптотическая эффективность // Вестник СПбГУ. 1999. Сер. 1, вып. 4, N 22. С. 54-59.

3. Степанова H.A. Питменовская эффективность многомерных критериев независимости, основанных на обобщенных ранговых коэффициентах корреляции // Деп. в ВИНИТИ 1639-В00 от 06.07.00.16 с.

4. Степанова H.A. Асимптотическая эффективность обобщенных ранговых критериев независимости. В сб.: "Седьмая Всероссийская школа-коллоквиум по стохастическим методам. Сочи, 1-6 октября 2000 г. Тезисы докладов." М.: ТВП, 2000. С. 532.

ЛР№ 040815 от 22.05.97.

Подписано к печати 13.11.2000 г. Формат бумаги 60X90 1/16. Бумага офсетная. Печать ризографнческая. Объем 1 л.л. Тираж 100 экз. Заказ № 1622. Отпечатано в отделе оперативной полиграфии НИИХ СПбГУ с оригинал-макета заказчика. 198904, Санкт-Петербург, Старый Петергоф, Университетский нр. 2.

 
Содержание диссертации автор исследовательской работы: кандидата физико-математических наук, Степанова, Наталья Александровна

Введение

1 Некоторые факты из теории вероятностей, математической статистики и теории экстремальных задач

1.1 Сведения из теории И-статистик.

1.2 О питменовском подходе к вычислению асимптотической эффективности

1.3 Несколько фактов из теории копул.

1.4 Две теоремы из теории гладких экстремальных задач.

1.5 Теорема Реймхарта-Шорака-ван Цвета.

2 Асимптотическая эффективность многомерных критериев Кендал-ла и Спирмена

2.1 Введение

2.2 Постановка задачи и применяемые статистики.

2.3 Многомерные коэффициенты корреляции Кендалла и

Спирмена как тестовые статистики для проверки независимости

2.4 Верхняя граница для питменовской мощности

2.5 Питменовская эффективность многомерных критериев Кендалла и Спирмена

2.6 Условия асимптотической оптимальности многомерных критериев Кендалла и Спирмена.

3 Асимптотическая эффективность критериев независимости, основанных на обобщениях кендалловского тау

3.1 Введение

3.2 Постановка задачи. Определение и простейшие свойства тестовых статистик

3.3 Питменовская эффективность критериев Кочара-Гупты для проверки независимости.

3.4 Условия асимптотичесой оптимальности критериев независимости Кочара— Гупты.

4 Взвешенные ранговые критерии независимости и их асимптотическая эффективность

4.1 Введение.

4.2 Постановка задачи и применяемые статистики.

4.3 Асимптотическая эффективность и асимптотическая оптимальность взвешенных ранговых критериев независимости

 
Введение диссертация по математике, на тему "Асимптотическая эффективность ранговых критериев независимости"

Проверка гипотезы независимости принадлежит к числу наиболее важных задач математической статистики. Для проверки независимости нередко используют ранговые коэффициенты корреляции, наиболее известными среди которых, несомненно, являются коэффициенты корреляции Кендалла и Спирмена. Свойства этих мер зависимости изучены достаточно хорошо [48], [81], [3], [5], [7], [10], [17], [58].

В основе ранговых методов лежит идея перехода от последовательности наблюдений к набору рангов, поэтому они могут использоваться, когда известны лишь результаты упорядочения наблюдений. С этим свойством ранговых процедур связаны их многочисленные приложения в психологии, медицине, социологии и др. областях знаний. В последние десятилетия появилось большое количество задач, в которых на основе обработки данных требуется сделать вывод и дать практические рекомендации в ситуациях, когда традиционные методы оказываются либо неприменимыми, либо малоэффективными. Таким образом возникают разнообразные обобщения классических коэффициентов корреляции. Новые статистики предлагаются, как правило, из эмпирических соображений. По мнению их авторов они "должны работать" в той или иной задаче проверки гипотезы независимости. Поэтому важно понять, когда же эти статистики действительно работают и обладают максимальной эффективностью.

Новые коэффициенты корреляции, появившиеся в литературе и используемые на практике сравнительно недавно, изучены не столь хорошо, как их "предшественники" . Они обладают более сложной структурой, чем классические меры взаимосвязи, и исследование их свойств сопровождается значительными трудностями технического характера.

Настоящая диссертация посвящена изучению асимптотических свойств и вычислению асимптотической эффективности различных обобщений коэффициентов корреляции Кендалла и Спирмена, а также линейных ранговых статистик, используемых для проверки гипотезы независимости.

Асимптотическая относительная эффективность (АОЭ) — понятие, традиционно используемое для сравнения качества критериев. Оно позволяет упорядочить имеющиеся критерии и выявить среди них наилучший. Существуют различные подходы к определению АОЭ (см., например [10, гл. 1], [74, гл. 10]). Для статистик, имеющих при нулевой гипотезе и при альтернативе нормальное предельное распределение, обычно применяются идеи Питмена ([10, § 1.4], [17, § 2.6], [74, гл. 10]). Эффективность, вычисленная согласно этим идеям, носит название питменовской АОЭ.

Общий подход к вычислению АОЭ состоит в следующем. Пусть {Тп} и {14J — две последовательности статистик, построенные по выборке Xi,. ,Хп, с общим распределением Pq, в е ©, и проверяется гипотеза Н0 : в G во против альтернативы А : в Е ©1 = 0\©о- Определим Nt{ol, ß, в) как минимальный объем выборки Xi,. ,Хп, для которого последовательность {Тп} с заданным уровнем значимости а достигает мощности ß при альтернативном значении параметра в G Gi. Аналогично вводится Nv(a,ß,0). Отностительной эффективностью критерия, построенного по статистике Тп, по отношению к критерию, основанному на Vn, называется величина eT,v{a,ß,9) = —;—-г—г,

NT(a, ß, 9) то есть обратное отношение выборочных объемов. Относительная эффективность как функция трех аргументов даже для самых простых статистик не поддается вычислению в явном виде. Поэтому принято рассматривать пределы lim еТу(а, ß,9), а—>0 ' lim ету(сс, ß,9), lim еТу{а, ß, 9). В первом случае получается АОЭ по Бахадуру,

3—>1 в—>д®о второй предел определяет АОЭ по Ходжесу—Леману и, наконец, предел при 9 —> дО0 в некоторой подходящей топологии на 0 приводит к определению АОЭ по Питмену. Так как в практических приложениях наиболее интересны случаи малых уровней значимости, высоких мощностей и близких альтернатив, то все три определения представляются обоснованными и очень естественными. Предельные переходы, отличные от указанных, приводят к другим вариантам определения АОЭ (см. [74, гл. 10]).

Большое количество результатов, связанных с построением критериев независимости и вычислением их эффективности, получено для задачи двух признаков.

Пусть по выборке (Xi, Fi),. , (Хп, Yn) из непрерывного распределения с ф.р. F(x, у) и маргинальными ф.р. G(x) и Н(у) требуется проверить гипотезу независимости

H0:F(x,y) = G(x)H(y) при всех х и у из R. Кроме альтернативы общего вида

H1:F(x,y)^G(x)H(y) для хотя бы одной пары точек (х, у), обычно рассматриваются следующие гипотезы:

H2:F(x,y)>G(x)H(y) при всех х я у со строгим неравенством хотя бы для одной пары (х, у), называемая альтернативой строгой положительной квадрантной зависимости, а также гипотеза

H3 :Xi = X* + 6Zi, Vi = Y* + eZi, где X*, Y*, Zi — взаимно независимые случайные величины (с.в.), причем типы распределений X* и Y* известны, распределение Zi произвольно, в > 0 — малый вещественный праметр. Эта модель зависимости рассматривалась многими авторами, в том числе очень подробно Гаеком и Шидаком [3]. В [76] вводится взвешенный вариант Щ вида н4-.хг = х* + eq{x;)zl: f, = f; + вгг с некоторой монотонной функцией q(x). Аргументом в пользу Н4 служат различные практические приложения задачи о независимости двух признаков.

Широко распространенной, достаточно общей и удобной для вычисления эффективности критериев является альтернатива

Я5 : Fe{x,у) = С(х)Н(у) + 9П(С(х),Н(у)) для всех х и у и некоторого в > 0. Функция Q, называемая обычно функцией зависимости (ф.з.), задана на единичном квадрате I2 = [0,1] х [0,1], и удовлетворяет естественным ограничениям. Впервые эта модель появилась в [32], рассматривалась в [10, гл. 5] и при различном выборе Q встречается у многих авторов [11], [21], [51], [61], [63, гл. 8], [85] и др. Параметр в предполагается достаточно малым, так, чтобы Fg(x,y) действительно была функцией распределения. Гипотеза Щ является важным частным случаем модели Я2. Если Щх,у) = yg(G~1(x))/q(G~1(x))+xh(H~l(y)), где д и И — плотности, соответствующие (7 и Н, то альтернатива Н5 совпадает с предположением Н4. Частным случаем является также известная в робастной статистике модель Хьюбера [19, § 4.5]. В приложении к задаче о независимости двух признаков она имеет вид где G и Н — фиксированные, a F — произвольное вероятностные распределения, называемая обычно функцией Фарли—Гумбеля—Моргенштерна (ФГМ) [32], [37],

В диссертации альтернативой к Н0 является гипотеза Щ и ее многомерное обобщение

Я6 : Рв{хи . , хт) = ^1(3:1). Рт(хт) + 1),. ) Ртг(-^т)) для всех (а?!,. , хт) 6 Нт, т > 3, и некоторого 9 > 0. Функция Гв(х1,. , хт) — непрерывная ф.р. случайного вектора X = (Хх,. , Хт) с маргинальными ф.р. ^(ж,), г = 1,. ,т, Г1т — ф.з., заданная на единичном кубе 1т = [0,1]т, неотрицательная и ограниченная. Естественные априорные ограничения на £1т выделяют семейства Тт, гп > 3 непрерывных ф.р. Р0{х\1. , хт). Точное опредедление Тт содержится в параграфе 2.2.

Хорошо известные, классические способы проверки независимости основаны на коэффициентах корреляции Кендалла [48] и Спирмена [81]. Пусть имеется выборка (Хх, У)),. , (Хп, Уп) из двумерного распределения с некоторой непрерывной функцией распределения (ф.р.) Р(х,у). Кендалловским "тау" называется статистика

Переписанная через ранги В4 и <3г элементов Х% и У^, г = 1,. ,п, она имеет вид

7 : Fe(x, у) = (1 - e)G{x)H(y) + 9F(x, у), х,у Е R

9 — положительное число. В этом случае ф.з. Q(x, у) = F(x, y)—G(x)H(y). Наиболее известным примером ф.з. несомненно является функция

П(х,у) = Сх(1-х)у(1-у), 0 < х,у < 1, С> 0,

57]. где sign(a:) = —1, 0 или 1, когда х < 0, =0 или > 0.

Коэффициент корреляции Спирмена определяется как

Рп = П 1 г=1 4 Л ! V. г=1

За исключением крайних ситуаций, когда тп и рп принимают значения ±1, статистики (1) и (2), вообще говоря, не равны. В действительности их корреляция очень высока и при нулевой гипотезе они асимптотически эквивалентны [17, § 4.4].

Обобщения классических мер взаимосвязи (1) и (2), предложенные за последние десятилетия, носят самый разнообразный характер [20], [23], [34], [43], [47], [49], [50], [62], [73], [79], [82], [83]. Как правило их появление связано с практическими приложениями задачи о проверки гипотезы независимости (см. также [26], [42], [68], [76],

В настоящей диссертации изучаются : многомерные варианты статистик тп и рп, которым посвящена глава 2; семейства обобщенных коэффициентов корреляции Кочара—Гупты, включающие в себя как частный случай статистику тп (о них рассказывается в главе 3); взвешенный тау Кендалла и линейные ранговые статистики с монотонными функциями меток, используемые для определения точности прогнозов (им посвящена глава 4).

Все рассматриваемые в работе статистики удовлетворяют основным требованиям, предъявляемым к коэффициентам корреляции, которые были предложенны в 1959 г. Реньи [66]. Позже Швайцер и Вольф модифицировали список аксиом Реньи на случай непараметрических мер зависимости [73].

Остановимся кратко на основных результатах предлагаемой диссертации. Утверждения второй главы связаны с асимптотическими свойствами и асимптотической эффективностью многомерных критериев независимости.

Многомерные методы как один из разделов непараметрической статистики довольно сложны. Их развитие происходит далеко не механическим обобщением классических результатов. Многомерными обычно называют методы для таких задач, в которых каждое наблюдение % = 1,. ,п, есть т-мерный вектор с тп > 3. В многомерном пространстве не существует линейного упорядочения, согласованного с естественной топологией, так же как пока не существует стройной теории многомерного непараметрического анализа. В ряде исследований, посвященных проверке гипотезы независимости тп признаков, тп > 3, можно выделить работы Джо [43],

77], [78]).

44], Чои и Мардена [26], Саймона [79], Пури и Сена [63, гл. 8]. Как правило, все они связаны с различными, иногда очень непростыми, обобщениями статистик, применяемых для проверки независимости двух признаков. Интересными и обоснованными представляются идеи Джо, предложившего для упорядочения от-мерных распределений использовать то или иное понятие зависимости [44, гл. 2], [43]. Изучаемые в [43] тя-мерные обобщения коэффициентов корреляции Бломквиста, Кендалла и Спирмена возрастают относительно упорядочения распределений, определяемого на основе понятия положительной ортантной зависимости. Проблема асипмтотической эффективности критериев в [43] затронута при этом лишь частично, в простейших частных случаях.

В настоящей диссертации асимптотическая эффективность многомерных аналогов тп и рп вычисляется для достаточно широкого класса альтернатив, описываемых гипотезой #6- В главе 2 тестовыми статистиками для проверки Н0 против Н6 выступают средние коэффициенты корреляции Кендалла и Спирмена и многомерное "ро" Спирмена. Они определяются следующим образом.

Пусть Хг = (Хц,. ,Хгт), ъ = 1,. , п, — выборка из непрерывного распределения с ф.р. Г(х) — Р(х\,. , хт). Обозначим через Вк,т-к множество ортантов в пространстве В.т, такое, что каждая точка содержит либо к положительных и т — к отрицательных компонент, либо к отрицательных и т — к положительных. Среднее значение тау Кендалла есть статистика

-1

П = к—т'

Yl IBk,m-k(Xi ~ Xj) l<i<j<n

3) с весами wk = 2 ^ + ^^-к = т', . т, т' = .

V2 )

Джо [43] установил, что при данном выборе wстатистика (3) совпадает со средним тау [31], [38], вычисленным по всевозможным парам случайной т-мерной выборки Xi = (Хц,. , Xim), i = 1,. ,п.

Пусть, далее, Щ обозначает ранг Xij среди элементов Хц,. , Xnj. Среднее ро определяется как [5, § 6.5], [17, § 4.4] ave п2

-1 п / ~ ч 2

71+1 l<j<j'<m ¿=1

4)

Прямым аналогом рп в многомерном случае является статистика [43], [68], [84]

Определение многомерного аналога тау — задача несомненно более сложная. Некоторые идеи по этому поводу содержатся в [26], [43], [79] и нескольких других работах, однако в данной диссертации не рассматриваются.

Все три коэффициента (3)—(5) возрастают относительно упорядочения многомерных распределений по Джо (см. [43]) и не изменяются при строго возрастающем преобразовании компонент случайного вектора.

Несмотря на то, что средние коэффициенты Кендалла и Спирмена известны уже более полувека, а статистика }¥т:П — по крайней мере 20 лет, вопрос об асимптотической эффективности соответствующих критерив независимости до сих пор оставался малоизученным. Восполнить этот пробел — задача второй главы.

Вопрос об асимптотической эффективности критериев р^п и 1¥т,п решается, по существу, с помощью двух лемм из параграфа 2.5.

Пусть 7^(0), 7^(0): и — значения функций мощности в точке в для статистик Т™, Ргп%> и соответственно, а > 0 — заданный уровень значимости и \ д£1т(х\,. , функция и>т[хи . ,Хт) = -^---. иХ\ . . - С/кЬ

Лемма 2.5.1.

Нт7„т1(^) = Ит7Г га 2 га—>оо \ \/П / га->оо '

1 - Ф

Хг + 8 ^^ ^ ХгХ3 | (я) бIX

-1 Е т г<3 где х = (х|,. , хт) е 1т, Ф(га) = 1 — а, Ф — ф.р. стандартного нормального закона.

Лемма 2.5.2.

-1)т2т

Ит7гатз(^]=1-Ф га—> оо

КГ-*-Ч!"2 J &т(х) йх

Jm

Комбинация двух этих утверждений с результатом Рао (лемма 1.2.1) дает выражения для питменовской (абсолютной) эффективности многомерных критериев Кендалла и Спирмена. Лемма 2.5.1 показывает также, что асимптотическая эффективность критериев т^® и р^п одна и та же. Следующий по нашему мнению интересный и важный результат сформулирован в виде теоремы.

Теорема 2.5.1 Предположим, что ф.з. имеет вид п*,хт) = Д хк, (хъ. ,хт) е1т, т> 3, 7 где Ф(ж, у) — ограниченная неотрицательная функция, заданная на квадрате 12 =

О, I]2, равная нулю на его границе и имеющая, по крайней мере, в открытом мнор. ^ я х д2Щх, у) дЧ(х,у) жестве (0,1) производную щх.у) = ——-- = ——--. 1огда питменовская дхду дудх эффективность средних критериев Кендалла и Спирмена не зависит от т и равняется е^е(О^) = = 144 ^Ф(*,у)<Ыу^ у/^ф\х,у)йхйу.

Неожиданный эффект независимости качества критериев от количества признаков связан со структурой многомерных статистик и р^п. Так, для многомерного нормального закона с функцией Ф(х,у) = ^(Ф1(х))<^(Ф1(у)) питменовская эффективность, как и в случае двух признаков, равняется 9/ж2 & 0,9119. Для коэффициента \¥т>п обнаружить нечто подобное не удалось: в случае простейших и наиболее известных распределений качество критерия \¥т>п с ростом т понижается.

Результаты параграфа 2.6 связаны с вопросом об асимптотической оптимальности (АО) многомерных критериев Кендалла и Спирмена и сформулированы в виде двух теорем.

Теорема 2.6.1. Последовательности статистик {т^®} и {р^%} для проверки независимости являются АО в классе Тт лишь для распределения с ф.з. х 1 > ■ ■ ■ > хт) — Сх\ . . . Хт ( 1 хъ+ . - / ; гп т(т — 1) ' г 4 ' К]

Х^Ху I ,

КЗ хи. ,хт)е1т, с> о. (6)

Теорема 2.6.2. Последовательность тестовых статистик является

АО в классе Тт лишь для распределения с ф.з.

• ■ ■ ,Хт) = Сх 1.®т (П(2 - + - (га + 1)^ , хи. ,хт)е1т, С > 0. (7)

Таким образом, на достаточно широком классе абсолютно непрерывных распределений многомерные критерии Кендалла и Спирмена асимптотически оптимальны в точности для одного распределения. Для т^® и это распределение определяется функцией зависимости (6), а для WmjTl функцией зависимости (7). Функция зависимости (6) представима иначе в виде

ЖЬ . ,Xm)=CXi.Xm - - Xj), i<j xu. ,xm)elm, С > 0, (8) и определяет обобщенное ФГМ-распределение, впервые рассмотренное Джо [44, § 5.1]. Распределение с ф.з. (7) не имеет столь явной интерпретации и появляется в виде решения многомерной краевой задачи с нестандартными граничными условиями на гранях т-мерного куба размерности к = 1,. ,т — 1. Краевые задачи такого типа в пространстве R2 изучались Никитиным [10, гл. 5]. Непосредственно обобщить результаты [10] на m-мерный случай, однако, не удается. Построение функции Грина, определяющей решение данной краевой задачи, основано на известных фактах математической физики. Процесс построения подробно описывается при доказательстве теоремы 2.6.2.

Тестовые статистики третьей главы обобщают коэффициент корреляции тп и приводят к состоятельным критериям независимости против альтернативы Н2- Эти статистики были предложены Кочаром и Гуптой [49], [50]. Оказалось, что на распределении Блока—Базу и семействе распределений Вудворта [85] их эффективность выше, чем эффективность тау Кендалла [49], [50].

Коэффициенты корреляции Кочара—Гупты для произвольного натурального к > 1 задаются равенствами (* +1) Е +1>^+1))> ' = 1.2, (9) l<il<.<it+1<n где ядра U-статистик Ulk+l^n, когда / = 1,2, определяются следующим образом: Ф[+1((Х!, Ух),., равно единице, если max Xi и max Уг принадлежат одной и той же паре наблюдений (X,У), и равно нулю в противном случае; (Xk+i,Yk+i)) равно единице, если min Хг и min Yi принадлеl<Kfc+l 1<KA:+1 жат одной и той же паре (X, У), и нулю в остальных случаях.

Мы также предлагаем рассмотреть линейную комбинацию l<il<.<ifc + l<7l P<S>l+l((Xh,Yh),. ,(Xik+1,Yik+1))}, а,(3> 0, а + /3 = 1. (10)

Большинство критериев независимости в современной литературе по статистике ориентировано на симметричное распределение наблюдений. Новый тип коэффициентов (9)—(10) был предложен для задач с асимметричным распределением исходных наблюдений. Такие распределения встречаются, например, в теории надежности, когда случайные величины принимают неотрицательные значения.

Результаты параграфов 3.3 и 3.4 показывают, что в ряде случаев использование (9)—(10) для симметричных распределений также вполне оправданно. Так, в параграфе 3.4 мы доказываем, что на (симметричных) распределениях типа Вудворта критерии Ulk+1¡n, I = 1,2, и Vkfln являются асимптотически оптимальными по Пит-мену. Сформулируем соответствующие утверждения.

Теорема 3.4.1. Последовательность тестовых статистик {Щ+1п} является АО в классе распределений JF2 тогда и только тогда, когда ttk+lA{x,y) = Cx(l-xk)y(l-yk), 0<х,у<1, С> 0, к>1. (11)

Теорема 3.4.2. Последовательность тестовых статистик \Uki-i^} является АО в классе распределений T<¿ тогда и только тогда, когда lk+li2(x, у) = С( 1 - х)(1 - (1 - а;)*)(1 - у){ 1 - (1 - у)к),

0<х,у<1, С > 0, к > 1. (12)

Как следствие двух этих теорем получаем теорему 3.4.3. В ней утверждается, что для последовательности {V^ „} аналогичный результат имеет место только тогда, когда

V) = С [ах(1 - хк)+[3(1 - х)(1 - (1 - я)*)] х х [ау(1 — ук) + /3(1 — г/)(1 — (1 — у)к)] ,

0<х,у<1, к> 1, а,(3 > 0, а + (3 = 1. (13)

Функция зависимости (11), а вместе с ней (12) и (13), определяют еще один тип обобщенний ФГМ-распределения (ср. с (8)). По-видимому впервые обобщение (11) рассматривалось Вудвортом [85], несколько позже — Ледвиной [52], [53], Кочаром и Гуптой [50] и другими авторами. В [50] распределение, определяемое ф.з. (11), выступает как представитель семейства положительно квадрантно зависимых распределений. Мы же доказали, что именно в этом случае в классе Тъ критерий Щ+1п обладает максимальной питменовской эффективностью.

Доказательство теорем 3.4.1—3.4.2 опирается на общие факты теории Питмена (теорема 1.2.2. и лемма 1.2.1) и результаты, полученные в параграфе 3.3, об асимптотической нормальности статистик (9)—(10). В частности, согласно лемме 3.3.1 для функций мощности 7*д1 и критериев независимости и1+1п и Ц%+1п с уровнем значимости а и параметра 9 — вп = 6п~1/2, где 5 > 0 справедливо соотношение где Ф(2а) — 1—а, Ф(г) —ф.р. стандартного нормального закона, , (0) = <х| А+1(0) = к2/(2к + I)2, а /^+1(0), ¿ = 1,2, являются полиномами по 9 и при 9 —» 0

Питменовская эффективность критериев и £/|+1>п вычисляется в параграфе

3.3 и определяется величинами А41^+1(0)/сг1^+1(0) и /из соотношения (14).

При доказательстве теорем 3.4.1—3.4.2 применяется вариационный принцип Ла-гранжа (теорема 1.4.2). Он сводит задачу о минимизации информации Фишера на множестве ф.р., определяемом структурой тестовых статистик, к некоторой краевой задаче. В отличие от многомерного случая, когда функцию Грина приходится строить, здесь удается воспользоваться результатами Никитина [10, гл. 5] и с их помощью получить решения краевых задач для статистик и Щ+1п.

Примеры из параграфа 3.4, говорят о различной степени АОЭ критериев п и и1+1п по отношению к тау-критерию Кендалла. Так, для нормального закона следует использовать более эффективную, чем п и статистику тп, а для распределений типа Вудворта с различными показателями и двумерного экспоненциаль

14) Р ного распределения Блока—Базу [24], наоборот, более эффективными оказываются обобщенные коэффициенты (9)—(10). Важно отметить, что для ряда распределений, среди которых и нормальное распределение, оправдывает себя идея линейной комбинации коэффициентов 11]к+^п и С/|+1>п : при надлежащем выборе а, ¡3 и к основанный на У^+1 п критерий независимости оказывается эффективнее критериев Щ+\ ,п> и1л,п и классической процедуры тп.

Таким образом, результаты, полученные в третьей главе, подтверждают вывод Кочара и Гупты [49], [50] о конкурентоспособности мер зависимости (9)—(10) по сравнению с т„ и обосновывают идею их использования в качестве тестовых статистик для проверки гипотезы независимости.

Глава 4 сохраняет постановку предыдущей главы, когда имеются наблюдения У1),. , (Хп, У„), взятые из непрерывного распределения с ф.р. у) = С(х)Н(у) + 9П(С(х), Н(у)), х,у£11, и альтернативой к независимости выступает гипотеза Я5 : 9 > 0, переходящая при 9 = 0 в гипотезу Щ.

Тестовые статистики четвертой главы имеют взвешенную структуру и ориентированы на выявление определенного рода зависимости между случайными величинами X и У. Они определяются следующим образом: п

П-в 1 п где = — метки Сэвиджа [70];

Еад,-»

ТТ = г=1 „ 0-, (15)

3=1 (а- (гтт)"а) («■ (¡тг а

ТЩЧ> — п , , Ч ^ 2 > (16)

5 («. (^тт) -8 с функциями ап(х), заданными на интервале (0,1) и стремящимися по норме про

I п странства Ь2(0,1) к некоторой монотонной функции (р(х), а — — ап + 1));

Т1 ¿=1 -Г^—Т Е (17)

1,3 I где sign(a;) = —1, 0 или 1, когда х < 0, =0 или > 0, а функция — ги(г, : И2 —» И предполагается симметричной и ограниченной.

Статистика гт впервые рассматривалась Иманом и Коновером [42]. Она акцентирует внимание на нескольких первых рангах наблюдений Х^ У*, г = 1,. , п, и указывает на степень их согласованности. В практических приложениях с помощью гт определяют наиболее " влиятельные" элементы во входных данных в задачах компьютерного моделирования, а также устанавливают, насколько точными являются экономические, спортивные и другие прогнозы (см. [42] и [69]).

Коэффициент гт является важным частным случаем линейной ранговой статистики ТП;(р, которую мы предлагаем использовать в задачах подобного типа наряду со статистикой гт- Эта мера зависимости дает дополнительные, по сравнению с гт, возможности для определения характера и степени зависимости двух признаков (см. параграф 4.3).

Наконец, статистика взвешенный коэфициент корреляции Кендалла, впервые появляется в работе Ши [76] и связана с практическими приложениями задачи о проверке гипотезы независимости. Альтернативной к Н0 в [76] предлагается модель щ-.х1 = х; + вч{х*)г^ у = у; + вгг с монотонной функцией д. Выбор в качестве q индикатора некоторого множества позволяет использовать лишь "наиболее значимую" часть наблюдений, уменьшая, тем самым, экспериментальные затраты. В работе [76], посвященной изучению различных свойств взвешенной статистики г«,, вопрос об асимптотической эффективности основанного на ней критерия независимости остается открытым.

Четвертая глава посвящена вычислению асимптотической эффективности взвешенных критериев, основанных на статистиках (15)—(17) и определению условий, при которых данные критерии являются асимптотически оптимальными. Исследование асимптотического поведения и асимптотической эффективности в параграфе 4.3 основано на известных фактах теории линейных ранговых статистик [25], [3, § 6.2.6], [63, гл. 10], [67]. Наиболее общий из данных результатов сформулирован Реймхартом, Шораком и ван Цветом [67] (теорема 1.5.1). Проблема максимальной эффективности критерия решается с помощью теоремы 4.3.1.

Обозначим через М. класс монотонных, в определенном смысле регулярных функций, заданных на интервале (0,1). Строгое определение М. содержится в параграфе 4.3.

Теорема 4.3.1. Для любой функции (р £ Л4 последовательность тестовых статистик {ТЩ1р} является АО в классе Тъ тогда и только тогда, когда С ( J у{и)йи -xJ у{и)<1и I I J ср(у)ёу -у ^ ч>(у)йу I , \о о / \о о /

0<х,у<1, С>0.

Аналогичный результат для бахадуровской эффективности был получен Никитиным [10, § 6.6]. Если <р(х) = 1п —, то Тп!<р совпадает с коэффициентом гт, и тогда

2/

П^(х,у) = Сху]пх]пу, 0<х,у<1, С>0.

В параграфе 4.3 показывается, что качество критерия ТПгЧ>, который применим в несколько более общих задачах проверки гипотезы независимости, чем критерий гт, можно улучшить путем подходящего выбора функции <р (см. пример параграфа 4.3).

Основные результаты главы, полученные для статистики т№, содержатся в заключительной части параграфа 4.3. Коэффициент тц, представляет собой взвешенную невырожденную 11-статистику степени 2. Поэтому утверждение об асимптотической нормальности тт при альтернативе (см. теорему 4.3.2) есть прямое следствие результата Шапиро и Хуберта [75]. Предельное распределение взвешенных невырожденных и-статистик степени 2 изучали также О'Нэйл и Реднер [60]. Более общие результаты для взвешенных 11-статистик произвольной степени получены Майором [54]. На основании теоремы 4.3.2 вычисляется питменовская АОЭ критерия тш по отношению к классическому критерию, основанному на тп.

Результаты диссертации были представлены на Втором Норвежско-Российском симпозиуме по стохастическому анализу в Бейтостолене (Норвегия, 1999 г.) и Седьмой Всероссийской школе-коллоквиуме по стохастическим методам в Сочи (2000 г.), а также на городском семинаре по теории вероятностей и математической статистике под руководством И. А. Ибрагимова в Санкт-Петербурге (2000 г.) и на семинаре Геттингенского университета под руководством М. Денкера (Германия, 1999 г.). Основные результаты диссертации опубликованы в работах [12]—[15].

 
Список источников диссертации и автореферата по математике, кандидата физико-математических наук, Степанова, Наталья Александровна, Санкт-Петербург

1. Алексеев В.M., Тихомиров В.М., Фомин C.B. Оптимальное управление. М.: Наука, 1979.

2. Буслаев B.C. Вариационное исчисление. JT.: Изд. Ленингр. ун-та, 1971.

3. Гаек. Я., Шидак 3. Теория ранговых критериев. М.: Наука, 1971.

4. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. М.: Наука, 1971.

5. Кендэл М. Ранговые корреляции. М.: Статистика, 1975.

6. Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976.

7. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.

8. Королюк В. С., Боровских Ю. В. Теория U-статистик. Киев: Наукова думка, 1989.

9. Маршалл А., Олкин И. Неравенства: теория мажоризации и ее приложения. М.: Мир, 1983.

10. Никитин Я. Ю. Асимптотическая эффективность непараметрических критериев. М.: Наука, 1995.

11. Никитин Я.Ю., Панкратова А.Г. Бахадуровская эффективность и локальная асимптотическая эффективность некоторых непараметрических критериев независимости // Зап. научн. семинаров ЛОМИ. 1988. Т. 166. С. 112-127.

12. Никитин Я.Ю., Степанова H.A. Одно обобщение кендалловского may и асимптотическая эффективность основанного на нем критерия независимости // Зап. научн. семинаров ПОМИ. 1997. Т. 244. С. 227-237.

13. Степанова Н.А. Критерии независимости, основанные на обобщенных коэффициентах корреляции, и их асимптотическая эффективность // Вестник СПб-ГУ. 1999. Сер. 1, вып. 4, N 22. С. 54-59.

14. Степанова Н.А. Питменовская эффективность многомерных критериев независимости, основанных на обобщенных ранговых коэффициентах корреляции // Деп. в ВИНИТИ 1639-В00 от 06.07.00. 16 с.

15. Степанова Н.А. Асимптотическая эффективность обобщенных ранговых критериев независимости. В сб.: "Седьмая Всероссийская школа-коллоквиум по стохастическим методам. Сочи, 1-6 октября 2000 г. Тезисы докладов." М.: ТВП, 2000. С. 532.

16. Харди Г., Литтльвуд Дж., Полиа Г. Неравенства. М.: ИЛ, 1948.

17. Хеттманспергер Т. Статистические выводы, основанные на рангах. М.: Финансы и статистика, 1987.

18. Холлендер М., Вулф Д.А. Непараметрические методы статистики. М.: Финансы и статистика, 1983.

19. Хьюбер П. Робастность в статистике. М.: Мир, 1984.

20. Albers W. A note on the Edgeworth expantion for the Kendall rank correlation coefficient // Ann. Statist. 1978. V. 6. P. 923-925.

21. Bajorski P. Local Bahadur optimality of some rank tests of independence // Statist. Probab. Letters. 1987. V. 5, N 6. P. 255-262.

22. Bhuchongkul S. A class of nonparametric tests for independence in bivariate population // Ann. Math. Statist. 1964. V. 35. P. 138-149.

23. Blest D.C. Choice and order: an extension to Kendall's r // The Statistician. 1999. V. 48, Pt. 2. P. 227-237.

24. Block H.W., Basu A.P. A continuous bivariate exponential distribution // Jour. Amer. Stat. Ass. 1974. V. 69. P. 1031-1037.

25. Chernoff H., Savage I.R. Asymptotic normality and efficiency of certain nonparametric test statistics // Ann. Math. Statist. 1958. V. 29. P. 972-994.

26. Choi K., Marden J. A multivariate version of Kendall's r // J. of Nonparnetric Statistics. 1998. V. 9. P. 261-293.

27. Conti P. L., Nikitin Ya. Yu. Pitman efficiency of independence tests based on Gini's rank association coefficient and Spearman's footrule. 1997. V. A15. Preprint. Dipartimento di Statistica, Università di Roma.

28. Convay D. Farlie—Gumbel—Morgenstern distributions // Encyclopedia of Statistical Scienca. N.Y.: Wiley, 1983. V. 3. P. 28-31.

29. Denker M. Asymptotic distribution theory in nonparametric statistics. Braunschweig: Vieweg, 1985.

30. Doksum K., Thompson R. Power bounds and asymptotic minimax results for one-sample rank tests // Ann. Math. Statist. 1971. V. 42, N 1. P. 12-34.

31. Ehrenberg A. S. C. On sampling from a population of rankers // Biometrika. 1939. V. 39. P. 82-87.

32. Farlie D.J.G. The performance of some correlation coefficients for a general bivariate distribution // Biometrika. 1960. V. 47. P. 307-323.

33. Farlie D.J.G. The asymptotic efficiency of Daniels's generalized correlation coefficient // J. Roy. Stat. Soc. 1961. V. B23. P. 128-142.

34. Fisher N.I., Lee A.J. Nonparametric measures of angular-angular association // Biometrika. 1982. V. 69, N 2. P. 315-321.

35. Groeneboom P., Oosterhoff J. Bahadur efficiency and small sample efficiency // Intern. Statist. Review. 1981. V. 49, N 2. P. 127-141.

36. Gross J. Statistical estimation by a linear combination of two given statistics // Statist. Probab. Letters. 1998. V. 39. P. 379-384.

37. Gumbel E.J. Distributions à plusieurs variables dont les marges sont données // C. R. Acad. Sci. 1958. V. 246. P. 2717-2719.

38. Hays W. L. A note on average tau as a measure of concordance // J. Amer. Statist. Assoc. 1960. V. 55. P. 331-341.

39. Hemelrijk J. A family of parameter-free tests for symmetry with respect to a given point. I, II. // Indagationes Math. 1950. Y.12. P. 340-350; 419-431.

40. Hoeffding W. A class of statistics with asymptotically normal distribution // Ann. Math. Statist. 1948. V. 18, N 3. P. 293-325.

41. Huang J.S., Kotz S. Correlation structure in Farlie—Gumbel—Morgenstern distribution // Biometrika. 1984. V. 71. P. 633-636.

42. Iman R.L., Conover W.J. A measure of top-down correlation // Technometrics. 1987. V. 29, N 3. P. 351-357.

43. Joe H. Multivariare Concordance // J. Multivariate Anal. 1990. V. 35. P. 12-30.

44. Joe H. Multivariate Models and Dependence Concepts. L.: Chapman & Hall, 1997.

45. Johnson N.L., Kotz S. On some generalized Farlie—Gumbel—Morgenstern distribution // Commun. Statistics. 1975. V. 4. P. 415-416.

46. Johnson N.L., Kotz S. On some generalized Farlie—Gumbel—Morgenstern distribution II11 Commun. Stat. Theor. Meth. 1977. V. A6. P. 485-496.

47. Jupp P.E. A nonparametric correlation coefficient and two-sample test for random vectors or directions // Biometrika. 1987. V. 74, N 4. P 887-890.

48. Kendall M.G. A new measure of rank correlation // Biometrika. 1938. V. 30. P. 81-93.

49. Kochar S.C., Gupta R.P. Competitors of the Kendall-tau test for testing independence against positive quadrant dependence // Biometrika. 1987. V. 74. P. 664-666.

50. Kochar S.C., Gupta R.P. Distribution-free tests based on sub-sample extrema for testing against positive dependence // Austral. J. Statist. 1990. V. 32, N 1. P. 45-51.

51. Konijn H.S. Positive and negative dependence of two random variables // Sankhya. 1959. V. 24, Pt. 2. P. 269-280.

52. Ledwina T. Large deviations and Bahadur slopes of some rank tests of independence 11 Sankhya. 1986. V. A24. P. 188-297.

53. Ledwina T. On the limiting Pitman efficiency of some rank tests of independence // J. Multivariate Anal. 1986. V. 30. P. 265-271.55