О скорости сходимости статистик критериев согласия со степенными мерами расхождения к хи-квадрат распределению тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Зубов, Василий Николаевич
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2010
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
0046
738
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
им. М. В. Ломоносова Факультет вычислительной математики и кибернетики
На правах рукописи
ЗУБОВ Василий Николаевич
О СКОРОСТИ СХОДИМОСТИ СТАТИСТИК КРИТЕРИЕВ СОГЛАСИЯ СО СТЕПЕННЫМИ МЕРАМИ РАСХОЖДЕНИЯ К ХИ-КВАДРАТ РАСПРЕДЕЛЕНИЮ
Специальность 01.01.05 - "Теория вероятностей и математическая статистика"
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
2 8 ОКТ 2010
Москва-2010
004611738
Работа выполнена на кафедре математической статистики факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова.
Научный руководитель: доктор физико-математических наук,
профессор Ульянов Владимир Васильевич
Официальные оппоненты: доктор физико-математических наук,
профессор Богачев Владимир Игоревич
кандидат физико-математических наук, Хохлов Владимир Иванович
Ведущая организация: Московский государственный институт
электроники и математики
Защита диссертации состоится 29 октября 2010 года в 11 часов на заседании диссертационного совета Д 501.001.44 в Московском государственном университете имени М. В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 1-й учебный корпус, факультет ВМиК, аудитория 685.
С диссертацией можно ознакомиться в библиотеке факультета ВМиК МГУ. С текстом автореферата можно ознакомиться на официальном сайте факультета ВМиК Московского государственного университета имени М.В. Ломоносова
http://www.cmc.msu.ru в разделе „Наука " — „Работа диссертационных советов" - „Д 501.001.44".
Автореферат разослан 59 сентября 2010 года.
Ученый секретарь диссертационного совета профессор
л, Н. П. Трифон«
Общая характерисктика работы
Актуальность темы
На протяжении многих десятилетий критерии согласия, предназначенные для проверки соответствия имеющихся выборочных данных заданному распределению, не теряют своей значимости в математической статистике. Выдающиеся результаты, полученные в этом направлении, связаны с именами А. Н. Колмогорова, Н. В. Смирнова, К. Пирсона. Один го подходов состоит в следующем: данные выборки группируются на основе попадания в непересекающиеся подмножества (ячейки) области возможных значений элементов выборки, с тем чтобы затем сопоставить частоты попадания в эти подмножества с теоретическими вероятностями, которые могут быть вычислены. При этом проверка соответствия выборки исходному распределению заменяется проверкой соответствия сгруппированных данных полиномиальному распределению. Несомненное достоинство такого подхода состоит в его универсальности.
Классический критерий согласия, предложенный К. Пирсоном и основанный на вышеупомянутой методологии, использует так называемую статистику х2 ■ Эта статистика имеет простой вид и удобна в применении. Вместе с тем, для получения хорошей точности с помощью этого критерия необходимо иметь достаточно большой объем входных данных (в сумме и по отдельности в каждой ячейке). Кроме того, на практике чаще всего приходится заменять распределение статистики асимптотическим. Аппроксимирующее распределение зависит от числа ячеек, а величина ошибки чаще всего неизвестна. Непонятно и то, является ли статистика х2 оптимальной на малых объемах выборки.
В связи с этим многие ученые исследовали другие подходы к построению критериев согласия с целью найти наиболее эффективный в том или ином статистическом смысле. Здесь можно упомянуть работы С. Фейнберга, X. Ланкастера, Д. Мура, Г. Вотсона. Неплохой сводный анализ различных альтернатив приведен в сводной работе С. Хорна1. Особое место в этих исследованиях принадлежит работам Н. Крисси2 и Т. Рида3. Эти авторы ввели в употребление и произвели первичный анализ семейства степенных статистик согласия, предназначенного для построения критериев согласия по сгруппированным данным с использованием степенных мер расхождения между эмпирическими частотами и теоретическими вероятностями. Семейство параметризо-
1S. Horn. Goodness-of-Fit Tests for Discrete Data: Л Review and an Application to a Health Impairment Scale. Biometrics, 33, 1, pp. 237-247, 1977.
2n. A. C. cressie, T. R. C. Read. Multinomial goodness-of-fit tests, Journal of the Royal Statistical Society, Series B, 46, No. 3, 440-464,1984.
3T. R. C. Read. Small sample comparisons for the power divergence goodness-of-fit statistics, Journal of the American Statistical Association, 79, 388, pp. 929-935, 1984.
вано вещественным параметром Л, при этом как собственно статистика X11 так и часто используемые статистики являются частными случаями.
Хотя при фиксированной процедуре группировки и количестве ячеек все статистики семейства асимптотически эквивалентны (имеют одинаковое предельное хи-квадрат распределение), на основании имеющихся работ4 можно утверждать, что в определенных ситуациях классическая статистика хи-квадрат не является наиболеее эффективной в рамках семейства. Для практической реализации альтернативных критериев (например, при вычислении критических значений) необходимо четко понимать, насколько хорошо статистики семейства аппроксимируются предельным хи-квадрат распределением и как это соотносится с точностью аппроксимации для статистики х2 ■ В связи с этим актуальной является задача исследования степенных статистик согласия на предмет скорости их [слабой] сходимости к хи-квадрат распределению (при выполнении основной гипотезы и фиксированном количестве ячеек группировки).
Из работ Ф. Гетце, В. Ульянова и Дж. Ярнольда известны оценки скорости сходимости в частном случае статистики х2 > также в работах Т. Рида5, М. Шиотани и Я. Фуджикоши6 получены различные асимптотические разложения функции распределения степенных статистик согласия. Тем не менее, ни одна из этих работ не позволяет построить оценки скорости сходимости последних к хи-квадрат распределению.
Цель работы
Целью настоящей работы является получение оценок скорости слабой сходимости степенных статистик согласия к хи-квадрат распределению.
Научная новизна
Все полученные в диссертации результаты являются новыми и состоят в следующем:
1. для всех степенных статистик согласия впервые получены степенные оценки скорости слабой сходимости к хи-квадрат распределению;
4N. А. С. Cressie, Т. R. С. Read. Multinomial goodness-of-fit tests, Journal of the Royal Statistical Society, Series B, 46, No. 3, 440-464,1984.
T. R. C. Read. Small sample comparisons for the power divergence goodness-of-fit statistics, Journal of the American Statistical Association, 79, 388, pp. 929-935,1984.
5T. R. C. Read. Closer asymptotic approximations for the distributions of the power divergence goodness-of-fit statistics., The Annals of Mathematical Statistics, 36, Part A, 59-69, 1984.
6M. Siotani AND Y. Fujikoshi. Asymptotic approximations for the distributions of multinomial goodness-of-fit statistics, Hiroshima Math. J., 14 1984 г., 115-124; technical report of the Hiroshima statistical research group, 1980.
2. для случая трех ячеек группировки получены более точные оценки, которые превосходят ранее известные оценки для статистики хи-квадрат;
3. в процессе работы разработан новый метод построения оценок скорости сходимости степенных статистик согласия, основанный на сведении исходной задачи к задаче о приближении числа точек решетки в заданном выпуклом множестве его нормированным объемом.
Методы исследования
Основной метод состоит в последовательном сведении задачи из математической статистики к задаче из теории чисел о приближении числа целых точек в некотором выпуклом множестве его нормированным объемом. В последующем привлекаются имеющиеся результаты из теории чисел, при этом применимость этих результатов к проблеме диссертации обосновывается с помощью методов теории оптимального управления, тензорного исчисления, и дифференциальной геометрии.
Теоретическая и практическая значимость
Результаты работы имеют теоретический характер. Они представляют значительный интерес при изучении асимптотических свойств степенных статистик согласия. Практическая значимость исследования связана с поиском эффективных альтернатив традиционным критериям согласия.
Апробация работы и публикации
Автор имеет 6 публикаций по тематике диссертации. Работа докладывалась на научно-исследовательском семинаре кафедры математической статистики факультета ВМиК МГУ (март 2009 г.), на Российско-японском симпозиуме [Математического Института им В. А. Стек-лова РАН] "Стохастический анализ сложных статистических моделей "(сентябрь 2009 г.), на Российско-японском семинаре [Математического Института им В. А. Стеклова РАН] "Сложные стохастические модели: асимптотики и приложения"(июнь 2007 г.), а также на 28-й Конференции Европейских Статистиков (август 2010 г., Университет Пирея, Греция). Основные результаты были опубликованы в журналах «Теория вероятностей и ее применения», «Обозрение прикладной и промышленной математики» и в Hiroshima Mathematical Journal.
Структура диссертации
Работа общим объемом 98 страниц состоит из введения, двух глав, заключения и приложения. Во введении в более технических терминах обсуждается. постановка задачи, проводится краткий анализ имеющихся результатов, формулируются основные идеи и методы доказательства. В главе 1 рассматривается частный случай, когда число ячеек группировки равно трем. В главе 2 последнее ограничение снимается. Наконец в приложение выведены некоторые вспомогательные результаты технического характера. Список литературы состоит из 54 наименований.
Краткое содержание диссертации
Вводные замечания
Мы рассматриваем вектор У = (Ух,..., Уь)г, имеющий полиномиальное распределение Мк(п,п), т. е.
щ = о,1.....в о = 1.....к)
Рг(я = т,...,Ук = пк)= I иЕи Щ = п.
[о иначе
где 7Г = (щ,..., ттк)т, тг; > 0, ^¡=1= 1 • Мы предполагаем, что число ячеек группировки к фиксировано. Далее будем считать выполненной основную гипотезу #о: 7г = р. Если изначальное распределение было отлично от полиномиального, вектор р состоит из теоретических вероятностей попадания случайной величины, имеющей исходное распределение, в соответствующие ячейки.
Основным объектом изучения в настоящей работе является построенное по вышеуказанному распределению семейство степенных статистик согласия
'«-ЩТцр
т/
А б к, (1)
Замечание 1, При Л = 0,-1 эту запись следует понимать как результат предельного перехода.
Предполагая выполненной основную гипотезу, рассмотрим преобразование
= 3 = 1,...,к, г = Л-1, Х=(Хи...,Хг)Т. (2)
Компоненты вектора X сосредоточены на решетке вида
Ь = {х = (ц,...,хг)т\ х = {--=){тп - пр), р = (Р1,... ,Рг)Г, т = (щ,...,пг)т},
где пз — неотрицательные целые числа. При этом, поскольку компоненты вектора У в сумме всегда равны п, мы можем положить Хк = —(Х\ + ••■ Величина г, таким образом, определяет
размерность нашей задачи.
Для того чтобы исследовать статистики t\(Y) на слабую сходимость, мы рассматриваем их как функции от X (в дальнейшем обозначаются как Т\(Х)). Заметим, что функцию распределения Р(Т\(Х) < с) можно записать в виде вероятности попадания случайного вектора X, имеющего решетчатое распределение, в некоторое множество ВА(с) (в дальнейшем будет обозначаться как £Л, проекции на одну из координат будут обозначаться дополнительным нижним индексом). Одним из важных источников по оценке такого рода вероятностей является работа Дж. Ярнольда7. Его результаты, доказанные с привлечением многомерных разложений Эджворта, можно применить к оценке искомой вероятности. При этом мы получим
Рг (ХеВх) = ^ + ^ + 0(п~1).
Члены этого разложения имеют следующий вид
¿ME
i=i
Pi
dx, где
1 k
j=i
(3)
(4)
(5)
Pi
(6)
J2 * x- n-^y; ...v
l + ПР№(Х) dXl' ' ' ' ' dXl~
(7)
Lj = {x: Xj = (—r=(rij — npj)), rij и pj определены как и раньше};
yj 71
(8)
(9)
(10)
Si(x) = x — [x\ — [xj — целая часть x\
ф(х) =
(2тг)£|П|з
exp
1
x x .
7J. K. Yarnold. Asymptotic approximations for the probability that a sum of lattice random vectors lies in a convex set, The Annals of Mathematical Statistics, 43, No. 5, 1566-1580, 1972.
В последней формуле матрица П = (¿¿Pi ~ PiPj) € R^-1)*^-1) есть ковариационная матрица вектора X. В формуле (7) функции Xi(x*) и 9¡(x*) обозначают диапазон изменения координаты x¡ внутри множества Вх, если зафиксировать остальные координаты. Величину Л можно интуитивно понимать как разложение Эджворта до порядка 0(£) для непрерывной части распределения, в то время как величина J2 появляется как дополнительный корректирующий член для решетчатых распределений. Именно оценка этого члена представляет наибольшую трудность с практической точки зрения.
Вначале были получены результаты для классического случая Л = 1 (статистика хи-квадрат). Нетрудно показать, что множество В1 в этом простом случае представляет собой эллипсоид. В той же работе [7] Дж. Ярнольд сумел упростить сумму слагаемых J\ и /2 в этом простом случае и привел разложение (3) к виду
Pr(X е В1) = Kr(c)+(Nl-n'V1) е-i/ ((2тпг)г П*=1 Pj)1+0(n~1),
(Н)
где Кг(с) — функция распределения хи-квадрат с г степенями свободы, N1 — число точек решетки L в множестве В1, V1 — объем множества В1. Опираясь на результат Эссеена для эллипсоидов, он получил оценку для второго слагаемого (11) вида О^п-*^).
Позднее М. Шиотани, Я. Фуджикоши [6] и Т. Рид [5] получили аналог этих результатов для произвольного Л, а именно, что
Ji = Кт(с) + 0(п-1)
J2 = (Nx-níVx) е-§/((2ттЩ!^)" +"(!). (12)
Заметим, что в отличие от работы Дж. Ярнольда остаточный член в (12) не оценен. Это означает, что для того чтобы оценить скорость сходимости к хи-квадрат распределению автору нужно было, во-первых, получить содержательную оценку остаточного члена в (12) и, во-вторых, оценить главную часть J4.
Проблема оценки главной части J2 сводится к проблеме оценки разности числа точек решетки, попадающих в множество Вх, и нормированного объема этого множества. С помощью преобразования масштаба задача сводится к оценке разности числа точек с целочисленными координатами, попадающих в множество, полученное линейным расширением из
В* , и объема этого расширенного множества. Такая задача является ничем иным, как обобщением известной из теории чисел задачи Гаусса. Для наших целей (см. формулу (8)) при переходе
от целых точек к точкам решетки необходимо взять нормировочный коеффициент y/ñ.
Общий алгоритм решения состоит в следующем. Вначале мы оцениваем остаточный член в (12), используя близость множества ВЛ = {х | Тх{х) < с} и эллипсоида В1, соответствующего статистике хи-квадрат. Это означает, что, отталкиваясь от формулы (7), мы можем заменить функции 9i(x*) и A¡(x*) на функции §i(x*) и A¡(х*), соответствующие границе множества В1. Поскольку ф(х) на границе В1 есть константа, мы можем упростить подынтегральное выражение в (7) с некоторой погрешностью, которую можно подсчитать. Оказывается, что величина, остающаяся ведущим членом после этих преобразований, настолько похожа на соответствующий член из разложения для эллипсоидов, что к ней применимы рассуждения работы Ярнольда [7] (стр. 1571-1572), позволяющие свести оценку Ji к оценке величины
(Nx-n¿Vx) е-i/ ((2ттп)г
На втором этапе мы рассматриваем линейное расширение множества Вх с фактором л/ñ, соответствующим преобразованию координат (2). Мы проверяем условия применимости соответствующей теоремы из теории чисел и получаем искомый результат.
Глава I
В этой главе мы исследуем проблему для случая, когда число ячеек группировки к равно трем. Это исследование предшествовало исследованию статистик произвольной размерности и было предназначено для выработки методологии решения задачи. Тем не менее полученные здесь результаты заслуживают отдельного внимания не только в силу того, что не дублируются в полной мере во второй части, но и в силу своеобразных методов решения, существенно отличных от методов решения общей проблемы.
Конкретизируя рассуждения, изложенные выше (см. формулы (1)-(10)), имеем
В* = {(х,у):Тх(х,у)<с},
Тх(х,у) =
+
+
А(А +1) 2
А(А +1) 2
А(А 4-1)
(npi + -Jñx) (пр2 + \/ñy)
1 +
1 +
(пръ - Vñ(x + y))
•Jñpi
\/ñp5
1-
- 1
- 1
X + ]
у/прз)
Основные результаты этой главы были опубликованы в работах [1] и [3]. Используя упрощенное разложение (12), полученное Шиотани, Фуджикоши и Ридом, была доказана следующая основная теорема (в автореферате сохранена оригинальная нумерация диссертации). Теорема 3 Для любого Л € К справедлива оценка
ивх) = О п)315'146) . (13)
Как и раньше, мы будем оперировать с сечениями множеств по одной из координат, которые будут обозначаться дополнительным нижним индексом. Пусть и Ах — функции, обозначающие диапазон изменения переменной х внутри В1 при фиксированном у, В\ — область определения этих функций. Напомним, что функции 6\ и А1 соответствуют множествам Вх. Также определим
Тх{х,у)= (- + -) х2 + -ху+ (- + -) г/2.
\Р1 Рг) Рз \Р2 Рг)
Согласно алгоритму вначале в разделе 1.2 диссертации мы редуцируем член 3% к упрощенному виду, проводя необходимую оценку погрешности. Для этого необходимы следующие оценки Лемма 1 Мера Лебега множества ВХ\В1 имеет порядок О • Лемма 2 Существуют константы с\ > 0, с2 > 0 такие, что
в:(у)-Ш Ш ~ Ш
< cm
< С2П~?
для всех у е Вх П В\_, начиная с N — \(ср2(р! +Рз))_11 •
Эти две леммы были получены Ж. Асылбековым в работе [3]. Дальнейшие рассуждения позволяют показать, что справедлива Теорема 4 Член Вх), определяемый формулой (7), можно представить в следующем виде
32{Вх) = -{Их-пУх) + 0{п-^ (14)
п
где ¿> О - константа.
Далее в разделе 1.3 для оценки (14) применяется следующий результат, полученный М. Хаксли8:
Теорема 1 (Хаксли, 1993) Пусть В - выпуклая евклидова плоская область площади А, ограниченная простой замкнутой кривой С, состоящей из конечного числа частей С{, каждая из которых
8M. N. Huxley. Exponential sums and lattice points II, Proceedings of London Mathematical Society, 3, 66, 279-301,1993.
три раза непрерывно-дифференцируема в следующем смысле: радиус кривизны р непрерывен относительно угла смежности (тангенциального угла) ф и не равен нулю па каждой части С{, а также непрерывно-дифференцируем относительно угла смежности. Пусть число М достаточно велико, и пусть МВ обозначает множество, образованное увеличением множества В линейно в М раз. Тогда для любого изометрического вложения множества МВ в евклидову плоскость число целых точек (т, п) в МВ есть
где I - число, зависящее от кривой С, но не от М и не от вложения множества МВ.
Интерпретация этой теоремы, равно как и других утверждений такого рода, достаточно проста. Если выпуклое множество обладает достаточно гладкой регулярной границей, то количество целых точек, попадающих в его линейное расширение, может быть с хорошей степенью точности приближено площадью этого линейного расширения. Дополнительно теорема утверждает следующее. Теорема 1 (Хаксли, 1993, дополнение) Если помимо вышеуказанного части С^ четырежды непрерывно дифференцируемы в том смысле, что р дважды непрерывно дифференцируем по отношению к углу смежности (тангенциальному углу) ф, то тогда мы можем взять
при условии, что М достаточно велико для выполнения неравенств
по отдельности на каждом участке Сх.
Это дополнение к теореме существенно для последующих рассуждений, поскольку оно позволяет нам оценить константу I. Особая сложность рассматриваемой в диссертации задачи состоит в том, что в действительности множества Вх и константа I зависят от п. В связи с этим получение итогового порядка ошибки по п возможно только после получения оценки сверху на I.
Ам2 + о[т^п{ъём)31Ь'ш)
53
и .1 ^ <Мп(1оеМ)387/8
1
Как видно из условия теоремы для ее примененимости достаточно показать наличие у границы множества гладкой параметризации. Для этого сначала доказывается строгая выпуклость множеств Вх (получено Ж. Асылбековым). Затем для функции
U(r,t) = Г*(г cosí, г sint) — с,
доказывается Лемма 5
3s,N: V(r,í) едВ\ n>N > s > 0.
Следовательно по теореме о неявной функции справедлива Лемма 6 Пусть (ro,to) — точка области определения, в которой функция U (г, t) обращается в 0. Тогда для любого достаточно малого положительного числа е найдется такая окрестность точки to, что в пределах этой окрестности существует единственная функция г — r(í), которая удовлетворяет условию \r—ro| < е и является решением уравнения
U (г, t) — 0,
причем эта функция г = r(t) непрерывна и пять раз дифференцируема в указанной окрестности точки to •
и, наконец, Лемма 7 Для кривой
Т\{х, у) — с
существует четырежды непрерывно-дифференцируемая параметризация в виде х = x(t) — г(t) cosí, у — y(t) = r(t) siní, tÇ.[0,27т].
Леммы б и 7 получены Ж. Асылбековым. Следующие две леммы позволяют доказать равномерную отделенность полярного радиуса от нуля и оценить константу I из условия теоремы Хаксли. Лемма 8 Пусть rn(t) — полярный радиус множества Вх, a r(t) — полярный радиус множества В1. Тогда справедливо неравенство
Лемма 9 Начиная с некоторого номера N радиус кривизны р границы дВх равномерно (по п) ограничен сверху и равномерно отделен от 0; его первая и вторая производные по тангенциальному углу ф непрерывны и равномерно ограничены сверху.
Напомним, что Nx - число точек решетки L, попадающих в множество Вх. Поскольку решетка L имеет шаг, равный , мы можем рассматривать Nx как число целых точек в множестве s/ñBx, которое является линейным увеличением множества Вх в \¡ñ раз. В силу
лемм 4-9 мы можем применить теорему Хаксли к множеству ВЛ с линейным фактором фх.
Ограниченность константы I следует из оценки сверху
г/ ^ • « {1 + т/р .¿р..,
1{п) 5$ шр» + / --Ьт #
с ,/с ртз аф
и леммы 9. Следовательно, мы можем не учитывать ее при подсчете порядка погрешности. Тогда из теоремы 1 следует, что
- пУх = О (п46/146(1о§ п)315/146) . (15)
Остается подставить (15) в (14), и мы приходим к основной оценке главы I (13).
Глава II
В главе II исследуется проблематика общего случая, когда нет никаких ограничений на количество ячеек группировки. Основные результаты этой главы были опубликованы в работах [2], [4], и [5]. Получена
Теорема 6 Для члена справедлива оценка
32 = 0 , г £ 3, (16)
Следствие Для статистики Т^(Х) справедливо
Рг(Тх(Х) < с) = Кг(с) + О (тГ1+^) , г > 3.
В связи с практической реализацией изложенного во введении алгоритма разбиения задачи на редукцию члена ./г к упрощенному виду и последующее применение результата из теории чисел необходимо сделать два основных замечания.
Во-первых, в ситуации, изложенной в главе I, при решении первой подзадачи оказывается возможным напрямую использовать близость функций в^х*) и в^х*) (А;(х*) и Л;(ж*) соответственно). В многомерном варианте из-за наличия в /2 комбинированных подчленов (см. (7)), содержащих одновременно и суммы, и интегралы, оценка погрешности, полученная этим относительно простым способом, оказывается недостаточно хорошей. Поэтому автору пришлось использовать другой метод, основанный на сглаживающем эффекте гауссов-ской плотности ф(х), уменьшающем погрешность аппроксимации.
Во-вторых, результат Хаксли из главы I не имеет прямого обобщения на случай множеств произвольной размерности, поскольку используемая им техника существенно использует тот факт, что мы находимся на плоскости. Поэтому при последующем исследовании многомерного случая был выбран другой результат из теории чисел. В виду больших технических сложностей, связанных с необходимостью проверять все условия применимости результата из теории чисел, автор был вынужден использовать результат, который не является самым точным из имеющихся, но такой, что сложность проверки условий теоремы представлялась приемлемой (это означает, что остается место для уточнения полученных в настоящей работе оценок на основе изложенной методологии).
Именно, в работе используется предложение 9 работы Э. Главки9. Теорема 2 (Э. Главка, 1950) Пусть D — компактное выпуклое множество в ®т, имеющее начало координат своей внутренней точкой. Объем этого множества обозначим через А. Предположим, что границей множества является т — 1 -мерная поверхность класса С00, причем всюду на ней гауссова кривизна не равна ни бесконечности, ни нулю. Также предполагается, что определенное специальным образом «каноническое» отбражение единичной сферы на D взаимно-однозначно и принадлежит классу гладкости С°°. Тогда во множестве, полученном из исходного параллельным переносом на произвольный вектор и линейным расширением в М раз, количество целых точек равно
N = АМт + О (IMm~2+sir)
где величина I зависит только от свойств кривой С, но не от параметров М или А.
Как можно видеть, положив т = 2, этот результат дает оценку погрешности 0(Мз), в то время как результат Хаксли 0(Л/"+е), что лучше. Тем не менее, проверка условий теоремы Главки сложнее, чем проверка условий теоремы Хаксли. Кроме того, в теореме Хаксли константа I не задана в явном виде.
Глава II начинается кратким введением. В разделе 2.2 в общем виде излагается процедура редукции. Здесь в отличие от главы I привлекается ряд терминов и утверждений из дифференциальной геометрии, для которых даны краткие пояснения. Также вводится понятие максимального сечения множества.
Определение 1. Назовем сечение множества Вх максимальным по переменной х\ {максимальным в направлении е), если результат ортогонального проектирования этого сечения на плоскость х\ — const
9Е. Hlawka. Über integrale auf konvexen körpern I. Mh Math 54,1-36,1950.
(на плоскость, ортогональную е), рассматриваемый как множество в г — 1 -мерном пространстве, совпадает с проекцией на ту же плоскость всего множества. При этом, очевидно, проекция максимального сечения множества ВА совпадает с множеством В*, а множества В1 — с множеством В\.
Аппарат максимальных сечений нужен для того, чтобы научиться находить проекции множеств на координатные оси, необходимые для работы с членом . Развивая этот аппарат, мы показываем, что справедлива
Лемма 14 Пусть 5 = {х | Т(х) = с} — гладкое п — 1 мерное многообразие в и е — некоторое направление. Тогда максимальное сечение в направлении е можно искать из необходимого условия
ад
де
Если последнее выполнено, то достаточным условием существования (не обязательно единственного) максимального сечения является одновременное выполнение в каждой точке Р на границе сечения равенств
1. Т(х) = с,
2. д2Т(х)/де2 > О,
3. минимум Т(х) по прямой х = Р + является глобальным по Ь.
Мы можем работать с множествами Вх, поскольку справедлива Лемма 15 В пространстве Кг мпооюество
Тд(в) = с
является (г — 1) -мерным многообразием (поверхностью) класса С°°.
Без ограничения общности положим, что мы проектируем множество Вх на гиперплоскость Х\ = 0. Тогда из необходимого условия = 0 и достаточных условий получаем, что независимо от А максимальное сечение дается уравнением
Хх | зН-----Н хТ ^ 0
Р1 А-+1
Поэтому после несложных вычислений мы получаем, что проекция задается уравнением
сА(А +1) ' / Х{ \А+1 . ,/, х2 + ---+хг\л+1
Неожиданным и весьма полезным фактом, вытекающим из предыдущих рассуждений является то, что последнее уравнение можно представить в виде Т\(х') = с, где х1 = (х2,...,хг), р'2 = р2,...р'г = Рт> р'г+1 = Р1 1 • То есть проекция максимального сечения множества Вх на г — 1-мерное пространство переменных есть то же множество Вх на единицу меньшей размерности, относительно другого набора независимых переменных и вероятностей.
«Фрактальное» свойство множеств Вх используется в технической лемме 17, где необходимо оценить разность объемов проекции множества Вх и проекции множества В1. Благодаря (17) мы можем использовать готовый результат, полученный Т. Рцдом.
Технические леммы 16-19 предваряют подраздел 2.2.3, в котором описывается собственно процесс редукции. В основе этого этапа лежит Теорема 11 Выражение
Ш^ + ЩпЖх)]^ можно переписать в виде
¿.[Б^б^х*) + пр{) - в^у/пХ^х*) + пР1)} + О (тГ*) ,
где
Доказательство этой теоремы отличается от доказательства аналогичного утверждения главы I, и, как уже отмечалось выше, нам необходимо воспользоваться свойствами гладкой функции ф. По завершении этапа мы можем сформулировать основное утверждение раздела 2.2.
Теорема 7 Член ^ можно представить в следующем виде 3% = <1п-ЦМх - п*Ух) + 0(п-1).
В разделе 2.3 исследуется применимость теоремы 2 к множествам Вх. Леммы 21 и 22 подраздела 2.3.1 аналогичны рассмотренным в части I. Ключевой для последующих рассуждений является лемма 23 подраздела 2.3.2, в которой формулируются условия, которые мы должные потребовать от Вх, чтобы не только применить теорему , но и должным образом оценить константу 1(п). Доказательство этой леммы представляло особую сложность, поскольку необходимо было вернуться к оригинальной работе Э. Главки [9] и дополнить изложенные в ней рассуждения.
Лемма 23 Пусть для множеств В(п) выполнены условия теоремы 2, и, кроме того,
1. в любой точке границы множества гауссова кривизна К„(и) заключена в пределах, не зависящих от п,и, и равномерно по этим параметрам отделена от О
О < К0 ^ Кп(и) ^ Ки
2. для любого и на единичной сфере опорная функция Нп(и) множества В(п) ограничена равномерно по п и равномерно отделена от О, то есть
Нг Z Нп(и) > #о > О, |«| = 1.
3. Частные производные Нп(и) любого порядка равномерно по п ограничены сверху (на единичной сфере |u| = 1).
Тогда
\N -n*V\=c-
где константа с не зависит от п.
Подраздел 2.3.3 содержит ряд технических утверждений, проверяющих условия леммы 23 в контексте множеств Вх(п). Используется терминология и утверждения из дифференциальной геометрии и оптимального управления. Следующие две леммы доказываются во многом аналогично главе' I.
Лемма 27 Множества Вх(п) имеют в пространстве Мг однозначную гладкую параметризацию.
Лемма 28 Имеет место равномерная (по полярному углу в ) сходимость гп{в) =? г (в), а также аналогичная равномерная сходимость частных производных любого порядка.
Следствием последней леммы является то, что гауссова кривизна множеств Вх(п) сходится по п к гауссовой кривизне множества В1. Поскольку гауссова кривизна множества В1 равномерно отделена от 0, начиная с некоторого N гауссовая кривизна множеств Вх(п) также отделена от 0 равномерно по своему параметру.
В дальнейших рассуждениях используется известная из теории оптимального управления мера Хаусдорфа расстояния между множествами haus(A, В). Доказав равномерную сходимость к 0 величины haus(Bx(n), В1), мы приходим к лемме 29.
Лемма 29 Опорные функции Нп(и) многообразий Вх(п) равномерно ограничены и равномерно отделены от 0 на единичной сфере |u| = 1.
Для того чтобы удовлетворились все требования леммы 23 еще необходимо показать, что все частные производные функции Нп(и) равномерно по п ограничены сверху на единичной сфере. Это сделано в лемме 30. Окончательно получаем, что справедлива Теорема 12 Для последовательности множеств Вх(п) выполнены все требования леммы 23.
В заключение раздел 2.4 еще раз перечисляет, в какой последовательности нужно использовать все полученные результаты, чтобы получить оценку (16).
Автор выражает благодарность своему научному руководителю Ульянову В. В. за постановку задачи и постоянное внимание к работе.
Итог
Получены два основных утверждения. Для любой размерности г ^ 3 имеем оценку скорости сходимости
Рг(ТА(Х) < с) = Кг(с) + О (гГ1+Ж) .
Для случая трех ячеек группировки (г = 2) имеем
Рг(ГА(Х) < с) = К2(с) + О (п-10°/И6(1оЯгг)315/146) .
Обе оценки получены с помощью сведения исходной задачи оценки скорости сходимости к известной из теории чисел задаче приближения числа точек решетки в выпуклом множестве его нормированным объемом.
Заключение
В диссертационной работе исследуется скорость сходимости семейства степенных статистик согласия к хи-квадрат распределению. Рассматривается как случай на плоскости, так и общий случай без наложения ограничений на размерность. Подтверждена непосредственная связь задачи оценивания скорости слабой сходимости степенных статистик согласия с известной задачей из теории чисел о приближении числа точек решетки в заданном выпуклом множестве его нормированным объемом; впервые указан алгоритм, посредством которого эта связь может быть использована для получения оценок скорости сходимости. Полученные в работе оценки справедливы для произвольных степенных статистик согласия; при этом они сопоставимы, а в некоторых случаях превосходят по точности имеющиеся результаты для статистики хи-квадрат.
Результаты работы, безусловно, очерчивают перспективу возможных дальнейших исследований на пути к получению полнофункциональных статистических критериев, использующих различные статистики семейства. Одно из возможных направлений — применение более точных результатов из теории чисел для уточнения оценок скорости сходимости к предельному распределению с частичным использованием наработанной техники. Также практический интерес пред-сталяет замена простой гипотезы на сложную или альтернативную
и последующий поиск скорости сходимости в этих случаях. Наконец, важным аспектом является оценка констант, входящих в ошибку аппроксимации предельным распределением.
Список публикаций автора по теме диссертации
[1] Асылбеков Ж. А., Зубов В. Н., Ульянов В. В. Асимптотические свойства почти квадратичных форм, Теория вероятн. и ее применен, т. 55, вып. 3, с. 617-618, 2010.
[2] ЗУБОВ В. Н. Исследование скорости слабой сходимости степенных статистик согласия к хи-квадрат распределению, Обозрение прикладной и промышленной математики, т. 17, вып. 3, с. 365366, 2010.
[3] Assylbekov Zh. A., Ulyanov V. V., Zubov V. N. On the approximation of goodness-of-fit statistics for discrete three-dimensional data, Technical Report of the Hiroshima Statistical Research Group, 2008, no. 08-09, 26 p. http://www.math.sci.hiroshimarU.ac.jp/stat/TR/TR08/TR08-09.PDF
[4] ulyanov V. v., Zubov V. N. Refinement on the convergence of one family of goodness-of-fit statistics to chi-squared distribution. Hiroshima Mathematical Journal, 39, 1, 133-161, 2009.
[5] Ulyanov V. V., Zubov V. N. On the order of chi-squared approximation for the power divergence family of statistics, Preprint of SFB701, University of Bielefeld, 2010, no. 10-008, 48 p, www.mathematik.uni-bielefeld.de/sfb701/preprints/sfb08121.pdf
[6] zubov V. N. On the order of convergence of power-divergence goodness-of-fit statistics to chi-squared distribution, Abstracts of the 28th European Meeting of Statisticians, p. 364, University of Piraeus, Greece, August 17-22, 2010.
Напечатано о готового оригинал-макета
Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от01.12.99 г. Подписано к печати 23.09.2010 г. Формат 60x90 1/16. Усл.печ.л. 1,0. Тираж 70 экз. Заказ 413. Тел. 939-3890. Тел./факс 939-3891 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 627 к.
На протяжении многих десятилетий критерии согласия, предназначенные для проверки соответствия имеющихся выборочных данных заданному распределению, не теряют своей значимости в математической статистике. Выдающиеся результаты, полученные в этом направлении, связаны с именами А. Н. Колмогорова, Н. В. Смирнова, К. Пирсона. Один из подходов состоит в следующем: данные выборки группируются на основе попадания в непересекающиеся подмножества (ячейки) области возможных значений элементов выборки, с тем чтобы затем сопоставить частоты попадания в эти подмножества с теоретическими вероятностями, которые могут быть вычислены. При этом проверка соответствия выборки исходному распределению заменяется проверкой соответствия сгруппированных данных полиномиальному распределению. Несомненное достоинство такого подхода состоит в его универсальности.
Классический критерий согласия, предложенный К. Пирсоном и основанный на вышеупомянутой методологии, использует так называемую статистику %2 (см. [26]). Эта статистика имеет простой вид и удобна в применении. Вместе с тем, для получения хорошей точности с помощью этого критерия необходимо иметь достаточно большой объем входных данных (в сумме и по отдельности в каждой ячейке). Кроме того, на практике чаще всего приходится заменять распределение статистики асимптотическим. Точность этой аппроксимации зависит от числа ячеек, а величина ошибки чаще всего неизвестна. Непонятно и то, является ли статистика х2 оптимальной на малых объемах выборки.
В связи с этим многие ученые исследовали другие подходы к построению критериев согласия с целью найти наиболее эффективный в том или ином статистическом смысле. Здесь можно упомянуть работы С. Е. Фейнберга [23], X. О. Ланкастера [42], Д. С. Мура [43], Г. С. Вотсона [53]. Неплохой сводный анализ различных альтернатив приведен в работе С. Хорна [34]. Особое место в этих исследованиях принадлежит работам Н. Крисси [20] и Т. Рида [47]. Эти авторы ввели в употребление и произвели первичный анализ семейства степенных статистик согласия, предназначенного для построения критериев согласия по сгруппированным данным с использованием степенных мер расхождения между эмпирическими частотами и теоретическими вероятностями. Семейство параметризовано вещественным параметром А, при этом как собственно статистика х2 > так и часто используемые статистики являются частными случаями.
Хотя при фиксированной процедуре группировки и неизменном количестве ячеек все статистики семейства асимптотически эквивалентны (имеют одинаковое предельное хи-квадрат распределение), между ними можно провести ряд разграничений на конечных объемах выборки. Например, в работе [20] вычисляются асимптотические разложения моментов статистик семейства при справедливой основной гипотезе. Оказывается, что моменты наиболее близки к моментам хи-квадрат распределения при А = 1 и А = 2/3. Значение 1 ожидаемо, поскольку соответствует хи-квадрат критерию, однако второе значение появляется достаточно неожиданно. Также, в статье [48] показывается, что относительно симметричной основной гипотезы (равновероятное попадание в любую из ячеек) и определенным образом заданных альтернативных гипотез оптимальность в терминах мощности на малых объемах выборки достигается при Л 6 [1/3,2/3], то есть хи-квадрат критерий в этой постановке не является оптимальным. В статьях [20], [48], а также в книге [21] статистика, соответствующая Л = 2/3, выделяется отдельно и рекомендуется к применению на основании проведенного в этих работах сравнительного анализа с другими членами семейства.
Таким образом, в определенных ситуациях вопрос использования альтернативных представителей семейства может быть решен положительно. При этом для практической реализации альтернативных критериев (например, при вычислении критических значений и доверительных интервалов) необходимо четко понимать, насколько хороню статистики семейства аппроксимируются предельным хи-квадрат распределением, и как это соотносится с точностью аппроксимации для статистики х2 ■ В связи с этим актуальной является задача исследования степенных статистик согласия на предмет скорости их [слабой] сходимости к хи-квадрат распределению (при выполнении основной гипотезы и фиксированном количестве полиномиальных ячеек).
Из работ [25], [52] известны оценки скорости сходимости в частном случае статистики х2 j также в работах [47], [49] (с использованием [52]) получены различные асимптотические разложения функции распределения произвольной статистики из семейства степенных статистик согласия. Тем не менее, ни одна из этих работ не позволяет построить оценки скорости сходимости произвольных степенных статистик согласия.
В настоящей работе для всех статистик семейства вне зависимости от числа ячеек группировки впервые получены оценки скорости слабой сходимости к хи-квадрат распределению, имеющие степенной порядок по объему выборки п . По порядку эти оценки соответствуют наилучшим из имеющихся оценок для статистики хи-квадрат (кроме результатов работ [18], [24] и [25], накладывающих ограничения на число ячеек группировки). Дополнительно для случая трех ячеек группировки получены более точные оценки скорости сходимости, превосходящие ранее известные оценки для статистики хи-квадрат. В процессе работы разработан новый метод построения оценок скорости сходимости степенных статистик согласия, основанный на сведении исходной задачи к задаче о приближении числа точек решетки в заданном выпуклом множестве его нормированным объемом (в дальнейшем обобщенная задача Гаусса).
С методологической точки зрения необходимо отметить, что хотя тема исследования происходит из проблем математической статистики, в процессе решения задачи среди прочих были использованы методы теории оптимального управления, тензорного исчисления, а также дифференциальной геометрии. В процессе научного поиска автору было необходимо так или иначе касаться и других областей математики.
Работа состоит из введения, двух глав, заключения и приложения. Во введении в более технических терминах обсуждается постановка задачи, проводится краткий анализ имеющихся результатов, формулируются основные идеи и методы доказательства. В главе 1 рассматривается частный случай, когда число ячеек группировки равно трем. В этом контексте мы получаем верхнюю оценку скорости сходимости к предельному распределению для произвольных статистик семейства, которая близка к нижней оценке, построенной в [28], [29] и [30]. Кроме того, отрабатывается методология (в частности связь с теорией чисел), которая затем используется в общем случае. В главе 2 ограничение на количество ячеек группировки снимается. Мы получаем новые оценки скорости сходимости, справедливые в самом общем случае. Наконец в приложение выведены некоторые вспомогательные результаты технического характера.
Работа докладывалась на научно-исследовательском семинаре кафедры математической статистики факультета ВМиК МГУ (20 марта 2009 г.), на Российско-японском симпозиуме [Математического Института им В. А. Стеклова РАН] "Стохастический анализ сложных статистических моделей"(15-17 сентября 2009 г.), а также принята к докладу на 28-й Конференции Европейских Статистиков (17-22 августа 2010 г., Университет Пирея. Греция). Основные результаты были опубликованы в журналах «Теория вероятностей и ее применения», «Обозрение прикладной и промышленной математики» и в Hiroshima Mathematical Journal.
Автор выражает благодарность своему научному руководителю доктору физ.-мат. наук и профессору МГУ Ульянову Владимиру Васильевичу. Его оптимизм, редкая интуиция в науке и в жизни, а также прекрасное отношение к студентам вызывают интерес и искреннее уважение. Я хотел бы поблагодарить его за дельные советы и в особенности за его настойчивость, без которой эта диссертация, возможно, никогда бы не была написана.
Я хотел бы также поблагодарить своих друзей и одногруппников с кафедры Математической Статистики ВМиК МГУ за совместно проведенные годы учебы в Московском Университете. Без них я бы пропустил немало приятных минут общения в кругу умных, творчески настроенных сверстников, многим из которых суждено добиться значительных высот в жизни. В особенности я хотел бы выразить благодарность Семену Гавриленко за мою первую написанную совместно с ним научную работу. Я думаю, что этот первый опыт был исключительно важен для нас обоих.
Я посвящаю эту работу моим родителям и брату Денису, чья поддержка вот уже на протяжении многих лет придает мне уверенности в своих силах.
Список условных обозначений
1.Х - произвольный вектор.
2. (-)т - транспонирование вектора.
3. Md - Евклидово пространство размерности d.
4. Bi - сечение множества В по координате с номером I.
5. [a;J - целая часть х.
6. - определитель матрицы А.
7. А- обратная матрица к матрице А.
8. Si(x) = х - [х\ - I
9. Ст - класс гладкости функций, имеющих непрерывные производные вплоть до порядка т.
10. С°° - класс функций, имеющих производные всех порядков.
11. д-^гс) производная функции / по направлению е.
12. haus(yi, В) - расстояние между множествами А и В в метрике Хаусдорфа.
13. В\(с) (или Вх) -множество {Та (ж) < с}
14. Bi - проекция множества Вх на ось х = 0.
15. sign(x) — <
1 x > О О х = О -1 х < 0. h(xb . .,xi-i,Xi(x*),xi+i,. .,xr).
Оглавление
Введение
1 Трехмерный случай
1.1 Основной результат и структура доказательства.
1.2 Редукция члена J2.
1.3 Применение теоремы Хаксли к последовательности множеств Вх(п)
1.4 Получение итоговой формулировки результата.
2 Общий случай
2.1 Формулировка результата и структура доказательства
2.2 Редукция члена J2.
2.2.1 Некоторые вспомогательные факты из дифференциальной геометрии.
2.2.2 Предварительные леммы
2.2.3 Преобразование исходного вида члена J2 к упрощенному виду.
2.3 Применимость теоремы Э. Главки к последовательности множеств Вх(п)
2.3.1 Выпуклость Вх
2.3.2 Достаточные условия для применимости теоремы
Э. Главки.
2.3.3 Выполнение достаточных условий для множеств Вх{п)
2.4 Получение итоговой формулировки результата.
Мы рассматриваем вектор У = (Yi,., Yk)T, имеющий полиномиальное распределение 7г), т. е. iK'/ЧО. nj = о, 1,.,п 0' = 1,.д-)
Pr(Yi = щ,., Yk = пк) = < О и Ej=i «j = иначе где 7г = (-7Г1,., TXk)1, 7Tj > 0, i = 1 • Мы предполагаем, что число ячеек группировки к фиксировано. Далее будем считать выполненной основную гипотезу Hq: 7г = р. Если изначальное распределение было отлично от полиномиального, вектор р состоит из теоретических вероятностей попадания случайной величины, имеющей исходное распределение, в соответствующие ячейки.
Основным объектом изучения в настоящей работе является построенное по вышеуказанному распределению семейство степенных статистик согласия tx(Y) =
22-У jmJ l)
Замечание 1. При Л = 0,-1 эту запись следует понимать как результат предельного перехода.
Замечание 2. Эти статистики были впервые введены в работах [20] и [47] и обозначались 2nIx(Y). Полагая А = 1, А = — \ и А = 0 получаем статистику х2 > статистику Фримана-Тьюки и логарифмическую статистику отношения правдоподобия соответственно.
Предполагая выполненной основную гипотезу, рассмотрим преобразование
X,- = (Yj - nPj)/yfii, j = 1,., к, г = к - 1, X = (Хг, . ,ХГ)Т (2)
Здесь вектор X — это вектор, компоненты которого сосредоточены на решетке вида
L = {х = (xi,.,xry ] X = (~7=)(т - Tip), p=(pi,. ,рг)г, т - (щ,. .,пг)Т}, v п где rij — неотрицательные целые числа. Кроме того, поскольку компоненты вектора Y в сумме всегда равны п, мы можем положить Xk = —{Xi + ■■■ + Xr). Величина г, таким образом, определяет размерность нашей задачи.
Замечание 3. Простой подстановкой легко проверить, что статистика t\(Y) может быть представлена как функция от X в виде к / / \ Л+1 rrw Ч 2П
Тх{х) =
А(А + 1)
- 1
3) а затем, посредством разложения по Тейлору, преобразована к виду n fx? (А — 1)(А — 2)xf / з\\ i2rfn +°И)- «
Хорошо известен тот факт, что распределение всех статистик семейства t\(Y) сходится к распределению хи-квадрат с к — 1 степенями свободы (см., например, работу [20], с. 443). Однако если мы захотим использовать асимптотические методы статистики, например, для расчета доверительных интервалов, нам необходимо будет знать меру близости исходного и предельного распределений. В связи с этим большой интерес представляет проблема оценки скорости сходимости членов семейства к предельному распределению хи-квадрат.
Функцию распределения статистик семейства Р(Т\(Х) < с) можно записать в виде вероятности попадания случайного вектора X, имеющего решетчатое распределение, в некоторое множество Вх{с).
Одним из важных источников по оценке такого рода вероятностей является работа Дж. Ярнольда [52]. Для того чтобы уяснить суть изложенных в ней результатов необходимо рассмотреть обобщение выпуклых множеств (с достаточно гладкой границей), которые в специальной литературе получили название обобщенных выпуклых множеств. Мы назовем множество В С Rr обобщенным выпуклым, если для V/ = 1 , г оно представимо в виде:
В = {х = (жь ., xr)T: Ai{x*) < xi < 9i{x*) и х* = (xi,., xii,xi+i,xr)T 6 Bi}, (5) где Bi - некоторое подмножество Mr1 и Ai(x*),9i(x*) представляют собой непрерывные функции на Rr1. Другими словами, сечения обобщенного выпуклого множества, параллельные каждой из наличествующих координатных осей, представляют собой интервалы.
В своей работе Ярнольд рассматривал многомерный случайный вектор с решетчатым распределением, вероятность попадания которого в некоторое борелевское множество необходимо оценить. Этот случайный вектор центрируется и нормируется, после чего соответсвующая вероятность оценивается с помощью многомерных разложений Эдж-ворта. В первом приближении они логичным образом дают аппроксимацию многомерным центрированным нормальным распределением. Предположим, что объектом изучения является вероятность попадания нормированного и центрированного указанным выше образом вектора X в обобщенное выпуклое множество В. Предполагается, что этот вектор имеет достаточное количество абсолютных моментов. Для такой вероятности Дж. Ярнольд в своей работе [52] получил асимптотическое разложение, которое в работе [49] было преобразовано к виду
Рг(Х е В) = J1 + J2 + 0{n~l). (6)
Члены этого разложения имеют следующий вид
J\ = J jl + -^/ii(aO + i/i2(®)j dx, где (7)
Ik -j /с ✓ >
2/ о X v л /
9) е •-Е
Шх
Ib,
Si(y/nxi + пр1)ф(х)]в^\ dxi,--- , dxi-\
10)
Lj — {x: Xj — {—={rij — npj)): rij и pj определены как и раньше}; V п
И)
Si(x) = х — L^cJ — L^J ~ целая часть х\ (12) ф(х) =-J-г ехр (-\xTtt~lx) . (13)
У J (2тг)5|П|1 V 2 J к J
Замечание 4. Матрица Q есть ковариационная матрица вектора X. Учитывая, что этот вектор получен из полиномиального вектора Y, нетрудно показать, что Г2 = (5j pi — PiPj) G R^-1)*^-1). Определитель этой матрицы равен Pi ■
Замечание 5. Если распределение абсолютно непрерывно, то известно, что для него выполнено так называемое условие Крамера: для характеристической функции h(t) имеем lim sup^.,^ \h(t)\ < 1. В работе [46] показывается, что для распределений, удовлетворяющих условию Крамера и имеющих достаточное количество моментов, справедливо разложение, аналогичное (6), но без члена J2 - Таким образом, величину J\ можно интуитивно понимать как разложение Эджворта до порядка 0(~) для непрерывной части распределения, в то время как величина J2 появляется как дополнительный корректирующий член для решетчатых распределений.
Определим Вх как {х \ Т\(х) < с}. Наша задача состоит в оценке аппроксимации функции распределения статистики Т\(Х), и, следовательно, в оценке вероятности попадания случайного вектора X в множество Вх. Из теоремы 2 работы [52], которую можно применить к множеству Вх, следует, что для члена J2 имеет место первоначальная оценка вида J2 = О . Однако для получения окончательных оценок необходимо также оценить J\ .
Вначале был получен ряд результатов для отдельных значений Л. Сам Ярнольд в той же работе [52] исследовал разложение (6) для наиболее известной из степенных статистик согласия — статистики хи-квадрат. Нетрудно показать, что множество В1 будет представлять собой эллипсоид, который является частным случаем ограниченного обобщенного выпуклого множества. Дж. Ярнольд сумел упростить сумму слагаемых J\ и J2 в этом простом случае и привел разложение (6) к виду
Pr(X G В1) = Кг{с)+ (N1 - n^V1) e-i/{{2im)r + (14) где К г (с) — функция распределения хи-квадрат с г степенями свободы, TV1 — число точек решетки L в множестве В1, V1 — объем множества В1. Опираясь на результат Эссеена для эллипсоидов [22], он получил оценку для второго слагаемого (14) вида 0{п~.
Замечание 6. Из сопоставления работ [52] и [24] вытекает, что для г ^ 5 (в случае статистики ) оценка второго члена может быть замена на О .
Позднее японские ученые М. Шиотани и Я. Фуджикоши в работе [49] показали, что в случаях Л = О, Л = — | имеет место представление аналогичное простейшему случаю статистики х2
Л = Кг{с) + 0(п~1) (15)
J2 = (Nx — rfiVx) е-у((21гп)г1[к.=1р^ (16)
Vх = Vl + О . (17)
Эти результаты были дословно перенесены Т. Ридом на случай произвольного Л 6 К. Из теоремы 3.1 его работы [47] вытекает, в частности, что функцию распределения статистики Т\ можно разложить в следующем виде
Рг (ТЛ < с) = Рг (хг < с) + J2 + О (тГ1) . (18)
Этим задача оценки погрешности аппроксимации предельным распределением сводится к оценке порядка малости члена ■
Замечание 7. Работа [49] стала широко известной после публикации в Hiroshima Mathematical Journal в 1984 г. Однако она была доступна еще в 1980 г. в виде технического отчета Статистической исследовательской группы университета г. Хиросима. Поэтому неудивительно, что обобщение результатов японских ученых на случай произвольной статистики семейства под авторством Т. Рида было опубликовано в том же 1984 г., но чуть раньше результатов М. Шиотани и Я. Фуджикоши.
Перейдем к основным идеям настоящей работы. Для того чтобы оценить скорость сходимости к хи-квадрат распределению, автору нужно было провести исследование в двух направлениях:
1. Во-первых, проверить, можно ли получить содержательную оценку остаточного члена в (16) (второе слагаемое в (16) не было оценено в предыдущих работах).
2. При условии, что задача оценки указанного остаточного члена выполнена, попытаться найти подходы к оценке главной части члена J2, доступной в явном виде благодаря работам [49] и [47], посвященным построению асимптотических разложений для функции распределения степенных статистик согласия.
Заметим, что в числителе главной части члена J2 мы имеем разность числа точек решетки, попападающих в множество Вх , и нормированного объема этого множества. С помощью преобразования масштаба задача оценки такой разности сводится к оценке разности числа точек с целочисленными координатами, попадающих в множество, полученное линейным расширением из исходного, и объема этого расширенного множества. В дальнейшем будем именовать эту задачу обобщенной задачей Гаусса (обычно задачей Гаусса называют случай, когда множество представляет собой круг на плоскости).
Хотя начало исследованиям задачи Гаусса было положено еще в XIX веке, в последние три десятилетия появилось много новых и порой неожиданных результатов. Они связаны, среди прочих, с именами таких ученых, как И. М. Виноградов [4], Д. А. Попов [13], И. Крятцель, В. Новак ([39], [40], [41], [45]), А. Ивич [27], а также В. Бенткус [18], Ф. Гётце ([24]) и М. Хаксли ([35], [36], [37], [38]). Современные формулировки оперируют вместо круга с выпуклыми множествами произвольной размерности, полученными линейным расширением из некоторого фиксированного множества. Это делается для того, чтобы можно было перейти от точек с целочисленными координатами (далее целых точек), попадающих в множество, к точкам на разнообразных решетках. Например, если решетка дана формулой (11), то мы можем рассматривать приближение числа точек этой рещетки, попадающих в множество В, нормированной площадью В. При этом мы можем использовать результаты исследования обобщенной задачи Гаусса для множества, полученного из В линейным расширением в л/п раз.
За более подробным изложением отдельных последних результатов решения обобщенной проблемы Гаусса автор отсылает читателя к вышеупомянутым работам, а также к работе [44]. Подробный сводный обзор приведен в [27]. Мы лее отстановимся более подробно лишь на двух результатах, существенно использованных в работе. Как уже упоминалось в предисловии, работа шла вначале над случаем, когда исследуемые статистики имеют лишь три слагаемых (что соответствует трем ячейкам группировки). Мы пытались отработать технику, которая могла бы быть использована при исследовании случая произвольной размерности.
За основу был взят относительно недавний и весьма точный результат Хаксли от 1993 г. Мы приводим здесь его полную формулировку.
Теорема 1. (Хаксли, 1993) Пусть В - выпуклая евклидова плоская область площади А, ограниченная простой замкнутой кривой С, состоящей из конечного числа частей Сг, каждая из которых три раза непрерывно-дифференцируема в следующем смысле: радиус кривизны р непрерывен относительно угла смежности (тангенциального угла) ф и не равен нулю на каждой части С{, а также непрерывно-дифференцируем относительно угла смеэюности. Пусть число М достаточно велико, и пусть MB обозначает множество, образованное увеличением множества В линейно в М раз. Тогда для любого изометрического влооюения множества MB в евклидову плоскость число целых точек (т, п) в MB есть
AM2 + О (lMm'T\log М)315/146) , (19) где I - число, зависящее от кривой С, но не от М и не от вложения множества MB.
Интерпретация этой теоремы, равно как и других утверждений такого рода, достаточно проста. Если выпуклое множество обладает достаточно гладкой регулярной границей, то количество целых точек, попадающих в его линейное расширение, может быть с хорошей степенью точности приближено площадью этого линейного расширения. Дополнительно теорема утверждает следующее.
Теорема. (Хаксли, 1993, дополнение) Если помимо вышеуказанного части Ci четырежды непрерывно дифференцируемы в том смысле, что р дважды непрерывно дифференцируем по отношению к углу смежности (тангенциальному углу) ф, то тогда мы можем взять 1 /Л ч 24-69/146 ^ (20)
1 + р2 + {dp/dif))2 J
69/146 dp йф при условии, что М достаточно велико для выполнения неравенств Mn(logM)387/8
• 1 1
М ^ - and —тт Р РЫ 53 dp дф по отдельности на каждом участке Ci.
Доказательство. Смотри [37, теоремы 5 и 6, стр. 294-295 ]. □
Это дополнение к теореме существенно для последующих рассуждений, поскольку оно позволяет нам оценить константу I. Особая сложность рассматриваемой в диссертации задачи состоит в том, что в действительности множества Вх и константа I зависят от п. В связи с этим получение итогового порядка ошибки по п возможно только после получения оценки сверху на I.
Необходимо отметить, что результат Хаксли не имеет прямого обобщения на случай множеств произвольной размерности, поскольку используемая им техника существенно использует тот факт, что мы находимся на плоскости. Поэтому при последующем исследовании многомерного случая был выбран другой результат из теории чисел. В виду больших технических сложностей, связанных с необходимостью проверять все условия применимости результата из теории чисел, автор был вынужден использовать результат, который не является самым точным из имеющихся, но такой, что сложность проверки условий теоремы представлялась приемлемой (это означает, что остается место для уточнения полученных в настоящей работе оценок на основе изложенной методологии).
Именно, в работе используется предложение 9 работы [32].
Теорема 2 (Е. Hlawka, 1950). Пусть D — компактное выпуклое множество в Шт, имеющее начало координат своей внутренней точкой. Объем этого множества обозначим через А. Предположим, что границей множества является т—1 -мерная поверхность класса С°°, причем всюду на ней гауссова кривизна не равна ни бесконечности, ни пулю. Также предполагается, что определенное специальным образом «каноническое» отображение единичной сферы на D взаимно-однозначно и принадлеэ/сит классу гладкости С°° . Тогда во множестве, полученном из исходного параллельным переносом на произвольный вектор и линейным расширением в М раз, количество целых точек равно
N = АМт + О где величина I зависит только от свойств кривой С, но не от параметров М или А.
Доказательство, см. [32], с.25-28. □
Как можно видеть, положив т = 2, этот результат дает оценку погрешности О(Мз), в то время как результат Хаксли 0(М^+е), что лучше. Также понятно, что проверка условий теоремы 2 сложнее, чем проверка условий теоремы 1. В частности, в теореме 2 константа / не задана в явном виде.
В заключение введения остановимся на идее и методах доказательства. Отметим, что исследование случая трех ячеек группировки и общего случая объединено общей концепцией. Вначале мы оцениваем остаточный член в (16), используя близость множества Вх = {х \ Т\(х) < с} и эллипсоида В1, соответствующего статистике хи-квадрат. Это означает, что, отталкиваясь от формулы (10), мы можем заменить функции 9i(x*) и Xi(x*) на функции §i(x*) и Лi(x*), соответствующие границе множества В1. Поскольку ф(х) на границе В1 есть константа, мы можем упростить подынтегральное выражение в (10) с некоторой погрешностью, которую можно подсчитать. Оказывается, что величина, остающаяся ведущим членом после этих преобразований, настолько похожа на соответствующий член из разложения для эллипсоидов, что к ней применимы рассуждения работы Ярнольда [52] (стр. 1571-1572), позволяющие свести оценку J2 к оценке величины
Nx - nWx) е-5/ ((2ттп)г J]*=i
На втором этапе мы рассматриваем линейное расширение множества Вх с фактором у/п, соответствующим преобразованию координат (2). Мы проверяем условия применимости соответствующей теоремы из теории чисел и получаем искомый результат.
Однако практическая реализация изложенного алгоритма для частного и общего случаев существенно раличается. Это связано не в последнюю очередь с тем, что используются разные вспомогательные результаты: в многомерном случае вместо радиуса кривизны приходится оперировать с Гауссовой кривизной; при этом возникает необходимость в использовании не только методов дифференциальной геометрии, но и оптимального управления, тензорного исчисления (эти методы изложены в работах [5], [11], [14], [19]). Помимо этого в случае трех ячеек группировки оказывается возможным напрямую использовать близость функций 9i(x*) и Oi{x*) (\i{x*) и Л/(ж*) соответственно). Однако в общем случае из-за наличия в J<i комбинированных подчле-нов, содержащих одновременно и суммы, и интегралы, оценка погрешности, полученная этим относительно простым способом, оказывается недостаточно хорошей. Поэтому автору пришлось использовать другой метод, основанный на сглаживающем эффекте гауссовской плотности ф(х), уменьшающем погрешность аппроксимации.
Результаты работы, безусловно, очерчивают перспективу возможных дальнейших исследований на пути к получению полнофункциональных статистических критериев, использующих различные статистики семейства. Одно из возможных направлений — применение более точных результатов из теории чисел для уточнения оценок скорости сходимости к предельному распределению с частичным использованием наработанной техники. Также можно вместо основной гипотезы рассмотреть альтернативную и искать скорость сходимости к предельному распределению в этом случае. Наконец, важным аспектом является оценка констант, входящих в ошибку аппроксимации предельным распределением.
Заключение
В работе диссертанта исследуется скорость сходимости семейства степенных статистик согласия к хи-квадрат распределению. Рассматривается как случай на плоскости, так и общий случай без наложения ограничений на размерность. Подтверждена непосредственная связь задачи оценивания скорости слабой сходимости степенных статистик согласия с известной задачей из теории чисел, впервые указан алгоритм, посредством которого эта связь может быть использована для получения оценок скорости сходимости. Полученные в работе оценки справедливы для произвольных степенных статистик согласия; при этом они сопоставимы, а в некоторых случаях превосходят по точности имеющиеся результаты для хи-квадрат статистики.
1. Асылбеков Ж. А., Зубов В. Н., Ульянов В. В. Асимптотические свойства почти квадратичных форм, Теория вероятн. и ее применен, т. 55, вып. 3, 2010.
2. А. Бикялис. Асимптотические разложения для распределений сумм независимых одинаково распределенных решетчатых случайных векторов. Теория вероятностей и ее применения. 14, 3, 499-507, 1969.
3. М. М. вайнберг, в. А. Треногин. Теория ветвления решений нелинейных уравнений. Москва: изд. Наука, 1969.
4. И. м. виноградов. к вопросу о числе целых точек в шаре. Известия Академии Наук СССР, 27, 957-968, 1963.
5. А. Н. Колмогоров, С. В. Фомин. Элементы теории функций и функционального анализа. Москва: изд. Наука, 1976.
6. Мищенко А. С., Фоменко А. Т. Курс дифференциальной геометрии и топологии. Изд. Факториал Пресс, 2000.
7. ПЕТРОВ В. В. Суммы независимых случайных величии. Изд. Наука, 1972.
8. Д. А. Попов. О числе целых точек в трехмерных телах вращения. Известия РАН, 64, 2, 121-140, 2000.14. тайманов И. А. Лекции по дифференциальной геометрии. м.Ижевск: НИЦ "Регулярная и хаотическая динамика"; Институт компьютерных исследований, 2006.
9. V. Bentkus, F. Gotze. On the lattice point problem for ellipsoids. Acta Arithmetica. 80, 101—125, 1997.
10. T. bonnesen, W. Fenciiel. Theorie der konvexen korper. Springer Verlag, Berlin. 1934.
11. N. A. C. CRESSIE, T. R. C. Read. Multinomial goodness-of-fit tests, Journal of the Royal Statistical Society, Series B, 46, No. 3, 440 -464, 1984.
12. N. A. c. cressie, T. R. c. Read. Goodness-of-fit Statistics for Discrete Multivariate Data. Springer, New York, 1988.
13. C. G. ESSEEN. Fourier analysis of distribution functions. Acta Mathematica, 77, 1-125, 1945.
14. S. E. FlENBERG. The use of Chi-squared statistics for categorical data problems. Royal Statistical Society B, 41, 54-64, 1979.
15. F. Gotze. Lattice point problems and values of quadratic forms. Inventiones Mathematical, 157, 195 226, 2004.
16. F. gotze, V. V. Ulyanov. On approximations for a distribution of a sum of lattice random vectors and its statistical applications. Hiroshima Statistical Research Group. Technical Report, 2003, 10 pp.
17. P. E. Greenwood, M. S. Nikulin. A Guide to Chi-squared Testing. Wiley, New York, 1996.
18. A. I vie, E. KrAtzel, M. Kuhleitner, and W. G. Nowak. Lattice points in large regions and related arithmetic functions: recent development in a very classic topic, Conference on Elementary and Analytic Number Theory, 89-128, 2006.
19. J. L. HAFNER. New omega results for two classical lattice point problems, Invent. Math. 63, 181-186, 1981.
20. G. h. hardy. On Dirichlet's divisor problem, Proceedings of London Mathematical Society, 2, 15, 1-25, 1916.
21. G. h. hardy On the expression of a number as the sum of two squares, Quart. J. Math. 46, 263 283, 1915.
22. J. H. HEINBOCKEL. Introduction to Tensor Calculus and Continuum Mechanics. Trafford Publishing, 1996.
23. E. HLAWKA. Uber integrale auf konvexen korpern I. Mh Math 54, 1-36, 1950.
24. E. hlawka. Uber integrale auf konvexen korpern II. Mh Math 54, 81-99, 1950.
25. S. HORN. Goodness-of-Fit tests for discrete data: a review and an application to a health impairment scale. Biometrics, 33, 1, pp. 237247, 1977.
26. M. N. HUXLEY. Exponential sums and lattice points, Proceedings of London Mathematical Society, 3, 60, 471-502, 1990.
27. M.N. HUXLEY. Exponential sums and the Riemann zeta function V, Proceedings of London Mathematical Society, 3, 90, 1-41, 2005.
28. M.N. Huxley. Exponential sums and lattice points II, Proceedings of London Mathematical Society, 3, 66, 279-301, 1993.
29. M. N. huxley. Exponential sums and lattice points III, Proceedings of London Mathematical Society, 3, 87, 591-609, 2003.
30. E. Kratzel, W. nowak. Effektive Abschatzungen fur den Gitterrest gewisser ebener und dreidimensionaler Bereiche, Monatshefte fur Mathematik, 146, 21-35, 2005.
31. E. kratzel, W. nowak. Lattice points in large convex bodies, Monatshefte fur Mathematik, 112, 61-72, 1991.
32. E. KrAtzel, W. NOWAK. Lattice points in large convex bodies II, Acta Arithmetica, 62, 285-295, 1992.
33. H. O. Lancaster. The Chi-squared Distribution. New York: Wiley. 1969.
34. D. S. moore. Recent developments in chi-square tests for goodness-of-fit. Mimeograph series 459, Department of Statistics, Purdue University. 1976.
35. W. Muller. Lattice points in large convex bodies. McGraw-Hill Math, 128, 315-330, 1999.
36. W. nowak. A mean-square bound for the lattice discrepancy of bodies of rotation with flat points on the boundary. Acta Arithmetica, 127, 285-299, 2007.
37. R. Rao. Some problems in probability theory. Ph.D. disseration, Calcutta University. Abstract in Bulletin of American Mathematical Society, 67, 359-361, 1961.
38. T. R. C. Read. Closer asymptotic approximations for the distributions of the power divergence goodness-of-fit statistics., The Annals of Mathematical Statistics, 36, Part A, 59-69, 1984.
39. T. R. C. read. Small sample comparisons for the power divergence goodness-of-fit statistics, Journal of the American Statistical Association, 79, 388, pp. 929-935, 1984.
40. M. slotani and Y. fujikoshi. Asymptotic approximations for the distributions of multinomial goodness-of-fit statistics, Hiroshima
41. V. V. Ulyanov, V. n. Zubov. Refinement on the convergence of one family of goodness-of-fit statistics to chi-squared distribution. Hiroshima Mathematical Journal, 39, 1, 133-161, 2009.
42. J. K. YARNOLD. Asymptotic approximations for the probability that a sum of lattice random vectors lies in a convex set, The Annals of Mathematical Statistics, 43, No. 5, 1566-1580, 1972.