Некоторые вопросы уточнения предельных распределений статистик критериев нормального типа ω- и χ- для выборок умеренно большой длины тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Миронова, Ирина Юрьевна
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2003
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
На правах рукописи
Миронова Ирина Юрьевна
НЕКОТОРЫЕ ВОПРОСЫ УТОЧНЕНИЯ ПРЕДЕЛЬНЫХ РАСПРЕДЕЛЕНИЙ СТАТИСТИК КРИТЕРИЕВ НОРМАЛЬНОГО ТИПА со И ^ДЛЯ ВЫБОРОК УМЕРЕННО БОЛЬШОЙ ДЛИНЫ
Специальность 01.01.05 - теория вероятностей и математическая
статистика
(физико-математические науки)
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
МОСКВА 2003
Диссертация выполнена на факультете вычислительной математики I кибернетики МГУ им. М.В.Ломоносова и в лаборатории дискретно! математики Московского государственного института электроники I математики (технического университета).
Научный руководитель - доктор физико-математических наук,
профессор Чибисов В.М. Официальные оппоненты - доктор физико-математических наук
А.Ф.Ронжин - кандидат физико-математических наук, доцент Б.В.Гладков.
ведущая организация - Математический институт им. В.А.Стекловс
РАН.
Защита диссертации состоится ""/¡р" /^/Л^^^ООЗг. в ч. на заседании диссертационного совета К 212.133.01 при Московском государственном институте электроники и математики (технический университет) по адресу:г.Москва, Б.Трехсвятительский пер., д.1- 3/12, стр.8, МГИЭМ, факультет прикладной математики, ауд.411.
С диссертацией можно ознакомиться в библиотеке Московского государственного института электроники и математики.
Автореферат разослан " " 2003г.
Ученый секретарь диссертационного совета K212.133.01 кандидат физико-математических нау доцент <с: Е.Р.Хакимуллин
Общая характеристика работы
1. Актуальность темы.
Задача проверки статистической гипотезы о принадлежности функции распределения наблюдаемой совокупности случайных величин некоторому семейству распределений FC^.o"4) занимает одно из важных мест в теории статистических критериев. Во многих случаях при этом Q - параметр семейства неизвестен, полностью или частично.
В статистической практике при решении указанной задачи экспериментатор часто не имеет возможность получать выборку очень большого объема н_ и использовать предельные ( при ц —оо ) распределения статистик известных классических критериев без учета степени приближения их к пределу. Учет этой степени приближения представляет собой, как правило, сложную задачу и решение её не всегда при практически заданных может удовлетворять экспериментатора.
В ряде случаев оказывается возможным повторить эксперимент несколько раз ( W раз), и при этом число экспериментов может быть большим ( м оо ). Но при этом нестационарные изменяющиеся условия проведения эксперимента таковы, что при каждом последующем эксперименте может меняться параметр 0 , также полностью, или частично.
Таким образом, встает проблема проверки гипотезы о типе распределения по выборкам умеренно большой длины с изменяющимися и неизвестными параметрами.
В этой общей проблеме рассматриваются два известных классических критерия типа омега-квадрат и типа хи-квадрат. При изучении свойств этих
г.
критериев, как, впрочем, и других, не удается получать точные аналитические выражения исследуемых объектов. Поэтому для изучения статистик критериев применяются асимптотические методы, позволяющие получить окончательные результаты для расчета критериев и оценки их эффективности. К настоящему времени подробно разработана предельная теория статистик типа омега-квадрат и хи-квадрат для одной выборки как в классической схеме, так и в схеме серий.
Известно, что в основу критерия СО^ берется статистика Крамера-Мизеса-Смирнова
_ оо
где Р^О") - эмпирическая функция распределения случайных величин
л
(выборки) Х.ЛV .а 0 - некоторая оценка неизвестного значения параметра в . Когда гипотеза 1-У. о распределении ¡-"(ас о) справедлива,
П I Л
распределение статистики и при некоторых условиях на О слабо сходится при И -^оо к распределению квадратичной формы
л1 1. 1.
со = 2-, от независимых случайных величин и-^ ^ }.. „ ,
имеющих стандартное нормальное распределение. При этом коэффициенты
^Ч,.., зависят от семейства рС^л.',О^ и конкретного значения © . Вычисление этих коэффициентов весьма сложная задача, в том числе и для проверки нормальности (см.[7],[11],[12],[15],[18],[32] ). Многовыборочный случай проверки гипотезы 1-Ь также рассматривался в литературе (см. [7],[9],[16],[25],[27]), при этом наиболее изучен случай двух выборок ([16]). В диссертационной работе в случае нормальных выборок в зависимости от
тех или иных неизвестных параметров находится скорость приближения
I- А.
статистики - квадратичной статистики типа со с учетом слагаемых,
зависящих от и, и имеющих порядокОСи'-) и оцениваются коэффициенты
м ^ с точностью до членов, порядка О ( иГ ^ з-,.,.-^.
Аналогичная задача рассматривается по уточнению критерия хи-квадрат Пирсона для многих выборок с неизвестными параметрами. Этой задаче (при ы - Л ) посвящена обширная литература (см.[19] - [24], [26]).
Таким образом, тема работы представляется актуальной и активно разрабатываемой современными математиками.
2. Цель работы.
Целью работы является решение ряда задач по построению критериев вида омега-квадрат и хи-квадрат по |\/-> оо выборкам умеренно больших объемов к, с учетом при этом скорости сходимости к предельным статистикам критериев, то есть, оценка слагаемых порядка ООС'*) и влияние их на функции распределения статистик критериев.
3. Общая методика выполнення исследования.
В работе используются методы и результаты асимптотического анализа последовательностей распределений случайных величин, линейной алгебры, теории интегральных уравнений Фредгольма.
4. Научная новизна.
Основными результатами работы являются-.
1. Построение эмпирического суммарного процесса 'U^Ct4) по совокупности W выборок X г (Х-^ объемов cl каэдая с одним типом распределения Fix', ©Л) 1т N , и различными неизвестными параметрами ; с нулевым математическим ожиданием и корреляционной функцией , задаваемой в явном виде соответствующей формулой.
ч.
2. Нахождение точных и асимптотических двумерных распределений ^(ъс^4) функций от нормально распределенных величин и соответствующих корреляционных функций при различных случаях задания неизвестных параметров © ^ 5 -: Л____М .
3. Нахождение собственных чисел и определителей Фредгольма. для ядер интегральных уравнений, построенных по корреляционным функциям эмпирического процесса для различных случаев нормальных распределений с учетом скоростей сходимости к предельному процессу.
4. Построение статистики хи-квадрат по суммарному вектору частот со случайными границами для каждой выборки с учетом квадратичных слагаемых порядка имеющей распределение У к.ч , где к. -число интервалов группировки.
5. Теоретическая и практическая ценность.
Работа носит теоретический характер. Постановки проблем во многим определяются практической необходимостью и являются своеобразным мостиком между используемыми обычно предельными при <&о результатами и практическими, где объём выборки и всегда конечен, хотя и может быть достаточно большим.
6. Апробация результатов.
Результаты диссертации докладывались на научно-исследовательских семинарах, проводимых на факультете вычислительной математики и кибернетики в Московском государственном университете им. М.В.Ломоносова, на математическом факультете в Московском государственном институте электроники и математики, на четвертой международной Вильнюской конференции по теории вероятностей и
математической статистике (Вильнюс, 1985), на пятой международной Петрозаводской конференции "Вероятностные методы дискретной математики", 2000г.
7. Публикации.
Основные результаты опубликованы в 5 работах, список которых приведен в конце автореферата.
8. Структура и объём работы.
Диссертация состоит из введения, трех глав, разбитых на параграфы, и списка литературы. Полный объём диссертации - 50 страниц, библиография включает наименований.
П.Содержание работы.
Во введении диссертации дается постановка задачи, определяются основные понятия и объекты анализа и приводится краткий обзор существу-ющих методов и результатов.
Даны 17 выборок ......^^ , объема к. каж-
дая. Требуется по ним проверить гипотезу о нормальном типе распределения. При этом параметры О^-С^ V,IV неизвестны полностью или частично, IV с~> , объем каждой выборки также достаточно велик, но "умеренно большой" и требуется учесть влияние К. (скорость сходимости) на окончательный результат.
В первой главе рассматривается семейство абсолютно непрерывных распределений Г (зе., 6х)} 9 с , заданных на одном и том же
выборочном пространстве С X, Х-О^ - действительная прямая, 0 -параметр, неизвестный полностью или частично. В это семейство входит нормальное семейство распределений. Пусть I: - достаточ-
ная статистика для . Строится процесс 1Г С^ О < Ь; 1 на основе эмпи-
ь
рических функций распределения Р^О*), ь-IV следующим образом. Сначала выбирается некоторая характеристика ^, являющаяся функцией выборочных значений V-Ч,. ^ ,
распределение которой зависит от вида самой функции \г , но не зависит от неизвестных параметров О ^ I г Л ^.., М . Эти функции, обычно
зависящие от набора достаточных статистик Т- (Т^ , как
правило, существуют и имеют вид: У^-^СХ-^ Т-^ ■ Для семейства нормальных распределений такие функции линейны: У •, - а ОтЛУ. ♦ \ (а(ТЛ) > о с вероятностью 1]} I->1 >...> ^ ■ Таким образом, от семейства выборок | \ ч, ^ переходим к семейству "преобразованных" выборок { Д , где все с.в. • одинаково распределены с функцией распределения Р^С'ос) , независимы при разных ^.--^...^к/ и зависимы при одинаковых I , при этом
Для -й преобразованной выборки строится
процесс от эмпирической функции распределения
который после замены переменных Ъ -г Р^С^ приводится к процессу
где Сг^-СС):: Р^Р^СС^) , Р - функция, обратная к Р .
V
Наконец строится суммарный процесс К ^ С-с4) по всем К' выборкам
ы
Теорема 3. Случайный процесс Ц ( Ь4) не зависит от неизвестных параметров ^ IV , и при М-ъ-аа слабо сходится в
и^С0,"1! к гауссовскому про11ессу с нулевым математическим ожиданием и ковариационной функцией
Очевидно при этом к„С -ьЛ4) г к^С-Ц-^> К^Со^4) - ^Сл ДУ о
Рассматривается класс центрально-симметрических абсолютно непрерывных с.в. Ь., относительно точки (о, о4) , для которых
плотность Ч С"х ч4) обладает свойством 1 ^ чС".,10-) .
Теорема 2. Корреляционная, функция к^Съ^Ъ4) для центрально-симметрических с.в. ^ центрально симметрична относительно точки
Если при этом условные вероятности обладают свойством ^ С, О) > (Г при ^ < О , то
То-есть, максимум к^С^О) достигается в точке С Если
с.в.М^и У ^асимптотически при Ь ^ независимы, то к.^С-ьД^ - ограниченная функция. Если Ч1^ ^ С-1*., 11 < у^ при любом о < ^ ^ И .
Вторая глава посвящается вопросам построения статистики со3" Для проверки гипотезы о нормальном типе распределения по совокупности М вы^борок Л у. Я .Таким образом, проверяемый тип распределения РСж-^е^- с^^Сх-р.^/ет^ ..,,1/, С^О)" стандартное нормальное распределение. Рассматриваются 3 случая:
1. м . -неизвестны, ^ -известны I - -А,.... \у С ^ г-
( V. ) > ^ ^
2. - б ^ -неизвестны, - известны <ч ^л -о4) ,
3- ( Б-)- неизвестны , V - л ,..., N .
С.в. ^ ^ ■ выбираются соответственно следующим образом с
V,
" ^ Г7 Г1
л
Двумерное распределение Гч ч в первом случае имеет
нормальное распределение. Оно известно [4],[24] и равно ,
} $ - втором и третьем случаях (Теоремы 4 и 5) доказано,
что соответственно
2 г г г
"-д. <г> 4
3
Ц-1 • - - • 1 *
-л
при этом получены асимптотические разложения по степеням ь этих распределений. В обоих случаях они имеют вид
Я . (\г с " выписанные в явном виде и различные в этих случаях
многочлены Р^С1*,^) степеней от х и ч ке выше восьмой
Отметим, что одномерные распределения £ во втором и третьем случаях есть распределения Томпсона соответственно с (у\-л\ и 0*- г) степенями свободы.
Для анализа статистики СО и необходимо знать вид корреляционной функции во всех трех рассматриваемых случаях. Введем обозначения: ^ - обратная функция нормального закона распределения:
и.иУ- ' Д "япроизводная от РрО^ , V,.С^Л,+
- - ч
Теорема 7. Корреляционные функции К.^С'*О^'с-.Ч^ъ, эмпирических
I^
процессов 'и и Л О) равны где
Корреляционные функции кЧ/ъД^-гС.^ ^¡С-ь,^ \--.-\_i. ъ , и их влияние на распределение из ■ - со^. были проанализированы в
VI —ОО °
работах [7], [12-15]. Характерной особенностью для этих функций является
то, что в них к основной функции " С^Д4) - -Л добавляются
слагаемые типа , т.е. .В нашем случае в слагаемые порядка
О Са"4) входят и функции при и-*^ (при ).
Для определения скорости сходимости статистики со ^ к предельной
необходимо рассмотреть интегральные уравнения Фредгольма с ядрами
¥
к. . С* ^ , найти собственные значения ТЗч. 2. этих уравнений и
««• ' ¿1С 1 '
определители Фредгольма 33.
Теорема 8. Пусть * ,
кСа.О) - симметрическое ограниченное в единичном квадрате ядро с определителем Фредгольма сА (эЛ - целой функцией простого порядка ск < \
-(о
имеющего нули Ь < < Сл^ • * - - значения собственных чисел ядра,пусть ^С-ь4), - ■ - - соответствующие собственные
функции ядра ИСъ ,
Тогда собственные значения л* ядра к С^ равны ^
"Г
Пусть Е О- - матрицы порядка С. х ^ , Е - единичная матрица, ' с
СХ- 1<ЦЗ, - > К3^ ~ \ £ + £ М " определитель
матрицы
а . Тогда определитель Фредгольма ядра ра-
вен
СООЛтАо^.РСэ^/ Г\
, а множество А0 состоит из тех Ъ-которые не являются полюсами РС^4) и при этом не все при
Утверждение данной теоремы о виде определите^ Фредгольма для случая, когда в ядро к^С*,^4) входят лишь слагаемые типа ^ , доказано Мартыновым в работе [ 7 ].
В случае, когда коэффициенты Фурье О ^ . функции V. (й4) вычислять затруднительно^ определитель Фредгольма можно находить через решения следующего интегрального уравнения.
Теорема 9. В обозначениях теоремы 8 пусть Ц (¿/I.4) есть решение интегрального уравнения д
ц-- А- £ е..^.«учксе> ъ, ^ кс^ц ■ <1 ^
Тогда определитель Фредгольма для ядра при конечных
значениях есть
Используя формулу Н.В.Смирнова [ &], получаем
, и,1" ^ -V ^ X е. • чиу «Ц ,
где ^^-Л^Х
о
- и
Отметим, что число отличных от нуля, в случаях
г 2> равно соответственно 1,2,6 (см.теорему 7). Таким образом, окончательные формулы для распределения Со^ достаточно просты.
В третьей главе для построения статистики хи-квадрат для проверки нормальности типа распределения по совокупности зыборок {_Х ^ Л последняя преобразуется в совокупность ^ Ь , как и в главах I, II. Затем фиксируется к. - число интервалов группировки элементов ... Я и базовый вектор р = ( р.,.. > р.• Символ т " знак транспонирования. Далее для каждой 1-й выборки ^. ~Г ч \ под-считываются частоты 5 ~ С 7., _ ^ ^ попадания элементов
выборки ^ . в соответствующие интервалы Ц^ . - ^ Группиров-
' ¿--л
ка элементов по фиксированным и. интервалам есть не что иное,
■а
как группировка У по интервалам со случайными концами, зависящими А
от достаточных статистик Т ^ во всех трех случаях.
Далее рассматривается суммарный по всем выборкам вектор 3 -.(о^^4^
* IV/ ^
^ ^Г • , по частотам -О^ строится квадратичная
статистика, распределение которой есть ^ - распределение хи-квадрат с Ск-л4)
степенями свободы. Такая статистика была построена М.С.Никулиным [19] для случая одной выборки. В главе этот результат распространяется на
а.
N выборок (м .Построенная квадратичная статистика X уточня-
ется с учетом слагаемых порядка 0 (и"'^ , поскольку в нашем случае к. -умеренно большое.
Введем ряд обозначений: ^ - Яр С ' " Р^ , ^ л у^ 1 ^ - точки разбиения действительной прямой,
¿4 = квадратная матрица
порядка к.к к. , 3) - диагональные матрицы с элементами С > ^^ иС\>\,.. на главной диагонали.
Теорема 10. Если ^—> ^о.^-п^ы к ^ 5 , то вектор рас-
пределен асимптотически нормально. При этом Е- -э =0)
Матрицы (Ч^ - вырождены, имеют ранг . Если в них
вычеркнуть последнюю строку и столбец, то получим невырожденные матрицы Г\ ^^ порядка к- . В дальнейшем вектора (матрицы) без последней к. - й координаты (без последних столбца и строки) будем обозначать сверху волнистой чертой 5 с.
Явный вид матриц ГЬи (I- ъ") находится с
использованием результатов главы И.
Обозначим ^ _ 1- ^ с..^"1
V. V ^ С и 7
Близость матриц Л ^ и тОСи" индуцирует близость
распределений квадратичных форм и
Теорема 12. При ос
Статистики распределены асимптотически при и/ М -> по
закону хи-квадрат с С*.-О степенями свободы, при этом они представимы в эквивалентных удобных для вычислений формах, определяемых теоремами 13-15 для всех трех случаев (Ь- ^ г ^ . Обозначим
V СУ'^.Ь4)" р _ Р Л Р - ' Ж
.....Ч^'
I ^ '
- скалярное произведение к - мерных векторов д
Теорема 13. Статистика при известных ^ : и неиз-
вестных р;,^';'*,.. к! ; представима в форме
V2" — |ч\-
- * 1 < £ I АУ .
г. _ ^ — _
Дополнительно обозначим х ) с - ^ ^
'х' и Зм
Теорема 14. Статистика ^ при неизвестных и известных ^
Си--о')1.-ч м представима в форме I *• ' ' ~ , г -
Л ЬО»."^ ч с "-О
Теорема 15. Статистика при неизвестных ( р;. Д.) пред-
ставима в форме
В теоремах 13-15 в случае слагаемые до порядкаО(л')включитель-
но совпадают со статистиками 1 и ^ .полученными
г.
М.С.Никулиным в [19]. Все слагаемые, дополняющие статистики X легко
вычислимы при заданных к, ^ и. наличием таблиц производных от
(
плотности нормального распределения ^ "'(-х^ до пятого порядка, или просто таблицы плотности ЧС"3^ , поскольку (■хч) выражайся через при любом ^ с использованием многочленов Эрмита. В заключение рассматривается критерий для проверки гипотезы симметричности функции распределения относительно точки 0 (случай к.=-2?) В этом сл.-учае вычисляется статистика хи-квадрат для любого конечного п., имеющая распределение хи-квадрат с одной степенью свободы.
Автор выражает глубокую признательность своему научному руководителю доктору физико-математических наук профессору Д.М.Чибисову за постановку задач, обсуждение и постоянное внимание к работе.
4S
Работы автора по теме диссертации:
[1] Медведева И.Ю. Проверка нормальности по большому числу
выборок. В сб. Четвертая междун. Вильнюсская конф. по теор. вероятн. и мат. стат. Тезисы докладов, т.И, Вильнюс: Ин-т матем. и киберн. АН Лит.ССР, 1985, - с.160-161.
[2] Миронова И.Ю. Критерий хи-квадрат для проверки нормально-
сти многих выборок. "Вероятностные процессы и их приложения". Межвузовский сборник. М., 1985, с.55-62.
[3] Миронова И.Ю. Критерий проверки нормальности по большому
числу выборок. "Вероятностные процессы и их приложения". Межвузовский сборник. М., 1987,- с.34-41.
а.
[4] Миронова И.Ю. О критериях типа to и j для проверки гипо-
тезы о типах распределения с неизвестными параметрами в случае многих выборок конечного объема. "Обозрение прикладной и промышленной математики", 2000, т.7,вып. 1,- с.122-123.
[5] Миронова И.Ю. Уточнение критерия ОО для проверки гипо-
тезы о нормальном типе распределения. "Обозрение прикладной и промышленной математики", 2001, т.8, вып.2,-с. 790-791.
У
V4
Список литературы
[ 1 ] Биллиигсли П. Сходимость вероятностных мер. - М.: Наука, 1977.
[ 2 ] Гантмахер Ф.Р. Теория матриц. - М.: Наука, 1966.
[ 3 ] Колмогоров А.Н. Несмещенные оценки. - Известия АН СССР, сер.мат.,1950, т. 14, № 4, с.303-326.
[ 4 ] Крамер Г. Математические методы статистики. - М.: Мир, 1975.
[ 5 ] Рао С. Линейные статистические методы и их применения,- М.: Наука, 1968.
[ 6 ] Смирнов Н.В. О распределении Со"- критерия Мизеса. - В кн.:
Смирнов Н.В. Теория вероятностей и математическая статистика. Избранные труды. - М.: Наука, 1964.
[ 7 ] Мартынов Г.В. Критерии омега - квадрат.- М.: Наука, 1978, - 78 с.
[ 8 ] Маркушевич А.И. Теория аналитических функций, Гостехиздат, М„ 1950.
[ 9 ] Тюрин Ю.Н. Проверка гипотезы о нормальности многомерной выборки большого объема. - Теория вероятн. и её примен., 1973, т.18, № 3, - с.583-592.
[10] Уиттекер Э.Т., Ватсон Дж.Н. Курс современного анализа, т.1, ГИФМЛ.,М, 1963.
[11] Чибисов Д.М. К исследованию асимптотической мощности критериев согласия. - Теория вероятн. и её примен., 1965, т.Ю,
Mi 3, - с.460-478.
[12] Darling D.A. The Cramer - Smirnov test in the parametric case. -Ann. Math. Stat., 1955, v.26, - p. 1-20.
[13] Stephens M.A. Asymptotic results for goodness of fit statistics with unknown parameters. - Ann. Math. Stat., 1976, v.4,^2,
p.357-369.
[14] Sukhatme S. Fredholm determinant of a positive definite'kernel of a special type and its application. - Ann. Math. Stat., 1972, v.43,
№6, - p.1914-1926.
[15] Anderson T.W., Darling D.A. Asymptotic theory of certain goodness--of- fit criteria based on stochastic, processes. - Ann. Math. Stat., 1952, v.23, - p.193-212.
[16] Kiefer J. К - sample analogues of the Kolmogorov - Smimov and Cramer - v.Mises tests. - Ann. Math.Stat., 1959, v.30, - p.420-447.
[17] Kac M., Kiefer J., Wolfowitz J. On test of normality and other tests of goodness- of- fit based on distance methods. - Ann. Math.Stat., 1955.-v.26, 2,-p. 189-211.
[18] Хмаладзе Э.В. Применение критериев типа $ для проверки параметрических гипотез. - Теория вероятн. и её примен., 1979, т.24, № 2, с.280-297.
[19] Никулин М.С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба. - Теория вероятн. и её примен., 1973, т.28, № 3, - с.583-592.
[20] Chemoff Н., Lehmann F.I. The use of the maximum likehood
i.
estimates in J( - tests for goodness - of - fit. - Ann.Math. Stat., 1954, v.25,M3,-p. 579-586.
[21] Moore D.S. A chi - square statistic with random cell boundaries. -Ann. Math. Stat., 1971, v. 42, V 1,- p.147-156.
z.
[22] Roy A.R. On JC - statistics with variable intervals. - Techn. Rep., Stanford Univ., Statist. Dept., 1956.
[23] Джапаридзе К.О., Никулин М.С. Об одном видоизменении стандартной статистики Пирсона. Теория вероятн. и её примен., 1974, т.19,W4, - с.886-888.
[24] Watson G.S. On chi - square goodness - of - fit test for continuous distributions. - J. Roy Statist. Soc., 1958, v.B 20,№1, - p.44-61.
IS.
[25] Петров A.A., Проверка статистических гипотез о типе распределения по малым выборкам. - Теория вероятн. и её примен.,1956, т.1, в.2, -с.248-271.
[26] Чибисов Д.М. Некоторые критерии типа хи-квадрат для непре-
рывных распределений. - Теория вероятн. и её примен.,1971, т. 16, № 1. - с.3-20.
[27] Калинин В.М. Сходящиеся и асимптотические разложения для вероятностных распределений, 1967, т.12, в.1, - с.24-38.
[28] Мартынов Г.В. Вычисление предельных распределений статистик критериев нормальности типа . Теория вероятн. и её примен., 1973, t.XVIII, в.З, - с.671-673.
[29] Мартынов Г.В. Вычисление предельных распределений статистик критериев нормальности типа . Теория вероятн., и её примен., 1976, T.XXI, в.1,- с.3-15.
[30] Прохоров Ю.В. Сходимость случайных процессов и предельные теоремы вероятностей. Теория вероятн. и её примен., 1956, т.1, в.2.,- с. 177-238.
[31] Канделаки И.П., Сазонов В.В. К центральной предельной теореме для случайных элементов, принимающих значения из гильбертова пространства. Теория вероятн., и её примен., 1964, T.IX, в.1., -43-52.
[32] Neuhaus, Asimptotic properties of the Cramer-von Mises statictic when parameters are estimated, Proc.Prague Symp. Asimpt.Stat., 1973, vol.2, Prague, Charles Univ., 1974, - p.257-297.
ВВЕДЕНИЕ.
ГЛАВА I. ВОПРОСЫ ПОСТРОЕНИЯ И АНАЛИЗА ЭМПИРИЧЕСКОГО ПРОЦЕССА ПО МНОГИМ ВЫБОРКАМ ДЛЯ ПРОВЕРКИ ГИПОТЕЗЫ О ТИПЕ РАСПРЕДЕЛЕНИЯ
§ 1. Введение.
§ 2. Построение эмпирического процесса для I -й выборки и анализ его корреляционной функции.
§ 3. Построение процесса по совокупности выборок X • > . >N.
ГЛАВА II. ЭМПИРИЧЕСКИЕ ПРОЦЕССЫ ДЛЯ НОРМАЛЬНО
РАСПРЕДЕЛЕННЫХ ВЫБОРОК.
§ 1. Корреляционные функции процесса для нормально распределена. ных выборок. Случай неизвестных yi ^ и известных
§ 2. Случай известных и неизвестных ^.
§ 3. Случай неизвестных ^
§ 4. Собственные числа и определители Фредгольма ядер эмпирического процесса в случае нормальных распределений.
ГЛАВА III. КРИТЕРИИ ТИПА ХИ-КВАДРАТ ДЛЯ ПРОВЕРКИ
ГИПОТЕЗЫ НОРМАЛЬНОСТИ ВЫБОРОК УМЕРЕННО БОЛЬШОЙ ДЛИНЫ С НЕИЗВЕСТНЫМИ ПАРАМЕТРАМИ.
§ 1. Введение. Постановка задачи.
§ 2. Асимптотическое распределение суммарного вектора частот
§ 3. Оценка параметров распределения вектора частот ^ для проверки гипотезы о нормальном типе распределения.
§ 4. Построение статистики типа хи-квадрат для умеренно больших выборок.
Постановка задачи.
В статистической теории и практике встречаются ситуации, когда необходимо проверить гипотезу о принадлежности функции распределения наблюдаемой совокупности случайных величин некоторому семейству распределений , где О - неизвестный параметр, вообще говоря, векторный.
Мы будем рассматривать ситуацию, когда совокупность наблюдаемых случайных величин, по которой следует построить критерий согласия и принадлежности этой совокупности случайных величин семейству распределений 6s), имеет следующий вид: это N выборок объемов n w соответственно, и каждая выборка в соответствии с проверяемой гипотезой И 0 принадлежит некоторому абсолютно непрерывному распределению , где параметр • неизвестен ( полностью или частично) и принадлежит некоторому открытому множеству 0 G R. . При этом, вообще говоря, для разных выборок параметры и 0 - различны.
В работе рассматривается для простоты случай, когда объемы всех выборок одинаковы и равны к,; и л- и^ . -. г - ^ . Элементы выборок будем считать независимыми в совокупности случайными величинами.
Отметим специфику рассматриваемой в дальнейшем задачи. В статистической практике в указанной ситуации экспериментатор часто имеет возможность получать достаточно большое число выборок, т.е. мы имеем право считать гУ достаточно большим ( bi ^о ). И в то же время он лишен возможности ползать выборки очень большого объема. Поэтому мы будем предполагать, что в наших условиях величина Vv является "умеренно большой". Это будет означать, что при анализе асимптотического поведения (при \л, ) рассматриваемых случайных величин мы должны оценивать или скорость сходимости приближения рассматриваемых распределений к предельному распределению, или же вводить те или иные уточнения асимптотических приближений.
Типичным примером возникновения большого числа выборок умеренно большого объема, является ситуация, когда экспериментатор работает в нестационарных условиях, и эти изменяющиеся условия влекут за собой изменения параметров распределения, которому подчинена выборка. Нестационарные условия не позволяют получать выборки достаточно большой длины, на которой можно гарантировать отсутствие изменений параметров. Эта ситуация часто имеет место в радиотехнике, когда инженер-исследователь работает с полезными сигналами на фоне помех в городских условиях. В теории выделения сигналов на фоне помех часто вводится предположение, что помехи имеют гауссовское распределение, параметры которого подвержены постоянным изменениям. Строго говоря, эти помехи далеко не всегда являются гауссовскими, и экспериментатору для математически строгой постановки эксперимента следует проводить предварительную проверку на "гауссовость" помех в данном конкретном случае и, тем самым, проверять справедливость выдвинутой математической модели в условиях проводимого эксперимента.
Сформулированная задача в такой общей постановке, когда практически нет никаких ограничений на тип распределения К'х; 0-^) кроме абсолютной непрерывности и на его параметры Q. ^-А,. > является весьма сложной. Поэтому по мере изложения мы будем налагать на p(icy в^ дополнительные ограничения. Все эти ограничения не будут выводить множество F за рамки нормальных функций распределения, которые будут нашим основным объектом рассмотрения. В последнем случае мы будем иметь дело с нормальным семейством распределений с параметрами сдвига и масштаба. - ^ с--W.
Таким образом, конечная задача состоит в том, чтобы по N выборкам объемом \п каждая (0,1) построить критерий согласия для проверки гипотезы Ц0 о том, что каждая о - я выборка (при любом i. ) представляет собой совокупность наблюдений случайной величины ^ ^ с функцией распределения РрСС'Ьс-р.^/^^) , для всех о , с различными и неизвестными (полностью или частично) математическими ожиданиями р^и дисперсиями ^. Мы рассматриваем три возможные ситуации: г
1) математические ожидания |ЧС неизвестны, дисперсии известны, ^-V.,, К/ ; v
2) математические ожидания у L известны, дисперсии неизвестны, ы ;
3) математические ожидания |ч t и дисперсии , неизвестны. Отметим, что для практических приложений особый интерес имеет именно 3-й случай.
Мы будем рассматривать критерии, основанные на эмпирическом процессе вида: Л где - эмпирическая функция распределения^ V7-некоторая оценка функции распределения, в качестве которой обычно берется ж.; 0 s) .В А качестве оценок О выбираем соответственно выборочные средние и дисперсии (когда эти параметры неизвестны). Отметим, что в этом случае ТЛ^СО имеет отличное от нуля математическое ожидание и некоторую функцию ковариаций . В традиционном случае одной выборки растущего объема К происходит предельный переход, при котором распределение этого процесса стремится к гауссовскому распределению (см.[1] ) и одновременно tllA^CC) VC^O^t4)-*^»;^4) - ковариационной функции предельного гауссовского процесса.
В работе рассматривается эмпирический процесс, построенный по совокупности заданных выборок, т.е. где - эмпирический процесс (0,2), построенный по L - й выборке 5
Для этого процесса предельный при N <=-о процесс является гауссовским J (t4) процессом за счет суммирования большого числа независимых случайных процессов "Ц^Д-Ь^ . Но при этом, при указанном выше выборе F (tx.4^ математическое ожидание процесса \А ^ (t4) не Л стремится к нулю. Поэтому, в качестве F мы выбираем несмещенную А оценку функции ГС'*;©4) . При таком выборе F (ос^ в силу общих свойств несмещенной оценки математическое ожидание процесса ^ (t^ тождественно равно нулю. Тогда lA^C*^ при Nи фиксированном к сходится к гауссовскому процессу с нулевым математическим ожиданием. При этом ковариационная функция предельного процесса остается равной К С-^/С) ,
ОТЛИЧНОЙ ОТ
Если к. фиксировано, то задача поиска распределения функционалов с ковариационной функцией ^.^-bt4) является сложной. Мы предполагаем, что kl является умеренно большим и это дает возможность считать, что наша ситуация близка к предельной, но не настолько, чтобы непосредственно использовать предельную функцию. Поэтому будем искать уточнения предельной аппроксимации для распределения статистик, построенных на таких функционалах, т.е. будем строить аппроксимацию для распределения, которая включала бы поправки к предельному при распределению.
В диссертационной работе вводятся и рассматриваются два критерия, точнее - модификации двух известных критериев - критерия Крамера-Мизеса-Смирнова со -г § "f 6t?> A-t и критерия Пирсона jC ? вводимые о специально для учета особенностей условий, при которых проводятся статистические испытания. Как известно, теория этих критериев разработана для широкого класса гипотез в последнем случае мы не будем требовать, чтобы число выборок к/ стремилось к бесконечности, т.е. число выборок может быть конечным и в том числе может быть равно единице.
В первой главе строится эмпирический процесс (t4) на основе выборки (0,1), распределение которого не зависит от неизвестных параметров распределений ? • - , Для этой цели сначала система выборок £ X —\ преобразуется в систему ^ ^ ^^ , распределение котрой не зависит от неизвестных параметров 6 ^ за счет потери свойства независимости случайных величин (с.в.) \ по второй координате (по строке). Затем строится процесс (А.^ для каждой строки по преобразованной выборке vuи затем уже суммарный процесс по всем выборкам.
Выводятся точные формулы для подсчета корелляционной функции процесса R Сь^О) через двумерные распределения Доказываются необходимые для дальнейшего анализа свойства функций \<(-ъ;С) для класса центрально-симметрических двумерных распределений. Во второй главе исследуются построенные в первой главе эмпирические процессы для нормально распределенных выборок при неизвестных параметрах распределений в трех указанных ранее случаях. Для анализа корреляционных функций процессов выводятся точные и асимптотические (при ул "^о ) формулы двумерных распределений которые необходимы будут и для построения и расчета критерия типа jC (в главе III). Выводятся соответствующие формулы для корреляционных функций - точные и асимптотические с учетом слагаемых разложения с точностью до О С • Влияние слагаемых разложения порядка иГ^ на изменение распределении критериев типа Со и <> составляет предмет дальнейшего исследования.
Далее находятся Эч - собственные значения линейного интегрального оператора с ядром корреляционного оператора) и определители ФредгольмаЗХз^ ядер КСъ^) с точностью до , т.е. с учетом слагаемых порядка 0(пAV) . Тем самым уточняется сходимость 2распределения типа и? при v\ с>о к некоторому невырожденному распределению, совпадающему с л ^ распределением случайных величин вида S и Of) Д-t
-о и ' где J СЧ^ - гауссовский процесс с корреляционной функцией КС^О) и - независимые нормально распределенные стандартные с.в.
В третьей главе для проверки нормальности системы тЧ \ • \ выборок применяется критерий типа хи-квадрат Пирсона. Этот метод, как известно, требует предварительной группировки данных. Для этой цели зададимся числом интервалов к и базовым вектором вероятностей р-С^,,. р,?0 1Н к , и разобьем действительную прямую на к. интервалов с граничными точками .0<ЪЛ<—+ .Точки находим последовательно из системы уравнений: где функция распределения стандартного нормального закона. Вектор частот . находим группировкой выборочных значений предварительно преобразованной выборки ^ по указанным интервалам. Тем самым частоты становятся случайными величинами, определяемыми числом значений первоначальной выборки, попавших в
-й интервал со случайными концами, которые зависят от оценок неизвестных параметров. Для суммарного вектора частот 3 , координатам которого соответствует сумма частот по столбцам строим статистику ^ - некоторую модификацию статистики хи-квадрат Пирсона. Доказывается, что статистика N при ^ - умеренно больших имеет распределение хи-квадрат с (к-V} степенями свободы. Как известно, скорость сходимости для обычной статистики хи-квадрат есть 0(ч/Л\ В нашем случае построенная статистика YhN имеет скорость сходимости ос^.
В работе выписывается конкретный вид измененной статистики для всех трех рассматриваемых случаев.
В заключение пользуюсь случаем выразить глубокую признательность своему научному руководителю Д.М.Чибисову за постановку задачи и большую помощь в работе.
1. Уиттекер Э.Т., Ватсон Дж.Н. Курс современного анализа, т.1, ГИФМЛ., М, 1963.И. Чибисов Д.М. К исследованию асимптотической мощностикритериев согласия. Теория вероятн. и её примен., 1965, т. 10, К/зЗ, - с.460-478.
2. Darling D.A. The Cramer Smirnov test in the parametric case. -Ann. Math. Stat., 1955, v.26, - p. 1-20.
3. Stephens M. A. Asymptotic results for goodness of fit statistics with unknown parameters. Ann. Math. Stat., 1976, v.4,T/-2, p.357-369.
4. Sukhatme S. Fredholm determinant of a positive definite kernel of a special type and its application. Ann. Math. Stat., 1972, v.43,- p.1914-1926.
5. Anderson T.W., Darling D.A. Asymptotic theory of certain goodness--of- fit criteria based on stochastic, processes. Ann. Math. Stat., 1952, v.23, - p.193-212.
6. Kiefer J. К sample analogues of the Kolmogorov - Smirnov and Cramer - v.Mises tests. - Ann. Math.Stat., 1959, v.30, - p.420-447.
7. Kac M., Kiefer J., Wolfowitz J. On test of normality and other tests of goodness- of- fit based on distance methods. Ann. Math.Stat., 1955, - v.26, И 2,- p. 189-211.JL
8. Хмаладзе Э.В. Применение критериев типа со для проверки параметрических гипотез. Теория вероятн. и её примен., 1979, т.24, № 2, с.280-297.
9. Никулин М.С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба. Теория вероятн. и её примен., 1973, т.28, № 3, - с.583-592.
10. Roy A.R. On jC statistics wilht variable intervals. - Techn. Rep., Stanford Univ., Statist. Dept., 1956.
11. Джапаридзе К.О., Никулин М.С. Об одном видоизменении ф стандартной статистики Пирсона. Теория вероятн. и её примен.,1974, т. 19, /V4, с.886-888.
12. Чибисов Д.М. Некоторые критерии типа хи-квадрат для непрерывных распределений. Теория вероятн. и её примен., 1971, т. 16, № 1. - с.3-20.
13. Калинин В.М. Сходящиеся и асимптотические разложения для ф вероятностных распределений, 1967, т. 12, в. 1, с.24-38.
14. Медведева И.Ю. Проверка нормальности по большому числу выборок. В сб. Четвертая междун. Вильнюсская конф. по теор. вероятн. и мат. стат. Тезисы докладов, т.Н, Вильнюс: Ин-тматем. и киберн. АН Лит.ССР, 1985, с.160-161.
15. Миронова И.Ю. Критерий хи-квадрат для проверки нормальности многих выборок. "Вероятностные процессы и их приложения". Межвузовский сборник. М., 1985, с.55-62.
16. Миронова И.Ю. Уточнение критерия для проверки гипотезы о нормальном типе распределения. "Обозрение прикладной и промышленной математики", 2001, т.8, вып.2,-с.790-791.
17. Мартынов Г.В. Вычисление предельных распределений статистик критериев нормальности типа со . Теория вероятн. и её примен., 1973, T.XVIII, в.З, с.671-673.
18. Мартынов Г.В. Вычисление предельных распределений статистик критериев нормальности типа со" . Теория вероятн., и её примен., 1976, t.XXI, в. 1,- с.З-15.
19. Прохоров Ю.В. Сходимость случайных процессов и предельные теоремы вероятностей. Теория вероятн. и её примен., 1956, т.1, в.2., с.177-238.
20. Канделаки И.П., Сазонов В.В. К центральной предельной теореме для случайных элементов, принимающих значения из гильбертова пространства, Теория вероятн. и её примен., 1964, т.1Х, в.1, -с. 43-52.
21. Neuhaus, Asimptotic properties of the Cramer-von Mises statictic when parameters are estimated, Proc.Prague Symp.Asimpt.Stat., 1973, vol.2, Prague, Charles Univ., 1974,-p.257-297.