Некоторые задачи теории вероятностей и математической статистики, связанные с распределением Лапласа тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Лямин, Олег Олегович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2010
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
Московский государственный университет им. М. В. Ломоносова Факультет вычислительной математики и кибернетики
ЛЯМИН Олег Олегович
НЕКОТОРЫЕ ЗАДАЧИ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ, СВЯЗАННЫЕ С РАСПРЕДЕЛЕНИЕМ ЛАПЛАСА
01.01.05 — теория вероятностей и математическая статистика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
1 1 НОЯ 2010
Москва - 2010
004612366
Работа выполнена на кафедре математической статистики факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова.
Научный руководитель:
доктор физико-математических наук, профессор Бенинг Владимир Евгеньевич
Официальные оппоненты: доктор физико-математических наук,
профессор Хохлов Юрий Степанович
доктор физико-математических наук, профессор Зейфман Александр Израилевич
Ведущая организация:
Институт проблем информатики РАН
Защита состоится «12» ноября 2010 г. в 11 часов на заседании диссертационного совета Д 501.001.44 при Московском государственном университете имени М.В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет ВМиК, аудитория 685.
С диссертацией можно ознакомиться в библиотеке факультета ВМиК МГУ. С текстом автореферата можно ознакомиться на официальном сайте факультета ВМиК МГУ http://www.cmc.msu.ru в разделе «Наука» — «Работа диссертационных советов» — «Д 501.001.44».
Автореферат разослан «12» октября 2010 г.
Ученый секретарь диссертационного совета
профессор
Н. П. Трифонов
Общая характеристика работы
Актуальность темы. Классическое распределение Лапласа с нулевым средним и дисперсией а2 было введено П. С. Лапласом в 1774 году. С тех пор оно стало одной из наиболее активно используемых симметричных вероятностных моделей. Это распределение задается плотностью
Распределение Лапласа находит широкое применение при математическом моделировании многих процессов в телекоммуникационных системах, в экономике, финансовом деле, технике и других областях, например, в задачах выделения полезного сигнала на фоне помех. Популярность распределения Лапласа как математической (вероятностной) модели обусловлена тем, что его хвосты тяжелее, чем у нормального распределения (см., например, работу Р. Истерлинга1, где обосновывается целесообразность использования распределения Лапласа как модели распределения погрешностей измерений в энергетике; статью Д. Хсу2, посвященную применению распределения Лапласа для моделирования ошибок в навигации; работу Т. Окубо3, в которой распределение Лапласа применяется в метеорологии). Во многих работах описано успешное применение распределения Лапласа душ моделирования распределения приращений логарифмов финансовых индексов4, для моделирования распределения логарифма размера частиц при дроблении5, при моделировании статистических закономерностей поведения некоторых характеристик атмосферной6 и плазменной7 турбулентности. В работах Н. Джонсона8 и С.
1 Easteiling R.J. Exponential responses with double exponential measurement error. A model for steam generator inspection // In: Proceedings of DOE Statistics Symposium. — U.S., Department of Energy. — 1978.
- P. 90-100.
2 Hsu D. A. Long-tailed distribution for position errors in navigation // Applied Statistics. — 1979. — Vol. 28. - P. 62-72.
3 Okubo Т., Narita N. On the distribution of extreme winds expected in Japan // In: National Bureau of Standards Special Publication 500-1. — 1980. — P. 12.
4 Kozubowski T. J., Podgorski K. Asymmetric Laplace laws and modeling financial data // Math. Comput. Modelling. — 2001. — Vol. 34. — P. 1003-1021.
5 Bagnold R. A. The physics of blown sand desert duues. — London, Mcthuen. — 1954.
6 Baradorff-Nielsen О. E. Models for non-Gaussian variation, with applications to turbulence // Proc. Royal Soc. A. — 1979. — Vol. 353. — P. 401-419.
7 Королёв В. Ю. Вероятностно-статистический анализ хаотических процессов с помощью сметанных Гауссовских моделей. Декомпозиция волатильности финансовых индексов и турбулентной плазмы.
- М.: Изд-во ИПИРАН. - 2007.
8 Johnson N. L., Kotz S., Balakrishnan N. Continuous uni-variate distributions. Vol. II. 2nd ed- — N. Y.: Wiley. - 1995.
Котца9 можно найти дальнейшие ссылки на работы, в которых описывается применение распределения Лапласа к решению прикладных задач в самых разнообразных областях. Привлекательность распределения Лапласа в качестве вероятностной модели при решении конкретных прикладных задач во многом обусловливается также его экстремальными энтропийными свойствами. Этим свойством часто мотивируется выбор распределения Лапласа в качестве распределения погрешностей измерений, в которых точность (параметр масштаба) изменяется от измерения к измерению случайным образом (см., например, работу Г. Л. Шевлякова10). Последний результат стоит отметить особо.
Можно признать, что в подавляющем большинстве ситуаций, связанных с анализом экспериментальных данных, число случайных факторов, влияющих на наблюдаемые величины, само является случайным и изменяется от наблюдения к наблюдению. Примеры прикладных статистических задач, в которых объем выборки существенно случаен, можно найти, например, в книгах В. Ю. Королёва11 и В. Е. Бенинга12. Поэтому вместо различных версий центральной предельной теоремы, обосновывающих нормальность распределения наблюдаемых случайных величин в классической статистике, в таких ситуациях следует опираться на их аналоги для выборок случайного объема. Здесь следует отметить недавние результаты13 В. Е. Бенинга и В. Ю. Королёва, в которых была получена довольно простая асимптотическая схема, приводящая к распределению Лапласа как к предельному и, как следствие, дающая обоснование возможности более широкого использования распределения Лапласа в задачах описательной статистики.
Первая часть диссертации посвящена дальнейшему развитию идей этой работы, а именно получению оценок скорости сходимости распределений асимптотически нормальных статистик, построенных по выборкам случайного объема, к распределению Лапласа.
9 Kotz S., Kozubowski Т. J., Podgorski К. The Laplace distribution and generalizations: A revisit with applications to communications, economics, engineering and finance. — Boston: Birkhauser. — 2001.
10 Shevlyakov G. L., Vilchevski N. O. Robustness in data analysis: Criteria and methods. — Utrecht: VSP. - 2002.
11 Королёв В.Ю., Бенинг В. E-, Шоргин С. Я. Математические основы теории риска. — М.: Физмат-лит. — 2007.
12 Королёв В. Ю., Бенинг В. Е., Соколов И. А., Шоргин С. Я. Рандомизированные модели и методы теории надежности информационных и технических систем. — М.: Торус Пресс. — 2007.
13 Бенинг В. Е., Королёв В.Ю. Некоторые статистические задачи, связанные с распределением Лапласа // Информатика и ее Применения. — 2008. — Т. 2, №2. — С. 19-34.
Вторая часть диссертации связана с исследованиями Д. М. Чибисова14'15 и В. Е. Бенинга16 в области задачи проверки простой гипотезы против последовательности сложных близких альтернатив. В указанной работе В. Е. Бенинга была получена общая теорема, дающая достаточные условия для существования предела отклонения функции мощности асимптотически наиболее мощного (AHM) критерия от функции мощности наилучшего критерия. В том типичном случае, когда соблюдены условия регулярности, можно ожидать (см. работы Д. М. Чибисова14'15), что мощность AHM критерия отличается от мощности наилучшего критерия на величину порядка п~1. Отсутствие регулярности может приводить к нарушению естественного порядка п-1 и приводить к другим порядкам. Факт нарушения обычных порядков в случае распределения Лапласа с параметром сдвига был отмечен в работе Р. А. Королёва17. Там же на эвристическом уровне была получена формула для предела отклонения мощностей. При этом в работе В. Е. Бенинга18 прямым методом были получены асимптотические разложения для мощностей критериев, из которых непосредственно следует, что отсутствие регулярности распределения Лапласа приводит к порядку п~112. Однако, как выяснилось позже, достаточные условия, сформулированные в общей теореме В. Е. Бенинга не выполнены, поэтому распределение Лапласа не может являться примером использования общей теоремы для случая нерегулярного распределения. Отсутствие такого примера может говорить в пользу того, что условия общей теоремы слишком сильны и выполняются только в регулярном случае, что существенным образом ограничивает множество ситуаций, в которых эта теорема может быть применима, и уменьшает ее прикладное значение. Таким образ ом, невыполнимость условий достаточности общей теоремы для случая распределения Лапласа оставляет актуальным вопрос поиска подходящего примера. Во второй части диссертационной работы далее исследуется возможность использования общей теоремы для нерегулярного распределения на примере случая обобщенного распределения Лапласа.
14 Cliibisov D.M. Asymptotic expansions and deficiencies of tests // In: Proc. Iutem. Congr. Math., 2. — Warszawa. — 1983. — P. 1063-1079.
15 Чибисов Д. M. Вычисление дефекта асимптотически эффективных критериев // Теор. вероятн. и ее прим. - 1985. - Т. 30, №2. — С. 269-288.
16 Bening V. Е. Asymptotic Theory of Testing Statistical Hypotheses. — Utrecht: VSP. — 2000.
17 Королёв P.A., 'Гестова A.B., Бещшг В.Е. О мощности асимптотически оптимального критерия в случае распределения Лапласа // Вестник Тверского Государственного Университета. — 2008. — Т. 28, №. 1. - С. 7-27.
18 Бенинг В. Е., Королёв P.A. Асимптотические разложения для мощностей критериев в случае распределения Лапласа // Вестник Тверского государственного университета, серия Прикладная математика. - 2008. - Т. 3(10), №26(86). - Р. 97-107.
Цель работы. Цель первой части данной работы состоит в обосновании возможности использования распределения Лапласа в задачах теории вероятностей и математической статистики, возникающего в качестве предельного в случае выборок случайного объема. Задачами первой части диссертации являются:
1. Описание асимптотической схемы, приводящей к распределению Лапласа как к предельному.
2. Получение оценок скорости сходимости распределений асимптотически нормальных статистик, построенных по выборкам случайного объема специального вида, к распределению Лапласа.
Целью второй части диссертации является изучение возможности применения исследований В. Е. Бенинга, связанных с задачей проверки простой гипотезы против последовательности сложных близких альтернатив, в нерегулярных случаях. Задачами второй части диссертации являются:
1. Проверка условий общей теоремы из работы В. Е. Бенинга в случае нерегулярного распределения (случай обобщенного распределения Лапласа, предложенный в работе).
2. Демонстрация того, что отсутствие регулярности может приводить к нарушению естественного порядка разности функций мощности наилучшего и асимптотически наиболее мощного критериев.
Научная новизна. Все основные результаты работы новые и заключаются в следующем:
1. Получены новые оценки скорости сходимости распределения нормированного максимума от п случайных величин с дискретным распределением Парето к обратному показательному распределению с ростом п. Получены новые оценки скорости сходимости распределения асимптотически нормальных статистик к распределению Лапласа в случае, когда объем выборки случаен и равен указанному максимуму.
2. Предложено обобщенное распределение Лапласа, для которого рассмотрена задача проверки простой гипотезы против последовательности
сложных близких альтернатив. С применением общей теоремы показано, как отсутствие регулярности у этого распределения приводит к нарушению естественного порядка разности функций мощности наилучшего и асимптотически наиболее мощного критериев. Получена формула для предела отклонения мощности наилучшего критерия от мощности асимптотически наиболее мощного критерия. Обоснована возможность использования общей теоремы душ случая нерегулярных распределений.
Методы исследования. В работе использованы аналитические методы математического анализа, неравенства и предельные теоремы теории вероятностей, аппарат математической статистики, а также метод характеристической функции.
Теоретическая и практическая значимость. Работа имеет теоретический характер. Результаты, относящиеся к оценке скорости сходимости распределений статистик к распределению Лапласа, могут найти применение в теории оценивания, а также в прикладных исследованиях, связанных с теорией риска. Результаты, касающиеся обобщенного распределения Лапласа, могут применяться в задачах о различении близких гипотез, выделении полезного сигнала на фоне помех.
Апробация работы. Основные результаты диссертации докладывались на научном семинаре «Теория риска и смежные вопросы» под руководством профессора В. Е. Бенинга, профессора В.Ю. Королёва и стар. преп. А. А. Кудрявцева, на X Всероссийском симпозиуме по прикладной и промышленной математике (1-8 октября 2009 г., Сочи - Дагомыс).
Публикации. Основные результаты диссертации опубликованы в 4 печатных работах, из них 3 статьи [1, 3, 4] в журналах, входящих в список ВАК «Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации па соискание ученой степени доктора и кандидата наук», и 1 работа в сборниках трудов конференций [2].
Структура и объем диссертации. Диссертация состоит из введения, двух глав, заключения и списка литературы, содержащего 64 наименования. Общий объем работы составляет 99 страниц.
Благодарности. Автор выражает глубокую благодарность профессору Бенингу Владимиру Евгеньевичу, под руководством которого проходила работа над диссертацией, за постановку задачи и постоянное внимание к работе.
Содержание работы
Введение содержит общую характеристику работы, описание объектов исследования и основных результатов.
В первой главе получена оценка скорости сходимости распределения случайной величины, равной максимуму от п независимых случайных величин с одним и тем же дискретным распределением Парето, к обратному показательному распределению при п —> оо. Здесь также получена оценка скорости сходимости распределений асимптотически нормальных статистик к распределению Лапласа в случае выборок случайного объема с распределением указанной случайной величины.
Рассмотрим случайные величины N2, ■ ■ ■ ,Х\, ..., определенные на одном и том же измеримом пространстве (П, Л). Пусть на Л задана вероятностная мера Р. Предположим, что при каждом п > 1 случайные величины
принимают только натуральные значения и не зависят от последовательности Х\,Хг, — Пусть Тп = Тп(Хь..., Х„) — некоторая статистика, то есть измеримая функция от случайных величин -Хь..., Хп. Для каждого п > 1 определим случайную величину положив
Гя„И = ...
для каждого элементарного исхода ш 6 П. Будем говорить, что статистика Тп асимптотически нормальна, если существуют числа а > 0 и ^ € Ш. такие, что
Р (оу/п(Тп - ц) < х) Ф(ж), п -» оо, (1)
где Ф(х) — функция распределения стандартного нормального закона.
Примеры асимптотически нормальных статистик хорошо известны. Свойством асимптотической нормальности обладают, например, выборочное среднее (при условии существования дисперсий), центральные порядковые статистики, оценки максимального правдоподобия (при достаточно общих условиях регулярности) и многие другие статистики.
Ранее была доказана лемма (см., например, [13]) о необходимых и достаточных условиях сходимости распределений асимптотически нормальных
статистик, построенных по выборкам случайного объема, к заданному распределению F( х).
Лемма 1. (Бенине, Королёв 2008) Пусть {dn}n>i — неограниченно возрастающая последовательность положительных чисел. Предположим, что Nn —ь оо по вероятности при п —>■ оо. Пусть статистика Тп асимптотически нормальна в смысле (1). Для того чтобы существовала такая функция распределения F(x), что
Р (а^СГ*. - р.) < xj F(x), п -> оо,
необходимо и достаточно, чтобы существовала функция распределения Н(х), удовлетворяющая условиям
Н{х) = О, х < 0;
F(x) =
<S>{xJy)dH(y), х € IR;
Р(АГП < АпХ) => Н{х), п -> 00.
Распределение Лапласа может быть представлено в виде масштабной смеси нормальных законов с нулевым средним при обратном показательном смешивающем распределении, а именно: для любого х € Щ
оо
а(х) = [ф^ад,
о
где С2(х) — функция распределения обратного показательного распределения
<Э(х) = е~6'х, 5 > 0, х > 0 (2)
и Л(х) — функция распределения распределения Лапласа, соответствующая плотности
= х€Шш (3)
Обратное показательное распределение — это распределение случайной величины
V = —
и1
где случайная величина U имеет показательное распределение. Обратное показательное распределение является частным случаем распределения Фреше, хорошо известного в асимптотической теории экстремальных порядковых статистик как предельное распределение типа И.
Из леммы 1 непосредственно следует следующая теорема (см. |13]), дающая необходимые и достаточные условия сходимости распределений асимптотически нормальных статистик, построенных по выборкам случайного объема, к распределению Лапласа.
Теорема 2. (Бенинг, Королёв 2008) Пусть S > 0 произвольно и {¿„}„>i — некоторая неограниченно возрастающая последовательность положительных чисел. Предположим, что Nn —► оо по вероятности при п —»• оо. Пусть статистика Тп асимптотически нормальна в смысле (1). Для справедливости соотношения
Р(a\fdn(TNn - ju) < х) А(х), п -4 оо необходимо и достаточно, чтобы
P(Nn < dnx) => Q(x), п оо.
Приведем пример ситуации, в которой случайный объем выборки имеет предельное обратное показательное распределение Q(x). Пусть Yí, Y2,... — независимые одинаково распределенные случайные величины с одной и той же непрерывной функцией распределения. Пусть т — произвольное натуральное число. Обозначим
N(m) = min{n > 1: max Yj < max Y¿J.
1 <j<m m+l<k<m^-n
Случайная величина N(m) имеет смысл количества дополнительных наблюдений, которые надо произвести, чтобы текущий (по т наблюдениям) максимум был перекрыт. Распределение случайной величины N(m) было найдено С. Уилксом, который показал, что распределение величины N[m) является дискретным распределением Парето:
Пусть теперь N^(m),... — независимые случайные величины с од-
ним и тем же распределением (4). В работе [13] было доказано, что для любого ж>0
е~т'х, ft —^ оо.
Р ( — - max N{3\m) < х) \П 1 <j<n J
Заметим, что в правой части предельного выражения стоит функция распределения обратного показательного распределения С^{х) с параметром формы 5 — т. Поэтому, если положить
теорема 2 с (1п = п дает иллюстрацию того, как вместо ожидаемого в соответствии с утверждениями классической асимптотической статистики нормального распределения при замене объема выборки случайной величиной в качестве предельного распределения регулярных статистик возникает распределение Лапласа.
Теорема 3. (Беиипг, Королёв 2008) Пусть т — произвольное натуральное число. Предположим, что ... — независимые случайные
величины с одним и тем же распределением (4), и случайная величина ]\Г„ определяется формулой (5). Пг]стъ статистика Тп асимптотически нормальна в смысле (1). Тогда
где Л(ж) — функция распределения распределения Лапласа с плотностью вида (3) с 6 = т.
Таким образом, основной вывод из приведенных выше результатов можно сформулировать следующим образом. Если число случайных факторов, определяющих наблюдаемое значение случайной величины, само является случайной величиной, распределение которой может быть приближено обратным показательным распределением (например, является случайной величиной вида (5)), то те функции от значений случайных факторов, которые в классической ситуации считаются асимптотически нормальными, в действительности являются асимптотически лапласовскими.
В приводимой ниже теореме изучается вопрос о предельном поведении распределения случайной величины Мп/п при п -4 оо, где Мп — случайная величина вида (5) с некоторым натуральным параметром то.
Теорема 4. Для каждого натурального т существует константа Ст > О такая, что
К
тах Л^(т),
1 < 3 < п
(5)
Р (ау/п(Тнп - ц) < х) А(х), п оо,
п —> 00
(6)
где (¿(х) — функция распределения обратного показательного распределения, определяемая формулой (2) с 5 = т. При этом
8е~2/3, т = 1, 2е~2, т > 2.
Далее приведена общая теорема, позволяющая автоматически получать оценки скорости сходимости распределений статистик, построенных по выборкам случайного объема, к распределению Лапласа из оценок скорости сходимости к нормальному закону этих же статистик, но уже построенных по обычным, неслучайным выборкам. При этом предполагается, что объем выборок является случайной величиной вида (5).
Теорема 5. Пусть Тп — Тп(Х1,...,Хп) — асимптотически нормальная статистика, и для ее распределения справедлива оценка скорости сходимости вида: для некоторого 0 < в < во < 2 существуют числа а > 0 и ¡1 6 Н такие, что
зир|Р(<7\/п(Тп - ц) < х) - Ф(х)| = 0{п~% п-> оо. (7)
Пусть Мп — случайная величина вида (5) с некоторым натуральным параметром т, которая не зависит от исходных случайных величин Х2, ■ ■ ■ и п -4 оо. Пусть А(х) — функция распределения распределения Лапласа с плотностью вида (3) с 8 = т. Тогда распределение статистики Т??п = Тцп(Х\,.. удовлетворяет равенству
Далее приведены два примера использования теоремы 5. Первый пример касается ¡7-статистик, а второй — линейных комбинаций порядковых статистик, широко применяемых в статистике (см., например, [16]).
Пусть Х-1,... — последовательность независимых одинаково распределенных случайных величин, имеющих общую функцию распределения Р{х). Определим (/-статистику по формуле
где ядро }г(х, у) — симметричная измеримая функция двух переменных.
х
вир ^(ал/пСГ*. - р) < х) - Л(х)| = п оо.
х
Определим теперь линейные комбинации порядковых статистик. Пусть < •• ■ < Хп-.п) — вариационный ряд, построенный по исходной выборке (Хь..., Хп). Тогда линейная комбинация порядковых статистик определяется по формуле
1 "
П '
г=1
где С1„ — некоторые числа.
Пусть для статистик Т„ \ г = 1,2 выполнены условия регулярности, сформулированные в работах Р. Хелмерса 19,20,21. В этом случае справедливы следующие соотношения
suplp (<7iVH(T« - m) < х) - Ф(а;) = 0(п 1/2), п ■
оо,
где величины 0{, г ■= 1,2; ¡1у = О, р2 = ¡1 определены в указанных работах Р. Хелмерса.
Пусть теперь Ып - случайная величина вида (5) с некоторым натуральным 771, которая не зависит от исходных случайных величин X1, Х2 ■ ■ ■ и
случайного объема Л„, то есть
п —> оо. Рассмотрим статистики г = 1,2, построенные по выборке
т« = ад.
Следующая теорема является непосредственным следствием теоремы 5.
Теорема 6. Пусть для статистик Т„\ ¿ = 1,2 выполнены условия регулярности, сформулированные в работах Р. Хелмерса. Тогда распределения статистик Т^, г — 1,2 удовлетворяют равенству
sup
р(<7- щ) <х)~ л(х)| = о{п^), п-
оо,
где величины г = 1,2; //2 = 0. ¿12 = определены в работах Р. Хелмерса, а Л(х) - функция распределения распределения Лапласа с плотностью вида (3)с6 = т.
19 Helmers R., van Zwet W. R. The Berry-Essccn bound for U-statistics // In: Statistical decision theory and related topics, III / Ed. by S. S. Gupta, J. O. Berger. - New York: 1982. - P. 497-512.
20 Helmers R. Edgeworth Expansions for Linear Combinations of Order Statistics. — Amsterdam: Mathematisch Centrum. — 1984.
21 Helmers R., Berry A. Esseen bound for linear combinations of order statistics //Ann. Probab. — 1981. — P. 342-347.
Утверждение теоремы 5 можно усилить, если несколько изменить условие, наложенное на скорость сходимости распределения асимптотически нормальной статистики Тп к нормальному распределению. Вместо условия (7) потребуем, чтобы для некоторого 0 < s < so < 2 была справедлива оценка
sup | Р{а^(Тп - ц) < х) - Ф(х)\ < Сп~', п= 1,2,..., (8) и перепишем результат теоремы 5 при п —> оо в виде
sup|P(ffv/n(7V„ - ц) < х) - Л(дг)j < Csn^min(1',) + о(п-т~иМ). (9)
х
В диссертации доказана следующая теорема.
Теорема 7. Для константы Gs из (9) справедливо соотношение
та ' '
£ + а = 1, _ Ci >т, s > 1,
где
f 4е-2/3, т = 1, bl'm - \ е-2, т > 2 и С — константа из неравенства (8).
Воспользуемся теоремой для получения оценки скорости сходимости распределения выборочного среднего, построенного по выборке объема, равного случайной величине (5), к распределению Лапласа. Пусть Х\,...,Хп — независимые одинаково распределенные случайные величины с математическим ожиданием 0 и дисперсией 1. Положим = E|Xi|3 < оо. Тогда для статистики Тп ~ Xi/n по неравенству Берри-Эссеена справедлива оценка
SUplP(v^7;<x) - Ф(а:)| < °'47^3, п = 1,2,... х V"
Пусть Nn — случайная величина вида (5) с некоторым натуральным тп. Применяя теорему 7 для случая s = 1/2, получим
s„p|P (VS7V, < ,) - AMI < +
Справедлива также более грубая, но не зависящая от т, оценка: sup|P {y/nTNn<x) - Л(ж)| < 0.2392VtFm3 • ^ + 0
Во второй главе предложено обобщенное распределение Лапласа. Для него доказано, что отсутствие регулярности распределения приводит к нарушению естественного порядка тГ1 разности функций мощности наилучшего и асимптотически наиболее мощного критериев и приводит к порядку п-1/2. Получена формула предела отклонения функций мощности.
Пусть имеются независимые наблюдения Хп = (А^,..-,Хп), каждое из которых принимает значения в измеримом пространстве {Х,Л) и имеет неизвестную с точностью до параметра в плотность р(х, в) относительно некоторой сг-конечной меры и(-) на Л. Предположим, что неизвестный параметр в принадлежит открытому множеству 6 С Е, содержащему 0. Обозначим через Рп,0, Ро соответственно распределения Хп и Х\, а через ЕЕд — соответствующие математические ожидания.
Рассмотрим задачу проверки простой гипотезы
где параметр £ неизвестен. Согласно фундаментальной лемме Неймана-Пирсона для любого фиксированного £ 6 (0, С] наилучший (наиболее мощный) критерий для проверки гипотезы Но против простой альтернативы
основан на логарифме отношения правдоподобия
Н0:в = 0
против последовательности сложных близких альтернатив вида
H„i :9 = 4=. 0 <t<C, С> 0, V«
где 1(х,в) = logр{х,в), и отвергает гипотезу Но, если
Лn(t) > Cnlt,
причем критическое значение выбирается из условия
Pn,o(A„(t) > Cn,t) = а, 13
где а е (0,1) — фиксированный уровень значимости, и мы для простоты предполагаем непрерывность распределения Л„(4) при гипотезе Но, то есть считаем, что
Рп,о(Лп(«) = <40 = 0.
Обозначим через /9^(4) мощность такого критерия, то есть положим /Ш = Рп,^(К(*)>Сп,1).
Поскольку í неизвестно, мы не можем использовать статистику Лп(£) для построения критерия проверки гипотезы Но против альтернативы Нп1. Однако /5*({) дает верхнюю границу для мощности любого критерия при проверке гипотезы Но против фиксированной альтернативы НП(, £ > 0 и может служить стандартом при сравнении различных критериев.
Ранее (см., например, [16]) при естественных условиях регулярности, состоящих в существовании необходимого числа моментов случайных величин 1(Х1,0) и всех необходимых производных по 0 функций 1(х,0), при п -4 оо были получены следующие соотношения
ДЛ»(«)|Но) —+ ЛГ (-#1/2,1*1),
ЦАМ»п*) —> Я(#1/2,#1), т —»г® = ц^1~иа), (ю)
где
Р\х) =
, ^ = 1,2,.
)=о
/ = Ео^'1^^))2 — фишеровская информация, £(Лп(£)|Но), £(Лп(й)|Нп^) — распределения Лп(2) при соответствующих гипотезах, N — нормальное распределение с соответствующими параметрами и иа = Ф_1(1 — а).
Для проверки гипотезы Но против альтернативы Н„{ существуют критерии, основанные на статистиках, отличных от Л„(£) и не зависящих от t, и имеющие ту же предельную мощность /3* (¿). Такие критерии называются
асимптотически наиболее мощными (AHM) (точнее локально AHM, поскольку альтернатива Н„д имеет локальный характер). Таковы, например, критерии, основанные на статистиках Ln \ An(io), где to > 0 фиксировано, оценках максимального правдоподобия. Все эти статистики не зависят от неизвестного параметра t, и поэтому могут быть использованы при проверке гипотезы Hq против альтернативы Нпд.
Соотношение (10) дает естественную основу для асимптотического сравнения различных AHM критериев, однако для различения критериев такого рода, то есть удовлетворяющих соотношению
ßn(t) —» ß'it), п-> оо,
где ßn(t) — мощность конкретного рассматриваемого критерия, нужны следующие члены асимптотического разложения ß„(t), то есть представление типа
ßM = ß*(t) + 4= zu (t) + -h2(t) +....
у/П П
Было обнаружено, что для широкого класса AHM критериев мощность ßn(t) AHM критерия отличается от мощности ß'n{t) наилучшего критерия на величину порядка 1 ¡п. При этом величина
r(t) = lim п(/Ш - ßn(t)),
П-+00
допускает статистическую интерпретацию в терминах необходимого числа наблюдений и позволяет находить асимптотический дефект (см. работы Д. М. Чибисова14'15).
Первоначально выражения для величины r(f) строились с помощью асимптотических разложений для /?*(<) и ßn(t) (см., например, |и,22|). Этот подход технически очень трудоемкий и громоздкий. Однако в работе В. Е. Беницга16 был рассмотрен общий случай в терминах общего статистического эксперимента и приведена теорема, дающая достаточные условия для существования предела
r(t) = Итт-2(/Ш-/Ш)>
п—юо
где т„ -4 0 — малый параметр.
Теорема 8. (Bening, 2000) Пусть выполнены условия регулярности (см. теорему 3.2.1 из работы и 0 < а < 1. Тогда
r(t) = lim г"2 (ß:(t) - ßn(t)) = l edp(d) D(A |A = d),
n—>oo L
22 Hodges J. L., Lehmann E. L. Deficiency //Ann. Math. Statist. - 1970. - Vol. 41, N. 5. - P. 783-801.
где d = — а), Ф)(х) — функция распределения, предельная для ло-
гарифма отношения правдоподобия An(t) при гипотезе Но, р(х) = Ф^я), (Д,Л) '— случайный вектор, предельный для (T~lAn(t), Лп(£)) при гипотезе Но, Д„(i) = Sn(t) — Лn(t), Sn(t) — монотонное (не меняющее мощности критерия) преобразование статистики критерия Тп.
Как уже было отмечено, в типичном случае, когда соблюдены естественные условия регулярности, тп ~ и ßn(t) отличается от /?*(i) на величину порядка тг1. Заметим, что здесь следует различать естественные условия регулярности и условия регулярности, указанные в теореме 8. Естественные условия регулярности заключаются в существовании всех необходимых моментов случайных величин 1{Хi, в) и существовании необходимых производных по в для функций 1(х,в). Отсутствие регулярности может приводить к нарушению естественного порядка п-1 разности ß*(t) — ßn(t) и приводить к другим порядкам.
Назовем обобщенным распределением Лапласа распределение с плотностью вида
р{х) = Са,ье-ах'!"'Цх\ а> О, Ъ > О, х G IR, (И)
где Со, ъ ~~ константа нормировки такая, что
fi « = о;
Ca, 6 = < _v/S_ „ > fi
1М1ЙШ'
2 Г 2 erfc (х) — е~у йу.
V71" J
X
Обобщенное распределение Лапласа может оказаться полезным в тех случаях, когда необходим более тонкий контроль за поведением функции плотности, чем может быть предоставлен однопараметрическими по параметру формы нормальным и лапласовским распределениями. Так, правильно подобрав параметры, можно получить распределение с хвостами менее тяжелыми, чем у соответствующего распределения Лапласа, при этом сохранив существенную особенность негладкости функции плотности, которая отсутствует у нормального распределения.
Обычное распределение Лапласа получается при а — 0. Для этого случая известно, что условия регулярности теоремы 8 не выполнены. Далее всюду будем предполагать а > 0.
Для обобщенного распределения Лапласа с параметром сдвига р(х, в) — р(х — в) рассмотрим задачу проверки простой гипотезы против последовательности близких сложных альтернатив в описанной постановке. Следующая лемма описывают асимптотическое поведение распределения логарифма отношения правдоподобия при основной гипотезе и альтернативе Н„(.
Лемма 9. В случае распределения (11) справедливы следующие соотношения
1а, ь — 2(ЬСа>ь + а) — фишеровская информация,
£(A„(i)|H0) —► M{-Ia,bt2/2,Ia<bt2), £(An(t)\Hn,t) —> Af{la,bt2/2,Ia,bt2),
Из этой леммы вытекает следующее утверждение. Следствие 10. В случае распределения (11) справедливо соотношение ß'n(t) —* ß*(t) = п оо.
Ранее было отмечено, что это соотношение справедливо в регулярном случае. Заметим, что семейство (И), также как и семейство плотностей обычного распределения Лапласа, не является регулярным, поскольку у р(х, в) не существует производной по 0 в точке в = х. Тем самым показано, что отсутствие дифференцируемости по 0 функции плотности р{х, 9) в точке 0 = х качественно не влияет на порядок альтернатив 9п (равный и вид предельной мощности ß*(t).
Рассмотрим критерий, основанный на асимптотически эффективной статистике
1 "
Тп = УраХ., + ¿sign pf,-)].
Заметим, что статистика Тп не зависит от t, и потому может быть использована для проверки гипотезы Но против альтернативы Н„д. Пусть ßn(t) — функция мощности этого критерия заданного уровня а 6 (0,1). Следующая лемма показывает, что критерий, основанный на статистике Тп, является AHM критерием.
Лемма 11. В случае распределения (11) для любого 0 < 5 < 1/2 справедливо соотношение
n\ßl(t) - ßn(t)) —> 0, п-¥оо.
Основным результатом второй главы является получение предела выражения y/n(ßn(t)—ßn{t)) с использованием теоремы 8. Рассмотрим монотонное преобразование статистики Тп вида Sn{t) = tTn — t2Ia, ь/2 и положим An(t) = Sn(t) — Л„(i). В следующей лемме устанавливаются предельные распределения случайной величины у/nAn(t) и случайного вектора {y/nAn{t), Лn(t)) при основной гипотезе.
Лемма 12. Z? случае распределения (11) припоо справедливы следующие соотношения
C(tfiAn(t) |Н0) —> M{0,4Ca,bb2t3/3),
/;((^An(i),An(i))|Ho) M(0,4Caii^is/3,0l-/„1bi2/2l/e,bi2),
г<?е Л/2 — двумерный нормальный закон с соответствующими параметрами.
Эта лемма показывает, что случайные величины y/nAn(t) и Л„(t) асимптотически независимы. Полагая Д и Л независимыми случайными величинами с распределениями, равными предельным распределениям случайных величин tfhAn{L) и Л„(i), то есть
Д ~ JV(0,4Ca>2t3/3), Л ~ M{-Ia,bt2/2,Ia,bt%
и т„ = n~lil, можно на эвристическом уровне из теоремы 8 получить формулу для предела выражения y/n(ß*(t) — ß„(t))- Для формального доказательства этой формулы в диссертации проверены условия регулярности теоремы 8. Таким образом, установлена следующая теорема.
Теорема 13. Для распределения (11) справедлива следующая формула
9С .Ь2/2 с _ \
r(i) = lim Mm-ßn(t)) =
где ip{x) плотность стандартного нормального закона.
Тем самым показано, что обобщенное распределение Лапласа может служить примером применения теоремы 8 для случая нерегулярного распределения и что отсутствие регулярности этого распределения приводит к порядку п-!/2 отклонения мощности асимптотически наиболее мощного критерия от мощности наилучшего критерия, в отличие от регулярного случая, для которого этот порядок равен п~1.
В заключении приводятся выводы диссертационной работы и возможные перспективы дальнейших исследований.
Основные результаты работы
В диссертационной работе получено обоснование возможности использования распределения Лапласа в задачах теории вероятности и математической статистики, возникающего в качестве предельного в случае выборок случайного объема, а также построение примера применения общей теоремы, дающей достаточные условия для существования предела отклонения мощности асимптотически наиболее мощного критерия от мощности на!1лучшего критерия, в случае нерегулярного распределения.
1. Получена оценка скорости сходимости распределения случайной величины, равной максимуму от п независимых случайных величин с одним и тем же дискретным распределением Парето, к обратному показательному распределению при п —> оо.
2. Построены оценки скорости сходимости распределений асимптотически нормальных статистик к распределению Лапласа в случае выборок случайного объема с распределением указанного максимума.
3. Предложены варианты использования полученных результатов в исследованиях с применением [/-статистик, а также линейных комбинаций порядковых статистик.
4. Предложено обобщенное распределение Лапласа, которое при правильном подборе параметров обладает хвостами менее тяжелыми, чем у соответствующего распределения Лапласа, сохраняя при этом существенную особенность негладкости функции плотности, которая отсутствует у нормального распределения.
5. Для этого распределения описана задача проверки простой гипотезы против последовательности сложных близких альтернатив. С применением общей теоремы из работы [16] показано, что отсутствие регулярности приводит к нарушению естественного порядка п-1 разности функций мощности наилучшего и асимптотически наиболее мощного критериев и приводит к порядку
Список публикаций по теме диссертации
1. Бенинг В. Е., Лямин О. О. О мощности критериев в случае обобщенного распределения Лапласа // Информатика и ее применения. — 2009. — Т. 3, № З.-С. 79-85.
2. Лямин О. О. О скорости сходимости распределений некоторых статистик к распределению Лапласа // Обозрение прикладной и промышленной математики. - 2009. - Т. 16, № 6. - С. 1090-1091.
3. Лямин О. О. О предельном поведении мощностей критериев в случае обобщенного распределения Лапласа // Информатика и ее применения. — 2010. — Т. 4, № 3. — С. 49-59.
4. Лямин О. О. О скорости сходимости распределений некоторых статистик к распределению Лапласа // Вестн. Моск. Ун-та. Сер. 15. Вычисл. матем. и киберн. — 2010. - № 3. - С. 30-38.
Подписано в печать:
08.10.2010
Заказ № 4246 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru
Введение
Глава 1. О скорости сходимости распределений некоторых статистик к распределению Лапласа
1.1. Распределение Лапласа.
1.2. Распределение Лапласа как асимптотическая аппроксимация
1.3. Оценки скорости сходимости распределений асимптотически нормальных статистик, построенных по выборкам случайного объема вида (1.9), к распределению Лапласа.
1.4. Применение к ¿/-статистикам и линейным комбинациям порядковых статистик
1.5. Оценка константы.
Глава 2. О мощности асимптотически оптимального критерия в случае обобщенного распределения Лапласа.
2.1. Задача проверки гипотез: асимптотическая постановка.
2.2. Обобщенное распределение Лапласа.
2.3. Асимптотическое поведение логарифма отношения правдоподобия
2.4. Формула для предельного отклонения мощностей.
2.5. Формальное доказательство формулы.
Классическое распределение Лапласа с нулевым средним и дисперсией а2 было введено П. С. Лапласом в 1774 году [54]. С тех пор, наряду с нормальным, оно стало одной из наиболее активно используемых симметричных вероятностных моделей. Это распределение задается характеристической функцией или плотностью
1(х) = —^ ехр{—>/2|ж|/о-}, СГ > 0, же И. (1) сг\/2
Хорошо известно, что распределение Лапласа находит широкое применение при математическом моделировании многих процессов в телекоммуникационных системах, в экономике, финансовом деле, технике и других областях, например, в задачах выделения полезного сигнала на фоне помех. Популярность распределения Лапласа как математической (вероятностной) модели обусловлена тем, что его хвосты тяжелее, чем у нормального распределения (см , например, книги [24, 44, 62], где описывается роль распределения Лапласа в методах робастного оценивания; работу [36], где обосновывается целесообразность использования распределения Лапласа как модели распределения погрешностей измерений в энергетике; стагыо [46], посвященную применению распределения Лапласа для моделирования ошибок в навигации; работу [56], в которой распределение Лапласа применяется в метеорологии; статьи [25, 34], посвященные применению распределения Лапласа в управлении запасами и радиоэлектронике). Во многих работах описано успешное применение распределения Лапласа для моделирования распределения приращений логарифмов финансовых индексов [35, 53, 55]. В работах [38, 39, 47, 57] распределение Лапласа используется как модель логарифма доходов фирм и индивидуумов. Многие работы посвящены применению распределения Лапласа для моделирования распределения логарифма размера частиц при дроблении [26, 27, 37]. Наконец, распределение Лапласа применяется при моделировании статистических закономерностей поведения некоторых характеристик атмосферной [28] и плазменной [12] турбулентности. В [48, 52] можно найти дальнейшие ссылки на работы, в которых описывается применение распределения Лапласа к решению прикладных задач в самых разнообразных областях.
Привлекательность распределения Лапласа в качестве вероятностной модели при решении конкретных прикладных задач во многом обусловливается его экстремальными энтропийными свойствами. Согласно энтропийному (информационному) подходу построения вероятностных математических моделей в условиях неопределенности следует выбирать то модельное распределение, которое обладает максимальной энтропией при заданном условиями задачи комплексе ограничений. Выбор максимально неопределенной модели в определенном смысле соответствует реализации минимаксного подхода. Так распределение Лапласа обладает максимальной энтропией (максимизирует дифференциальную энтропию) в классе всех абсолютно непрерывных распределений, носителем которых является вся вещественная прямая, с нулевым математическим ожиданием и абсолютным моментом первого порядка, равным 1/\/2, а также в классе таких распределений, для которых случайная величина У с распределением из этого класса может быть представлена в виде произведения
У = У'\/У", где случайная величина У имеет функцию распределения из класса всех абсолютно непрерывных распределений, носителем которых является вся вещественная прямая, с нулевым математическим ожиданием и единичной дисперсией, а случайная величина У" имеет функцию распределения из класса всех абсолютно непрерывных распределений, носителем которых является неотрицательная полуось, с единичным математическим ожиданием (см. [49]). Этим свойством часто мотивируется выбор распределения Лапласа в качестве распределения погрешностей измерений, в которых точность (параметр масштаба) изменяется от измерения к измерению случайным образом (см., в частности, [21, 62]). Это свойство,также позволяет построить методику определения характерных временных масштабов в экспериментах с плазменной турбулентностью (см. [12]).
Естественность возникновения распределения Лапласа в задачах теории вероятностей и математической статистики подробно обоснована в недавней работе В. Е. Бенинга и В. Ю. Королёва [1], где была выявлена тесная связь распределения Лапласа с другими вероятностными распределениями и фигурирование распределения Лапласа в качестве сверточной и рандомизационной симметризаций показательного (экспоненциального) распределения, масштабной смеси нормальных законов с нулевым средним при экспоненциальном смешивающем распределении и других смесей, предельного распределения для геометрических случайных сумм (которые играют важную роль в теории надежности; см., например, [40]) асимптотической аппроксимации для распределений регулярных статистик, построенных по выборкам случайного объема. Последний результат стоит отметить особо.
В подавляющем большинстве ситуаций, связанных с анализом экспериментальных данных, можно признать, что число случайных факторов, влияющих на наблюдаемые величины, само является случайным и изменяется от наблюдения к наблюдению. Примеры прикладных статистических задач, в которых объем выборки существенно случаен, можно найти, например, в книгах [13] и [2]. Поэтому вместо различных версий центральной предельной теоремы, обосновывающих нормальность распределения наблюдаемых случайных величин в классической статистике, в таких ситуациях следует опираться на их аналоги для выборок случайного объема.
В первой главе указана довольно простая асимптотическая схема, непосредственно приводящая к распределению Лапласа как к предельному, и, как следствие, дающая обоснование возможности более широкого использования распределения Лапласа в задачах описательной статистики.
Рассмотрим случайные величины N2, ■. ■, Х\, Х2,., определенные на одном и том же измеримом пространстве Л). Пусть на Л задана вероятностная мера Р! Предположим, что при каждом п > 1 случайные величины Ип принимают только натуральные значения и не зависят от последовательности , Х2,. Пусть Тп — Тп(Хг,., Хп) — некоторая статистика, то есть измеримая функция от случайных величин Х\,., Хп. Для каждого п > 1 определим случайную величину , положив ТМпН {Хг(и), . для каждого элементарного исхода со £ П. Будем говорить, что статистика Тп асимптотически нормальна, если существуют числа а > 0 и ^ £ Е такие, что
Р (ау/п(Тп - ц) < х) Ф(ж), п оо. (2)
Примеры асимптотически нормальных статистик хорошо известны. Свойством асимптотической нормальности обладают, например, выборочное среднее (при условии существования дисперсий), центральные порядковые статистики, оценки максимального правдоподобия (при достаточно общих условиях регулярности) и многие другие статистики.
Лемма 1. ([1]) Пусть {с/п}п>1 — неограниченно возрастающая последовательность положительных чисел. Предположим, что Ип —> оо по вероятности при п —> оо. Пусть статистика Тп асимптотически нормальна в смысле (2). Для того чтобы существовала такая функция распределения F(x), что
P(<rVcL(TNn - fi) < х) => F(x), п оо, необходимо и достаточно, чтобы существовала функция распределения Н(х), удовлетворяющая условиям
Н{х) = 0, ж < 0;
F(x) =
Ф(х y/y)dH(y), хеШ- (3)
Р(ЛГП < йпх) Н(х), п —^ оо.
В работе [1] было доказано, что распределение Лапласа является масштабной смесью нормальных законов с нулевым средним при экспоненциальном смешивающем распределении, то есть доказана следующая лемма.
Лемма 2. ([1]) Для любого хбй
А(х) = где ш dE(z),
Л(ж) = { г х > 0, функция распределения распределения Лапласа, соответствующая плотности 1(х), определенной в формуле (1), с а = 1; и 1 - е~х, х > 0, Е(х) = { (4) 0, ж < 0.
Смесь (3) отличается от той, которая фигурирует в лемме 2, тем, что смешивающий параметр стоит не в знаменателе аргумента подынтегральной функции распределения, а в числителе. Поэтому, если Н{х) из леммы 1 совпадает с функцией обратного показательного распределения Q(x), то предельная функция F(x) является функцией распределения Лапласа.
Обратное показательное распределение — это распределение случайной величины
У = 1 W где случайная величина С/ имеет показательное распределение Е(х) (см. формулу (4)). При этом
Э(ж) = Р(У < х) = Р < х^ = Р (V > ^ - 1 - Е ^ = с""1/*, ж > 0. (5)
Обратное показательное распределение является частным случаем распределением Фре-ше, хорошо известного в асимптотической теории экстремальных порядковых статистик как предельное распределение типа II (см., например, [8]).
Таким образом, распределение Лапласа допускает представление в виде смеси
А(®) = при этом изменение значения параметра формы обратного показательного распределения влечет изменение параметра масштаба (дисперсии) итогового распределения Лапласа. Точнее, если
Я(х) = е~6'х, 5 > 0, (6) то соответствующая плотность распределения Лапласа имеет вид
Кх) = \Ке-^*К = (7)
V ^ о
Из леммы 1 непосредственно следует следующая теорема.
Теорема 3. ([1]) Пусть 5 > 0 произвольно и {с?п}п>1 — некоторая неограниченно возрастающая последовательность положительных чисел. Предположим, что —> оо по вероятности при п —> оо. Пусть статистика Тп асимптотически нормальна в смысле (2). Для справедливости соотношения
Р(ау/Гп(Т^ - ц) < х) =ф- А (ж), п оо, где А(х) — функция распределения распределения Лапласа, соответствующая плотности 1(х) с параметром масштаба 5 (см. (7)), необходимо и достаточно, чтобы
Р(ЛГ„ < йпх) ==> Я(х), п оо, где <3(х) — обратное показательное распределение с параметром формы 5 вида (6).
Приведем пример ситуации, в которой случайный объем выборки имеет предельное распределение Q(x) вида (6). Пусть Уь У2) • ■ ■ — независимые одинаково распределенные случайные величины с одной и той же непрерывной функцией распределения. Пусть т — произвольное натуральное число. Обозначим
N(m) — min{n > 1 : max Yj < max Yk}.
1 < j < m т + 1<к<тп + п
Случайная величина N(m) имеет смысл количества дополнительных наблюдений, которые надо произвести, чтобы текущий (по т наблюдениям) максимум был перекрыт. Распределение случайной величины N(m) было найдено С. Уилксом, который в работе [64] показал, что распределение величины N(m) является дискретным распределением Парето:
771
P(iV(m) > = fc>l (8) см. также [19], с. 85). Пусть теперь . — независимые случайные величины с одним и тем же распределением (8). В работе [1] было доказано, что для любого х > О
Р (- • max N^im) < ж J е~т/х, п оо. \п 1<3<п J
Заметим, что в правой части предельного выражения стоит функция распределения обратного показательного распределения Q(x) с параметром формы 5 = т (см. (6)). Поэтому, если положить
Nn = max NW(m), (9)
1 < j < n теорема 3 с dn = n дает иллюстрацию того, как вместо ожидаемого в соответствии с утверждениями классической асимптотической статистики нормального распределения при замене объема выборки случайной величиной в качестве предельного распределения регулярных статистик возникает распределение Лапласа.
Теорема 4. ([1]) Пусть т — произвольное натуральное число. Предположим, что
N^(m),. — независимые случайные величины с одним и тем же распределением (8), и случайная величина Nn определяется формулой (9). Пусть статистика Тп асимптотически нормальна в смысле (2). Тогда
Р (a\/n(TNn - ß) < х) ==» А(ж), 71 —^ оо равномерно по х £ 1R, где А(х) — функция распределения Лапласа с плотностью вида (7) с6 = т.
Таким образом, основной вывод из приведенных выше результатов можно сформулировать следующим образом. Если число случайных факторов, определяющих наблюдаемое значение случайной величины, само является случайной величиной, распределение которой может быть приближено обратным показательным распределением (например, является случайной величиной вида (9)), то те функции от значений случайных факторов, которые в классической ситуации считаются асимптотически нормальными, в действительности являются асимптотически лапласовскими.
Далее приведена общая теорема, позволяющая автоматически получать оценки скорости сходимости распределений статистик, построенных по выборкам случайного объема, к распределению Лапласа из оценок скорости сходимости к нормальному закону этих же статистик, но уже построенных по обычным, неслучайным выборкам. При этом предполагается, что объем выборок является случайной величиной вида (9).
Пусть Ип — случайная величина вида (9) с некоторым натуральным параметром те. Нас будет интересовать предельное поведение распределения случайной величины Мп/п при п —> оо. В главе 1 доказана следующая теорема.
Теорема 5. Для каждого натурального т существует константа Ст > 0 такая, что sup я;>0
Р < s) - Q(x) п-> оо (10) п где 1УП — случайная величина, определяемая формулой (9), а — функция распределения обратного показательного распределения, определяемая формулой (6) с 5 = т. При этом
8е~2/3, те = 1,
Затем эта теорема применяется следующим образом.
Пусть Тп — Tn(Xi,., Хп) — асимптотически нормальная статистика, и для ее распределения справедлива оценка скорости сходимости вида: для некоторого 0 < s < so < 2 существуют числа а > 0 и (j, е IR такие, что
SUp |Р {л/пО'{Тп — ц) < х) - Ф(ж)) = 0(n~S), 72 -»ОО. х
Пусть Nn — случайная величина вида (9) с некоторым натуральным параметром те, которая не зависит от исходных случайных величин Х\, Х2,. и п —> оо. Пусть А (ж) — функция распределения Лапласа с плотностью вида (7) с 5 = т. Рассмотрим статистику TNn, построенную по выборке случайного объема Nn, то есть
Tn„ = TNn(Xi,. XNn).
В главе 1 доказана следующая теорема.
Теорема 6. Пусть распределение статистики Тп = Тп(Хi,. ,Хп) удовлетворяет соотношению sup |р {у/псг(Тп - ¡л) < х) - Ф(ж)| = 0{n~s), оо , х тогда распределение статистики TNn = Tpjn(Xi,. ,Xpjn), где случайная величина Nn определена в (9), удовлетворяет равенству sup |Р (\/псг(Тмп - д) < х) - А(ж)| = e>(n~min{M}), п —^ оо. X
Далее приведены два примера использования теоремы 6. Первый пример касается iZ-статистик, а второй — линейных комбинаций порядковых статистик, широко применяемых в статистике (см., например, [15, 29, 41, 61].
Пусть (Xi,. ,Хп) - повторная выборка независимых одинаково распределенных случайных величин, имеющих общую функцию распределения F(x). Определим U - статистику Тп^ по формуле
Т"1> = пТгг^Т) £ (")
1<г<7<п где ядро h(x, у) - симметричная измеримая функция двух переменных. Введем также следующие функции g(x) = E(h(X1,X2)\X1 = х), Ф(х,у) = h(x,y) - д(х) - д(у). (12)
В работе [43] доказана следующая теорема.
Теорема 7. ([43]) Пусть выполнены следующие условия
Eh(XuX2) = 0, E|/ipfi,X2)|p < оо, р > 5/3,
Ед2{Х{) > 0, E|s(Xi)|3 < оо.
Тогда справедливо соотношение sup |Р {у/титхтМ <х)~ Ф(ж)| = С?(п"1/2), п -»• оо, х где WW)-1.
Определим теперь линейные комбинации порядковых статистик. Пусть (Х\-п < . < Хп:п) - вариационный ряд, построенный по исходной выборке (Xi,., Хп). Тогда линейная комбинация порядковых статистик определяется по формуле
1 п
Tj2> = -Г^Дь, (13) п г=1 где сгп - некоторые числа. Справедлива следующая теорема. Теорема 8. ([41, 4%]) Пусть выполнены следующие условия
E|Xi|3 < оо и существует функция J(s), заданная на (0,1), удовлетворяющая условию Липшица и такая, что max i<i<n г In
Сгп TL
J(s)ds i-l)/n
0(n-1).
Тогда справедливо соотношение sup |- ¡.lo) < x) — Ф(®)| = G(n V2), n oo, X где =
J(s)F~1(s)ds, F-1(s) = inf{rc : F(x) > s},
J(F(x))J(F(y)) (min(F(x), F(y)) - F(x)F(y)) dxdy.
Пусть теперь -Л/"п - случайная величина вида (9) с некоторым натуральным ш, которая не зависит от исходных случайных величин . в п —>• оо. Рассмотрим теперь статистики (см. определения (11) и (13)) Т^, г = 1,2, построенные по выборке случайного объема то есть трп = Т$>п{Х
Следующая теорема является непосредственным следствием теоремы 6.
Теорема 9. Пусть для статистик Тп\ г = 1,2 выполнены условия регулярности, сформулированные в теоремах 7 и 8. Тогда распределения статистик Т$п = Т$п(Х1,. ■ ■ ,Хмп), г = 1,2, где случайная величина Мп определена в (9), удовлетворяет равенству п
71 вир Р- !1г) < х) - А(х) = 0{п~п —> оо, п X где величины аг, г = 1,2; ц\ = О, = Ц определены в теоремах 7 и 8, а А(х) - функция распределения Лапласа с плотностью вида (7) с 5 = т.
Вернемся к теореме 6. Эта теорема описывает порядок скорости сходимости распределений статистик Тмп, построенных по выборкам случайного объема, к распределению Лапласа с учетом скорости сходимости распределений статистик Тп, построенных по выборкам большого, но не случайного объема. В главе 1 получены предельные выражения для константы в этой оценке.
Пусть теперь для асимптотически нормальной статистики Тп = Тп(Хх,., Хп) справедлива оценка вир \Р(л/па(Тп -ц)<х) - Ф(х) | < Сп~% 0 < в < во < 2, п = 1,2,., (14) где С — некоторая константа; — случайная величина, определенная в (9) при некотором натуральном т. При условии независимости при каждом п > 1 случайной величины Хп от каждой из случайных величин из последовательности Х\,Х2, ■ ■ • теорема 6 дает следующую оценку для функции распределения статистики Тдгп: зир \Р(у/па(ТКп - И) <х) - Л(аг)| < С5тГ т'п(1'в) + о(п~т1п^), п ^ оо, (15) где А(х) — функция распределения распределения Лапласа, соответствующая плотности вида (7) с 5 — т. Через Сх^п обозначим константу следующего вида X X т = 1, т>2.
Теорема 10. Для константы Св из формулы (15) справедливо соотношение где С — константа из неравенства (14).
Приведем пример использования этой теоремы. Пример. Пусть Xi,., Хп — независимые одинаково распределенные случайные величины с мат. ожиданием 0 и дисперсией 1. Положим /i3 = E|A"i|3. Тогда для статистики Тп = Yji=iXi/n по неравенству Берри-Эссеена справедлива оценка (см. [51]) sup|P(v^rn <х) - Ф(х)| < Ml^tl. х у/П
Пусть Nn — случайная величина вида (9) с некоторым натуральным га. Применяя теорему 10 для случая s = 1/2, получим
Id t г-гг \ * / м ^ O.47840F//3 1 / 1 \ sup Р (VnTNn < х) - Л(ж) < -п г----7= + о -7= . т 1 4 • ' 1 2i/m у/п \vW
Справедлива также более грубая, но не зависящая от т, оценка: sup jP (VriTNn < х) - Л(®)| < 0.2392л/^^з • ~ + о х у/ТЬ
В главе 2 рассматривается асимптотическая задача проверки гипотез с использованном подхода Питмэна. Рассмотрим задачу проверки простой гипотезы в случае однопа-раметрического семейства. Пусть имеются независимые наблюдения Х„ = (Х[,. ,Хп), каждое из которых принимает значения в измеримом пространстве (X, Л) и имеет неизвестную с точностью до параметра в плотность р(х,в) относительно некоторой о - конечной меры и(-) на Л. Предположим, что неизвестный параметр в принадлежит открытому множеству Э с И, содержащему 0. Обозначим через Рп,в, ЕП1<? соответственно распределение и математическое ожидание Хп, а через Ро, Ео соответственно распределение и математическое ожидание Х\.
Рассмотрим задачу проверки простой гипотезы
Н0:в = 0 против сложной альтернативы 9 ф 0. В общем случае наилучшего (равномерно наиболее мощного) критерия не существует, и поэтому рассмотрим асимптотический подход, при котором га —>• со. Рассмотрим сначала простую альтернативу (в\ известно)
Нг : в = 01 ф 0.
Согласно фундаментальной лемме Неймана-Пирсона наилучший (наиболее мощный) критерий основан на логарифме отношения правдоподобия п i=1 где 1(х, в) = logр(х, в), и отвергает гипотезу Н0 в случае, если
Л„(0) > Сп, причем критическое значение сп выбирается из условия
Pn,o(An(0i) > Сп) = а, где а е (0,1) — фиксированный уровень значимости, и мы для простоты предполагаем непрерывность распределения A7l(#i) при гипотезе Но, то есть считаем, что
Pn,o(An(#i) = Сп) = 0.
Обозначим через fi*(9i) мощность наилучшего критерия для проверки гипотезы Н0 против альтернативы Hi, основанного на статистике An(£?i), то есть
Р*п(01) = Pn,ei(A„(^i)>cn).
В работе [29] было показано, что этот критерий состоятелен, то есть справедлива следующая лемма.
Лемма 11. ([29]) Если сг2(0) > 0, а2(в1) > 0, то
РЖ) 1, п оо
Факт стремления мощности /3*(вi) к единице, а точнее скорость сходимости к единице, может быть использован для сравнения различных состоятельных критериев (см., например, [20] и обзор, приведенный там). Рассмотрим несколько иной подход к сравнению различных критериев, основанный на идеях Питмэна (см. [60]), согласно которому для получения нетривиального предела мощности /3^(01), заключенного между а и 1, рассматривают последовательность альтернатив в\ = вп, стремящуюся к нулю с определенной скоростью.
Будем рассматривать задачу проверки простой гипотезы Но против последовательности сложных близких альтернатив вида
НпД : в = 4=, 0 < t < С, С > 0, у/п где параметр t неизвестен. Для любого фиксированного Ь е (О, С] наилучший критерий для проверки гипотезы Н0 против простой альтернативы
Нп, : в = основан на логарифме отношения правдоподобия
Обозначим через мощность такого критерия уровня а е (0,1). Поскольку t неизвестно, мы не можем использовать статистику Лп(£) для построения критерия проверки гипотезы Н0 против альтернативы НП)1. Однако так называемая огибающая функция мощности, дает верхнюю границу для мощности любого критерия при проверке гипотезы Н0 против фиксированной альтернативы Нп>4, £ > 0 и может служить стандартом при сравнении различных критериев.
Найдем предельное выражение для /3*(£). В работе [29] при естественных условиях регулярности было получено стохастическое разложение для Лп(£) в виде
М*) = + + (16) где ьп = -7= - Ео/«^)), .7 = 1,2,., 1 j = 1,2,. е=о и / = E0(/^(Xi))2 — фишеровская информация. Критерий, основанный на логарифме отношения правдоподобия Лn(i), отвергает гипотезу Н0, если
Л„(*) > Сп,и (17) где критическое значение выбирается из условия
Pn,o(A„(t) > Cntt) = а.
Поскольку An(t) есть сумма независимых одинаково распределенных случайных величин, то согласно центральной предельной теореме имеем при п —У оо
Kn{t) - Е0Аn(t) С
Do K{t)
Но ) —> -А/"(0,1), (18) откуда, с использованием хорошо известного факта, состоящего в том, что
E0/(l)(Xi) = О, E0/(2)(*i) = -I, следует, что
A„(i)|H0) —> Л/"(—i2//2,i2/). (19)
Из соотношения (17) теперь получаем (поскольку сходимость функций распределения к нормальной функции распределения равномерна), что
Cn,t —> Ct = t\flua - | t2I, (20) где ua = Ф-1(1 — а) и Ф(ж) — функция распределения стандартного нормального закона. Аналогично из (16) получаем, что
An(i)|Hn,t) —У Af{t2I/2,t2l). (21)
Теперь с учетом соотношений (20), (21) и
РпУ) = (An,t > Cn,t) имеем n(t) —* ß*(t) = Ф(£\/Т-гха), n^oo. (22)
Заметим, что для проверки гипотезы Но против альтернативы Нt существуют критерии, основанные на статистиках, отличных от Лn(i) и не зависящих от t, и имеющие ту же предельную мощность ß*(t). Такие критерии называются асимптотически наиболее мощными (AHM) (точнее локально AHM, поскольку альтернатива НГ1д имеет локальный характер). Таковы, например, критерии основанные на статистиках
An(to), где to > 0 фиксировано, оценках максимального правдоподобия и другие. Все эти статистики не зависят от неизвестного параметра t, и поэтому могут быть использованы при проверке гипотезы Н0 против альтернативы Нпд.
Соотношение (22) дает естественную основу для асимптотического сравнения различных AHM критериев, однако, для различения критериев такого рода, то есть удовлетворяющих соотношению n{t) ß*(t), п-> оо, где ßn(t) — мощность конкретного рассматриваемого критерия, нужны следующие члены асимптотического разложения ßn(t), то есть представление типа n(t) = ß*(t) + 4= м^ + -ш +.
Jn п
Асимптотическим разложениям в статистике посвящена работы [23, 30, 32, 59]. При этом было замечено, что при выполнении естественных условий регулярности для AHM критериев совпадают и члены hi(t), различия наступают в членах порядка МО- Этим вопросам посвящены работы [23, 29, 59]. При этом величина r(t) = lim n{ß*n{t)-ßn(t)), (23)
П—УОО допускает статистическую интепретацию в терминах необходимого числа наблюдений и позволяет находить асимптотический дефект (см. [23, 29, 45]).
Соотношение (23) может быть понято следующим образом. Предположим, что статистику Тп AHM критерия можно монотонным преобразованием (не меняющим мощности критерия) преобразовать в статистику Sn(t) такую, что величина
Д„(*) = Sn(t) - An(i) —* 0, п оо (24) по вероятности относительно распределений РП)0 и Рn,t/y/n- Тогда критерий, основанный на статистике Sn(t), имеет те же предельные распределения при гипотезах Но и Hnjt, что и критерий, основанный на Лп(£), и, следовательно, ту же предельную мощность ß*(t). Например, для AHM критерия, основанного на статистике Ln\
Т = Lw тогда, полагая (см. (16))
Sn(t) = tTn-±t2I, получим
An(t) = + .—> 0, TL У оо. (25)
Z у/П
В том типичном случае, когда An(t), как в (25), имеет порядок можно ожидать, что мощность ßn(t) критерия, основанного на Sn(t) (или на Тп), отличается от /3*(i) на величину порядка 1 /л/п. Однако было обнаружено, что для широкого класса AHM критериев это отличие имеет порядок 1 /п (см. [23], [29]).
Первоначально выражения для r(t) (см. (23)) строились с помощью асимптотических разложений для ß*(t) и ßn(t) (см. [45]). Этот подход технически очень трудоемкий и громоздкий. Однако в работах [23, 29] была получена общая формула для величины r(í) без построения асимптотических разложений. Для ее демонстрации обозначим A(í) нормальную случайную величину вида M (—\t2I, t2l), тогда в силу (19)
C(An(t)|Н0) Л/*(—¿2J/2,í2/), (26) и предположим, что при гипотезе Но случайный вектор
An(t), An(í)) (27) имеет предельное распределение (типичным образом двумерное нормальное), совпадающее с распределением вектора
A(¿), A(í)), (28) тогда в работах [23, 29] показано, что r(t) = <р(иа - ív7) D(A(Í) IA(f) = Ct), (29) где et = ty/lua -\t2I vl ip(x) = Ф'(ж).
В работе [29] рассмотрен общий случай в терминах общего статистического эксперимента и приведена общая теорема, дающая достаточные условия для существования предела r(t) = lim г"2 (Р*п - ДО = lebp(b)D(A\A = h), п—>оо ¿ где Ь — Ф]"1(1 — Ф1(®) ~ функция распределения, предельная для логарифма отношения правдоподобия Лп при гипотезе Н0, р(х) = Ф'^з:) и тп 0 — малый параметр, (А, Л) — случайный вектор, предельный для (г~1Дп, Лп) при гипотезе Н0, Ап = Sn — Ап, Sn — монотонное преобразование статистики критерия Тп.
Для случая абсолютно непрерывных распределений эта теорема формулируется следующим образом:
Условие 1. Существует последовательность тп 4- 0 и непрерывно дифференцируемые, не зависящие от п функции Фх(ж) и Фг(ж) такие, что Ф].(а;) имеем ограниченную производную р(х) = Ф'^ж) > 0 и
1. sup |Pn,o {Лп < х} - Фх(ж) - тпФ2(ж)| = о(т„); х
2. sup Р„tt/^a{x < Лп < ж + = о(т2) для некоторого ¡3 > 0 и произвольного
Х< ХО х0 е JR.
Условие 2. Существует последовательность 7п 4- 0,7П = о(тп такая, что
1. т-1 ЕП,0Д2 1(7„,оо)(|Ап|) = о(т2);
2. ЕП1оехр{Лп}|Ап|1(7п10о)(|Дп|) = о(т2), где Д„ = 5„ - ЛП,5П = апТп + Ьп для некоторых ап > 0,Ьп £ Н.
Условие 3. Существуют действительные случайные величины Д,Л, Л с плотностью распределения р(х) из условия 1, и последовательность ап 4,0,0 < Ф(п) < Ф(п),Ф(гг) —> оо такие, что
ГпЧОЧ-'ф-'Мехр!-^2^)^} 0, ^(т"17п)2Ф3(п) оо, Ф-'(п)Ф(п) = о(тп2), и2 = где ¡3 берется из условия 1, а также:
1. для I = 0,1 интегрируема и
J (Qn,i(s) - qi(s))ds о, где q„ti(s) = ЕП)о exp{¿sAn} exp{isrnz}zldz,
Тп 1Д« ф) = -—í-y Еехр{мЛ}Дт; 2. справедливы соотношения т~Ч(п) sup |Eni0exp{¿sS,n}An| 0, (30) п)<И<Ф(п) г^шах^НДф-1^)-^-1^)^-1) sup |En>o exp{z'sA„}| —0, (31)
Ф(п)<И<Ф(п)
Тп1 шах(Ф(п), г"1) sup |En,0exp{isSn}| 0, (32) п)<М<Ф(п) где
Ф(п) = 1оё(Ф (п)Ф1(п)). Теорема 12. ([29]) Пусть выполнены перечисленные условия 1-3, и 0 < а < 1. Тогда lim г"2 (ß* -ßn) = \ еьр(Ь) D(A |А = Ь), (33) п—► оо ¿ где Ъ = — а); Ф1 (х),р(х) — функции из условия 1; Д и Л — случайные величины из условия 3.
Из этой теоремы следует следующий результат: если для некоторой монотонно убывающей последовательности тп величина An(t) (см. (24)) имеет порядок тп (в том смысле, что главный член стохастического разложения имеет порядок тп), или
C{r~^n{t) |Н0) —► £(Д(*)), и выполняются условия теоремы 12, то мощность ßn(t) критерия, основанного на статистике Тп, отличается от мощности ß^(t) наилучшего критерия на величину порядка при этом коэффициенты, стоящие при членах порядка т^ в асимптотических разложениях мощностей ßn{t) и ß*{t) отличаются на величину, определяющуюся формулой (33).
Как уже было отмечено, в типичном случае, когда соблюдены условия регулярности, тп = та~1/2 и ßn{t) отличается от /?*(£) на величину порядка и-1. Условия регулярности заключаются в существовании всех необходимых моментов случайных величин 1(Х\,0) и существовании необходимых производных по в для функций 1{х, в). Отсутствие регулярности может приводить к нарушению естественного порядка £ разности ßnif) — ßn{t) и приводить к другим порядкам.
Так, в работе [14] было рассмотрено стандартное распределение Лапласа с параметром сдвига, т.е. семейство плотностей которое не является регулярным, поскольку у р(х, в) не существует производной по в в точке в = х. Факт нарушения обычных порядков при сравнении оценок в случае распределения Лапласа был отмечен в работе [59]. При этом там была ссылка на работу [63], в которой на эвристическом уровне построено асимптотическое разложение для оценок максимального правдоподобия. Строгое доказательство для таких оценок дано в работе [6]. Далее в работе [14] было показано, что для распределения Лапласа с параметром сдвига и статистики AHM критерия
Тп = 4=Vsign(X0, (34) предельное распределение величины y/nAn{t) (см. (24)) совпадает с распределением нормальной случайной величины с параметрами (0, § i3) и на эвристическом уровне (без проверки условий) из теоремы 12 была получена формула r(t) = lim y/ii{ß'(t) - ßn(t)) = %<p(ua-t), (35) n-*oo о где ßn(t) — функция мощности критерия, основанного на статистике (34). В работе [3] прямым методом были получены асимптотические разложения для мощностей ßn (t) и ßn(t), из которых непосредственно следует формула (35). Однако, как оказалось, достаточные условия (условия 1-3) теоремы 12 для этой формулы не выполнены, в частности нарушено условие 3. Поэтому, хотя согласно результатам работы [3] формула (35) является верной, распределение Лапласа не может являться примером такого распределения, для которого тп в теореме 12 отличается от п"1!2 и равно Отсутствие такого примера может говорить в пользу того, что условия теоремы 12 слишком сильны и выполняются только в регулярном случае, что существенным образом ограничивает множество ситуаций, в которых эта теорема может быть применима, и уменьшает ее прикладное значение. Таким образом, невыполнимость условий достаточности теоремы 12 для случая распределения Лапласа оставляет актуальным вопрос поиска подходящего примера.
Назовем обобщенным распределением Лапласа распределение с плотностью вида р{х) = Са,ъе-ах2~Цх\ о > 0, 6 > 0, жеЖ, (36) где Са> ъ — константа нормировки такая, что
Са,ь = *
I, а = 0;
I а>0 и оо erfc(a;) = -7=
Л J dy.
Обощенное распределение Лапласа может оказаться полезным в тех случаях, когда необходим более тонкий контроль за поведением функции плотности, чем может быть предоставлен однопараметрическими по параметру формы нормальным и лапласовским распределениями. Так, правильно подобрав параметры, можно получить распределение с хвостами менее тяжелыми, чем у соответствующего распределения Лапласа, при этом сохранив существенную особенность негладкости функции плотности, которая отсутствует у нормального распределения.
Обычное распределение Лапласа получается при а = 0. Для распределения Лапласа задача проверки простой гипотезы против последовательности сложных альтернатив детально разобрана в работе [14]. Кроме того, как было отмечено выше, обычное распределение Лапласа не может являться примером применения теоремы 12 для случал нерегулярного распределения. Поэтому далее всюду будем предполагать а > 0.
Для обобщенного распределения Лапласа рассмотрим задачу проверки простой гипотезы против последовательности близких сложных альтернатив, т.е.
Н0 : в = О,
H„,i : в = 0 < t < С, С > О, у/п на основе выборки (Ai,. ,Хп) — независимых одинаково распределенных наблюдений, имеющих распределение с плотностью вида (36). Для любого фиксированного t G (О, С] наилучший критерий всегда существует согласно фундаментальной лемме Неймана-Пирсона и основан на логарифме отношения правдоподобия An(t) п
Лп(0) = ^ - 1(Х» ^ i=1
An(i) = An(tn~V2), где 1(х,в) = logр{х,в), в > 0.
Обозначим через ß*(i) мощность такого критерия уровня a € (0,1). Заметим, что поскольку t неизвестно, мы не можем использовать статистику A„(i) для построения критерия проверки гипотезы Но против альтернативы Н„д. Однако, как было отмечено в предыдущем разделе, ß*(t) дает верхнюю границу для мощности любого критерия при проверке Н0 против фиксированной альтернативы
Hn,t : в = —т=5 t > 0, л/п и может служить стандартом при сравнении различных критериев.
Ранее отмечалось, что для проверки Н0 против Нпд существуют (асимптотически наиболее мощные, или AHM) критерии, основанные на статистиках, отличных от Лn(t), и имеющие ту же предельную мощность /?*(£). Там же было отмечено, что среди них существуют критерии, основанные на статистиках, которые не зависят от неизвестного параметра t, и поэтому могут быть использованы при проверке гипотезы Но против сложной альтернативы Нпд.
Основным результатом второй главы является доказательство следующей теоремы.
Теорема 13. Для обобще?шого распределения Лапласа (36) справедлива формула
2С ub2t2 / \ r(t) = lim ~ Ш) = Ч> (t^TZb- иа) , (38) n-Wo Oy/Ia,b 4 7 где (Зп{Ь) — функция мощности АНМ критерия, основанного на статистике
Тп = ¿[2аХ1 + Ьз\Еп (ЗД (39) г=1 уровня а е (0,1) и Ф(иа) = 1 - а.
Доказательство проводится в несколько шагов:
1. Сначала доказывается, что
Ш £*(*) = Ф{1у/1^ъ-иа), п У оо. (40)
Ранее было отмечено, что это соотношение справедливо в регулярном случае. Заметим, что семейство (36), также как и семейство плотностей обычного распределения Лапласа, не является регулярным, поскольку у р(х, в) не существует производной по в в точке в = х. Доказав (40), мы тем самым покажем, что отсутствие дифферен-цируемости по в функции плотности обобщенного распределения Лапласа р(х, в) в точке 9 = х качественно не влияет на порядок альтернатив 0п (равный и вид предельной мощности /?*(£).
2. Затем при гипотезе Но находятся предельные распределения для величины •^/пДТ1(£) и случайного вектора (^пАп(£), А„(£)), где Д71(/) = £„(£) — А„(£) и £"„(£) — монотонное (не меняющее мощность критерия) преобразование статистики Тп (см. (39)), и, в частности, показывается, что величина Ап(Ь) имеет порядок 1 / \/п. На этом этапе уже можно получить на эвристическом уровне формулу (38).
3. И наконец проводится формальное доказательство формулы (38) с применением теоремы 12.
На первом этапе получены соотношения, описывающие асимптотическое (п оо) поведение логарифма отношения правдоподобия Лп(£) как при гипотезе Но, так и при альтернативе Нп 4. Справедлива следующая лемма.
Лемма 14. В случае распределения (36) справедливы следующие соотношения
1а, ь = 2 (ЬСа,ь + а),
Л„(£)|Н0) ЛГ(-1а,ь?/2,1а^2), £(Лп(г)|Нп,г) ЛГ(/а,ь£2/2,/а,ь£2), п оо.
Эта лемма показывает, что отсутствие дифференцируемости по в функции р(х, в) (см. (36)) в точке в — х качественно не влияет на порядок альтернатив вп, равный Из леммы 14 и результатов для регулярного случая, приведенных выше (см. вывод формулы (22)), вытекает
Следствие 15. В случае распределения (36) справедливо соотношение
Ш /?*(*) = п оо.
На втором этапе показывается, что справедлива формула для предельного отклонения разностей мощностей (38). Для этого доказывается следующая лемма.
Лемма 16. В случае распределения (36) справедливы следующие соотношения
Дп(г)|Но) ЛГ(0,4Са,ьЬН3/3), где Я2 — двумерный нормальный закон с соответствующими параметрами.
Из этой леммы следует, что случайные величины -у/пД„(£) и Л„(£) асимптотически независимы, и, полагая Л(£), Д(£) — независимые нормальные случайные величины, распределенные соответственно с параметрами 2,1а,ь¿2)> (0,4Са,ьЬН3/3) и — —
I &
2'' , получаем формулу для г(£) вида (38), пользуясь соотношением (29).
На третьем этапе проверяются условия теоремы 12 и проводится формальное доказательство формулы (38).
Из доказанной теоремы 13 следует, что:
1. Отсутствие регулярности обобщенного распределения Лапласа приводит к порядку л-1/2 отклонения мощности асимптотически наиболее мощного критерия от мощности наилучшего критерия, в отличие от регулярного случая, для которого этот порядок равен п-1.
2. Обобщенное распределение Лапласа в случае а > 0 является примером применения общей теоремы 12, дающей достаточные условия для существования предела этого отклонения, в нерегулярном случае.
Выражаю благодарность своему научному руководителю Владимиру Евгеньевичу Бенин-гу, под руководством которого проходила работа над диссертацией, за постановку задач и постоянное внимание к работе.
Все основные результаты диссертации являются новыми и состоят в следующем.
1. Получена оценка скорости сходимости распределения случайной величины, являющейся суперпозиций специального вида бесконечно большого числа случайных величин с дискретным распределением Парето, к обратному показательному распределению.
2. Построены оценки скорости сходимости распределений асимптотически нормальных статистик к распределению Лапласа в случае выборок случайного объема с распределением указанной суперпозиции случайных величин.
3. Предложены варианты использования полученных результатов в исследованиях с применением '{/-статистик, а также линейных комбинаций-порядковых статистик.
4. Предложено обобщенное распределение Лапласа, которое при правильной "подгон-ке"параметров обладает хвостами менее тяжелыми, чем у соответствующего распределения Лапласа, сохраняя при этом существенную особенность негладкости функции плотности, которая отсутствует у нормального распределения.
5. Для этого распределения описана задача проверки простой гипотезы против сложной альтернативы в постановке Питмэна. С применением общей теоремы из работы [29] показано, что отсутствие регулярности приводит к нарушению естественного порядка гГ1 разности функций мощности наилучшего и асимптотически наиболее мощного критериев и приводит к порядку п-1/2.
По результатам диссертации перспективой дальнейших исследований может быть
1. Получение для случая выборок случайного объема предельной теоремы, в которой в качестве предельного распределения фигурирует асимметричное распределение Лапласа.
2. Получение оценок скорости сходимости распределений статистик, построенных по выборкам случайного объема, к асимметричному распределению Лапласа.
3. Получение асимптотических разложений функций мощности наилучшего и асимптотически наиболее мощного критериев в случае обобщенного распределения Лапласа, которые могут быть полезные при численной аппроксимации этих мощностей.
Заключение
Целью диссертации было обоснование возможности использования распределения Лапласа в задачах теории вероятности и математической статистики, возникающего в качестве предельного в случае выборок случайного объема, а также построение примера применения в случае нерегулярного распределения общей теоремы из работы [29], дающей достаточные условия для существования предела отклонения мощности асимптотически наиболее мощного критерия от мощности наилучшего критерия.
1. Бешшг В. Е., Королёв В. Ю. Некоторые статистические задачи, связанные с распределением Лапласа // Информатика и её Применения. — 2008. — Т. 2, № 2. — С. 19-34.
2. Бешшг В. Е., Королёв В. Ю., Соколов И. А., Шоргин С. Я. Рандомизированные модели и методы теории надёжности информационных и технических систем. — М.: Торус Пресс, 2007.
3. Бенинг В. Е., Королёв Р. А. Асимптотические разложения для мощностей критериев в случае распределения Лапласа // Вестник Тверского государственного университета, серия Прикладная математика. — 2008. — Т. 3(10), № 26(86). — С. 97-107.
4. Бенинг В. Е., Лямин О. О. О мощности критериев в случае обобщенного распределения Лапласа // Информатика и ее применения. — 2009. — Т. 3, № 3. — С. 79-85.
5. Боровков А. А. Теория Вероятностей. — М.: УРСС, 2003.
6. Бурнашев М. В. Асимптотические разложения для медианной оценки параметра // Теор. Вероятн. и её Прим. 1996. - Т. 41, № 4. - С. 738-753.
7. Градштейн И. С., Рыжик И. М. Таблицы интегралов, сумм, рядов и произведений. — М.: Физматгиз, 1963.
8. Гумбель Э. Статистика экстремальных значений. — М., 1965.
9. Ильин В. А., Садовничий В. А., Сендов Б. X. Математический анализ. Продолжение курса. М.: МГУ, 1987.
10. Королёв В. Ю. Сходимость случайных последовательностей с независимыми случайными индексами. I // Теория вероятностей и её применения. — 1994. — Т. 39, № 2. — С. 313-333.
11. Королёв В. Ю. Сходимость случайных последовательностей с независимыми случайными индексами. II // Теория вероятностей и её применения. — 1995. — Т. 40, № 4. — С. 907-910.
12. Королёв В. Ю. Вероятностно-статистический анализ хаотических процессов с помощью смешанных Гауссовских моделей. Декомпозиция волатильности финансовых индексов и турбулентной плазмы. — М.: Изд-во ИПИРАН, 2007.
13. Королёв В. Ю., Бенинг В. Е., Шоргин С. Я. Математические основы теории риска. — М.: Физматлит, 2007.
14. Королёв Р. А., Тестова А. В., Бенинг В. Е. О мощности асимптотически оптимального критерия в случае распределения Лапласа // Вестник Тверского Государственного Университета. 2008. - Т. 28, № 1. — С. 7-27.
15. Королюк В. С., Боровских Ю. В. Теория /-статистик. — Киев: Наукова думка, 1989.
16. Лямин О. О. О скорости сходимости распределений некоторых статистик к распределению Лапласа // Обозрение прикладной и промышленной математики. — 2009. — Т. 16, № 6. С. 1090-1091.
17. Лямин О. О. О предельном поведении мощностей критериев в случае обобщенного распределения Лапласа // Информатика и ее применения.— 2010.— Т. 4, № 3.— С. 49-59.
18. Лямин О. О. О скорости сходимости распределений некоторых статистик к распределению Лапласа // Вестн. Моск. Ун-та. Сер. 15. Вычисл. матем. и киберн. — 2010. — № 3. С. 30-38.
19. Невзоров В. Б. Математическая теория. — М.: Фазис, 2000.
20. Никитин Я. Ю. Асимптотическая Эффективность Непараметрических Критериев. — М.: Наука, 1995.
21. Новицкий П. В., Зограф И. А. Оценка погрешностей результатов измерений. — Л.: Энергоатомиздат, 1991.
22. Феллер В. Введение в теорию вероятностей и её приложения. Т.2. — М.: Мир, 1984.
23. Чибисов Д. М. Вычисление дефекта асимптотически эффективных критериев // Теор. Вероятн. и её Прим. — 1985. — Т. 30, № 2. — С. 269-288.
24. Andrews D. F., Bickel P. J., Hampel F. R. et al. Robust estimation of location. — Princeton, NJ: Princeton University Press, 1972.
25. Bagchi U., Hayya J. C., Ord J. K. The Hermite distribution as a model of demand during lead time for slow-moving items // Decision Sciences. — 1983. — Vol. 14. — Pp. 447-466.
26. Bagnold R. A. The size-grading of sand by wind // Proc. Royal Soc. London. — 1937. — Vol. A163. Pp. 250-264.
27. Bagnold R. A. The physics of blown sand desert dunes. — London: Methuen, 1954.
28. Barndorff-Nielsen 0. E. Models for non-Gaussian variation, with applications to turbulence // Proc. Royal Soc. A. 1979. - Vol. 353. - Pp. 401-419.
29. Bening V. E. Asymptotic Theory of Testing Statistical Hypotheses. — Utrecht: VSP, 2000.
30. Bickel P. J. Edgeworth expansions in nonparametric statistics // Ann. of Statist. — 1974. — Vol. 2, no. l.-Pp. 1-20.
31. Bickel P. J., Chibisov D. M., van Zwet W. R. On efficiency of first and second order // Intern. Statist. Review. — 1981. — Vol. 49. Pp. 169-175.
32. Chibisov D. M. Asymptotic expansions and deficiencies of tests // In: Proc. Intern. Congr. Math., 2. — Warszawa: 1983. — Pp. 1063-1079.
33. Chibisov D. M., van Zwet W. R. On the Edgeworth expansion for the logarithm of the likelihood ratio // Theory of Probability and Its Applications. — 1984. — Vol. 29, no. 3. — Pp. 427-451.
34. Dadi M. I., Marks R. J. Detector relative efficiencies in the presence of Laplace noise // IEEE Transactions in Aerospace Electronic Systems. — 1987. — Vol. 23. — Pp. 568-582.
35. Damsleth E., El-Shaarawi A. H. ARMA models with double-exponentially distributed noise // J. of the Royal Statistical Society. 1989. — Vol. B51, no. 1. — Pp. 61-69.
36. Easterling R. J. Exponential responses with double exponential measurement error. A model for steam generator inspection // In: Proceedings of DOE Statistic Symposium. — U.S. Department of Energy, 1978. — Pp. 90-110.
37. Fieller N. R. J., Gilberston D. D., Olbricht W. Skew log Laplace distributions to interpret particle size distribution data. Manchester-Sheffield School of Probability and Statistics Report No. 235. 1984.
38. Frechet M. Sur les formules de repartition de revenues // Revue de l'lnstitute International de Statistique. — 1939. — Vol. 7, no. 1. — Pp. 32-38.
39. Frechet M. Letter to the editor // Econometrica. — 1958. — Vol. 26. — Pp. 590-591.
40. Gnedenko B. V., Korolev V. Y. Random summation: Limit theorems and applications.— Boca Raton: CRC Press, 1996.
41. Helmers R. Edgeworth Expansions for Linear Combinations of Order Statistics. — Amsterdam: Mathematisch Centrum, 1984.
42. Helmers R., Berry A. Esseen bound for linear combinations of order statistics // Ann. Probab. 1981. — Pp. 342-347.
43. Helmers R., van Zwet W. R. The Berry-Esseen bound for /-statistics // In: Statistical decision theory and related topics, III / Ed. by S. S. Gupta, J. O. Berger. — New York: 1982. Pp. 497-512.
44. Hoaglin D. C., Mosteller F., Tukey J. W. Understanding robust and exploratory data analysis. — N.Y.: Wiley, 1983.
45. Hodges J. L., Lehmann E. L. Deficiency // Ann.Math.Statist. — 1970. — Vol. 41, no. 5. — Pp. 783-801.
46. Hsu D. A. Long-tailed distribution for position errors in navigation // Applied Statistics. — 1979. Vol. 28. - Pp. 62-72.
47. Inoue T. On income distribution: The welfare implication of the general equilibrium model and the stochastic processes of income distribution formation. Phd. Thesis. — University of Minnesota, 1978.
48. Johnson N. L., Kotz S., Balakrishnan N. Continuous uni-variate distributions. Vol. II. 2nd ed. — N.Y.: Wiley, 1995.
49. Kapur J. N. Maximum-entropy models in science and engineering. — N.Y.: Wiley, 1989.
50. Korolev V. Y. A general theorem on the limit behavior of superpositions of independent random processes with applications to Cox processes // J. of Mathematical Sciences. — 1996. Vol. 81, no. 5. — Pp. 2951-2956.
51. Math. Comput. Modelling. 2001. — Vol. 34. - Pp. 1003-1021.
52. Laplace P. S. Memoire sur la probabilité des causes par les evenemens // Memoirs de Mathematical et lie Physique. — 1774. — Vol. 6. — Pp. 621-656.
53. Madan D. B., Seneta E. The variance gamma (V.G.) model for share market return //J. of Business. 1990. - Vol. 63. - Pp. 511-524.
54. Okubo.T., Narita N. On the distribution of extreme winds expected in Japan // In: National Bureau of Standards Special Publication 560-1. — 1980. — P. 12.
55. Ord J. K., Patil G. P., Taillie C. The choice of a distribution to describe personal incomes // Statistical distributions in scientific work / Ed. by C. Taillie, G. P. Patil, B. Baldessari. — Dordrecht-Boston: Reidel, 1981. —Pp. 193-202.
56. Petrov V. V. Sums of Independent Random Variables. — Berling: Springer-Verlag, 1975.
57. Pfanzagl J. Asymptotic expansions in parametric statistical theory // In: Developments in Statistics / Ed. by P. R. Krishnaiah. — New York-London: Academic Press, 1989. — Pp. 1-97.
58. Pitman E. J. G. Lecture notes on nonparametric statistical inference, Lectures given for the University of North Carolina. — Institute of Statistics, 1948.
59. Serfling R. J. Approximation Theorems of Mathematical Statistics. — New York: John Wiley, 1980.
60. Shevlyakov G. L., Vilchevski N. O. Robustness in data analysis: Criteria and methods. — Utrecht: VSP, 2002.
61. Takeuchi K. Asymptotic Theory of Statistical Estimation (in Japanese). — Tokyo, 1974.
62. Wilks S. S. Recurrence of extreme observations // J. of American Mathematical Society. — 1959. Vol. 1, no. 1. - Pp. 106-112.