Робастные GM-тесты и оценки в авторегрессионных схемах с выбросами тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Есаулов, Даниил Михайлович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2015
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М. В. ЛОМОНОСОВА
МЕХАНИКО-МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ
На правах рукописи УДК 519.233.2, 519.233.3
Есаулов Даниил Михайлович
РОБАСТНЫЕ йМ-ТЕСТЫ И ОЦЕНКИ В АВТОРЕГРЕССИОННЫХ СХЕМАХ С ВЫБРОСАМИ
01.01.05 — теория вероятностей и математическая статистика
Автореферат
диссертации на соискание учёной степени кандидата физико-математических наук
11 ноя 2015
Москва 2015
005564396
005564396
Работа выполнена на кафедре теории вероятностей механико-математического факультета
Московского государственного университета имени М. В. Ломоносова.
Научный руководитель:
кандидат физико-математических наук, доцент Болдин Михаил Васильевич
Официальные оппоненты:
доктор физико-математических наук, профессор Смородина Наталья Васильевна, Санкт-Петербургский Государственный Университет физический факультет, профессор кафедры математики и математической физики;
кандидат физико-математических наук, старший научный сотрудник Мартынов Геннадий Владимирович, Институт проблем передачи информации им. A.A. Харкевича, РАН, Лаборатория № 1 им. М.С.Пинскера;
Ведущая организация:
ФГБУ РАН Математический институт им. В.А. Стеклова
Защита диссертации состоится 27 ноября 2015 года в 16 часов 45 минут на заседании диссертационного совета Д 501.001.85 на базе Московского государственного университета имени М. В. Ломоносова по адресу: Российская Федерация, 119991, Москва, ГСП-1, Ленинские горы, д. 1, МГУ, механико-математический факультет, аудитория 16-24.
С диссертацией можно ознакомиться в Фундаментальной библиотеке МГУ имени М. В. Ломоносова.
Автореферат разослан ХО октября 2015 г.
Учёный секретарь диссертационного совета
Д 501.001.85 на базе МГУ, доктор физико-математических наук
В. В. Власов.
Общая характеристика работы.
Актуальность темы.
Классический статистический анализ конечнопараметрических авторегрессионных схем основан на процедурах наименьших квадратов и родственных им. Для линейных моделей в случае гауссовских инноваций процедуры (оценки и тесты) наименьших квадратов эквивалентны процедурам максимального правдоподобия, а потому являются асимптотически оптимальными. См., например, монографию Brockwell и Davis1. Если же инновации имеют негауссовские распределения (например, обладают тяжелыми хвостами), то известны непараметрические асимптотически более эффективные способы оценивания неизвестных параметров и проверки гипотез о них. Например, обобщенные М-процедуры (GM-процедуры), процедуры минимального расстояния (MD-процедуры), ранговые, знаковые процедуры.
Упомянутые процедуры обладают еще одним существенным достоинством: возможны такие их варианты, которые устойчивы к грубым ошибкам (засорениям) в данных. Напротив, оценки и тесты наименьших квадратов весьма чувствительны к засорениям.
Построение новых непараметрических процедур оценивания и проверки гипотез, асимптотически более эффективных, чем процедуры наименьших квадратов, является актуальной теоретической задачей. Важной содержательной задачей также является исследование устойчивости известных и вновь предлагаемых процедур к грубым ошибкам в данных.
Цель настоящей работы — исследовать известные GM-процедуры в линейной авторегрессионной модели на устойчивость к выбросам, а также предложить новые способы проверки гипотез в такой модели в рамках GM-подхода.
Важно, что все перечисленные процедуры (GM, MD, знаково-ранговые) могут быть исследованы в рамках единого подхода — с использованием так называемых остаточных эмпирических процессов (о.э.п.). Интересующие нас статистики могут быть представлены как функционалы от о.э.п. Это позволяет свести изучение асимптотических свойств данных статистик к изучению свойств (равномерных линейных разложений, слабой сходимости в подходящих метрических пространствах и т.д.) соответствующих процессов.
Упомянутые процедуры детально исследовались в случае, когда авторегрессионный процесс наблюдается непосредственно. Так, в AR(p) модели GM-оценки и MD-оценки изучал Koul2. Ранговые оценки в модели авторе-
1 Brockwell P.J., Davis R.A., Time Series: Theory and Methods, New York, Springer-Verlag, 1987, 519 p.
2Koul H.L., Weighted empiricals and linear models, IMS Lecture Notes — Monograph Series, Hayward, CA, Vol. 21, 1992.
грсссии исследовались в работах Koul и Ossiandei3, Mukherjee и Bai4. Kreiss5 строил ранговые и М-тесты для проверки линейных гипотез в AR(p) модели. Ранговые тесты в ARMA моделях детально изучались в работах Hallin et al.6'7. Знаковые тесты исследовались в монографии Болдина и др.8 для линейной регрессии и авторегрессии, в работе Болдина и Штутте' для ARMA моделей.
В диссертации с помощью о.э.п. мы строим и исследуем GM-процедуры для модели авторегрессии в схеме засорения данных аддитивными одиночными выбросами интенсивности 0(n~ll2), п — объем данных. Рассматриваемая схема является локальным вариантом общеупотребительной схемы засорения для временных рядов, см. работу Martin, Yohai10. Нас интересуют достаточные условия качественной робастности исследуемых процедур против выбросов. Особое внимание уделяется робастности GM-тестов. Робаст-ность GM-оценок в линейных и нелинейных авторегрессионных схемах в отличие от тестов рассматривалась давно. Обычно ее характеризуют функционалом влияния. В настоящее время функционалы влияния для GM-оценок вычислены в ARMA моделях в работе 10, в моделях типа ARCH и GARCH в работах Boldin11 и Sorokin12, в нелинейных моделях с авторегрессионными ошибками в статье Sinha et. al13.
Для GM-тестов в диссертации мы используем две характеризации качественной робастности. Они формулируются в терминах равностепенной непрерывности допредельной мощности (локальная качественная робаст-ность или LQ-робастность) и предельной мощности тестов (предельная качественная робастность). Болдин14'15 использовал такие характеризации при
3Koul H.L., Ossiander M.,\Veak convergence of randomly weighted dependent residual empiricals with applications to autoregression, Ann. Statist., Vol. 22, p. 540-562, 1994.
4Mukherjee K., Bai Z.D., R-estimation in Autoregression with Square-Integrable Score Function J. Multivar. Anal., Vol. 81, 167-186, 2002.
5Kreiss J.-P., Testing linear hypotheses in autoregressions, Ann. Statist., Vol. 18, No. 3, p. 1470-1482, 1990.
"Hallin M., Ingenbleek J.-F-, Puri M.L., Linear serial rank tests for randomness against ARMA alternatives, Ann. Statist., Vol. 13, No. 3, p. 1156-1181, 1985.
7HalIin M., Puri M.L., Aligned Rank Tests for Linear Models with Autocorrelated Error Terms, J. Multivar. Anal., Vol. 50, No. 2, p. 175-237, 1994.
8Болдин M.B., Симонова Г.И., Тюрин Ю.Н., Знаковый статистический анализ линейных моделей, М.: ФИЗМАТЛИТ, 1997.
9Болдин М.В., Штуте В., О знаковых тестах в ARMA модели с возможно бесконечной дисперсией ошибок, Теория вероятн. и ее примен., Т. 49, JV»3, с. 436-460, 2004.
"Martin R.D., Yohai V.J., Influence Functionals for Time Series, Ann. Statist., Vol. 14, p. 781-818, 1986.
11 Boldin M.V. On empirical processes in heteroscedastic time series and their use for hypothesis testing and estimation, Math. Methods Statist., Vol. 9. p. 65-89, 2000.
12Sorokin A.A. On parameter estimation and testing hypotheses on dimension in ARCH(p) model, Math. Methods Statist., Vol. 15, No. 3, p. 327-348., 2006.
"Sinha S.K, Field C., Smith B. Robust estimation of nonlinear regression with autoregressive errors, Statist, and Probab. Letters., Vol. 63., p.49-59, 2002.
14BoIdin M.V., Local robustness of sign tests in AR(1) against outliers, Math. Methods of Statist., 20, 1, 1-13, 2011.
15Болдин M.B., Робастность знаковых тестов для гипотез о порядке авторегрессии, Теория вероятн.
построении качественно робастных знаковых тестов в авторегрессии. Отметим, что общеупотребительные тесты наименьших квадратов робастными в этих смыслах не являются.
Рассматриваемые определения робастности тестов родственны определению Reider16 качественной робастности тестов в схеме независимых данных, но Rieder исследовал качественную робастность ранговых тестов в нелокальной схеме.
Цель работы.
1. Получить равномерные линейные разложения остаточных эмпирических процессов в AR(p) модели в локальной схеме засорения данных независимыми одиночными выбросами.
2. С помощью разложений остаточных эмпирических процессов получить достаточные условия качественной робастности известных GM-тестов, основанных на GM-оценках.
3. Построить новый GM-тест (без использования GM-оценок) для проверки линейных гипотез в AR(p) модели и исследовать это тест на качественную робастность.
Научная новизна.
Основные результаты работы являются новыми и состоят в следующем:
1. Получены асимптотические равномерные разложения остаточных эмпирических процессов для авторегрессии в локальной схеме засорения данных аддитивными одиночными выбросами.
2. Установлены достаточные условия качественной робастности известных GM-процедур в локальной схеме засорения.
3. Построен новый GM-тест для проверки гипотез о размерности AR(p) модели без использования GM-оценок неизвестных параметров, и установлены достаточные условия его качественной робастности.
4. Предложен численный алгоритм построения асимптотически оптимальных GM-тестов. Теоретические результаты подтверждены численным экспериментом.
Методы исследования.
В диссертации используются методы математического и функционального анализа, методы теории вероятностей и математической статистики. Метод исследования основан на использовании остаточных эмпирических процессов. При доказательстве основных теорем используется равномерные линейные разложения таких процессов.
Теоретическая и практическая значимость.
Диссертация носит теоретический характер. Её результаты могут быть полезны специалистам по математической статистике, теории временных рядов и эконометрике. Также они могут быть использованы специалистами,
и ее примеч., 57, 4, 1-10, 2012.
'"Reider Н., A Robust Asymptotic Testing Model, Ann. Statist., Vol. 6, p.1080-1094, 1978.
применяющими модели временных рядов на практике.
Апробация работы.
Основные результаты диссертации неоднократно докладывались на семинаре "Непараметрическая Статистика и Временные Ряды" под руководством проф. Ю.Н. Тюрина, доц. М.В. Болдина и проф. В.Н. Тутубалина в МГУ (2011-2015 гг.). Также были сделаны доклады на нескольких конференциях: Международной конференции студентов, аспирантов и молодых учёных "Ломоносов" в МГУ (Москва, 2010-2011 гг.), Международной конференции "Теория вероятностей и ее приложения" в МГУ, посвященной столетию со дня рождения Б.В.Гнеденко (Москва, 2012 г.), Ломоносовских чтениях (Москва, 2012 г.), X Международной конференции "Компьютерный анализ данных и моделирование" (Минск, 2013 г.), Городском семинаре по теории вероятностей и математической статистике в ПОМИ (Санкт-Петербург, 2015);
Публикации.
Результаты диссертации опубликованы в пяти работах, из которых две — в журналах из перечня ВАК. Список работ приведен в конце автореферата [1]-[5].
Структура и объём работы.
Диссертация состоит из четырех глав, первая из которых - введение, списка обозначений и списка используемой литературы, насчитывающего 76 наименований. Формулы, леммы, теоремы и утверждения будут иметь номер, состоящий из двух чисел. Первое из них соответствует номеру главы, а второе - номеру формулы (леммы, теоремы, утверждения) в данной главе. Ссылки на работы других авторов нумеруются по алфавиту, согласно фамилии первого из них. Общий объем диссертации — 115 страниц.
Краткое содержание диссертации.
В автореферате сохранены оригинальные номера теорем, но номера условий отличны от диссертации.
Первая глава диссертации является введением. Она содержит необходимые определения, обозначения, обзор известных результатов и результатов работы.
Из всего введения приведем основные определения и обозначения.
Линейная авторегрессионная AR(p) модель имеет вид
щ = ßmt-i + • • • + ßput-p + et, te Z. (l)
В (1) {et} — независимые одинаково распределенные случайные величины (н.о.р.с.в.) с неизвестными функцией распределения G и Лебеговой плотностью д, Ei! = 0, Eef < оо; ß = (ßi,..., ßp)T — вектор неизвестных параметров, для которых характеристическое уравнение, соответствующее (1),
имеет корни по модулю меньше единицы. Эти условия гарантируют (см. монографию 1) существование п.н. единственного строго стационарного решения уравнения (1).
Будем предполагать, что наблюдения содержат грубые выбросы и имеют вид
yt = ut + t = l-p,2-p,...,n. (2)
В (2) {i¿¡} — выборка из стационарного решения (1); {г^"} — н.о.р.с.в. с распределением Бернулли Вг (-/„), 7n = min(l, га-1/27), параметр 7 > О неизвестен; {ft} — н.о.р.с.в. с неизвестным распределением /л; последовательности {iif}, {2]"}, {ft} независимы между собой. Последовательность {ft} интерпретируется как последовательность грубых выбросов (засорений), 7„ — уровень засорения.
Опишем, как строятся GM-оценки и необходимые нам эмпирические процессы сразу для схемы (2) с засорениями.
Для априори выбранных функций tp, ф и параметра a G Rp введем вектор
1%(а) := ..., LYnp{c¿)f,
где
п
Lynj{a) := rC^Y^Vhjt-MiVt ~ aiVt-i-----OpVt-p)-
t= 1
Индекс ,,Y" здесь и далее означает, что статистика строится по засоренным данным {yt}.
GM-оценка определяется как подходящее (т.е. п1^2-состоятельное) решету
ние уравнения a) = О. Обозначим ее /3 n¡GM. GM-оценки для авторегрессионных моделей в отсутствии засорений были предложены в работах Denby и Martin18 и Martin19'20.
По наблюдениям {yt\ построим векторы Yt~ 1 := (yt-i, Vt-2, ■ ■ ■, Vt-p)T, t = 1,..., п. Введем векторную функцию
V(Yt-1) := Мг/í-i), Ч>Ы-2)> • • • > (P(Vt-p))T-
18Denby L-, Martin R.D., Robust estimation of the first-order autoregressive parameter, J. Amer. Statist Assoc., Vol. 74, p. 140-146, 1979.
19Martin R.D., Robust estimation of autoregressive models, Direct. Time Ser., Haywood, CA: Institute of Mathematical Statistics, p.228-254, 1980.
20Martin R.D., Robust methods for time series, Applied Time Series Analysis II, New York: Academic Press, p.683-759, 1981.
Остатками в схеме (2) называются величины := — агУ(_1, о: €
< = 1,... , п. Определим остаточный взвешенный эмпирический процесс
х) := п"1'2 £ ^(У^ЩеКсс) < х),
/(•)— индикатор события, х £ К1. Тогда
/00
^ма^а,*). (3)
-00
Введем <т-алгебры
:= фг,« < * — 1; z]n),0<j < £}, « = 1,...,п.
Рассмотрим процесс г^(/3+п_1/20, ж). Условное среднее каждого слагаемого в данной статистике относительно Т^-] равно
¥>(*■,_!)£(* + п-1/2егГ(_1 - Ч»09,7)),
где
Ч»(/3,7) == - - Д^м-----Рр^-Р-
Введем условно-центрированный процесс
иЦв,х) := ^¿^(Г«)^ < х + п-1/2втУ(-1 - 1*09,7))
4=1
- + п1/2втУ^ - щ((3,7))] . (4)
Слагаемые в (4) образуют мартингал-разность относительно {.Т^}.
Пусть /3 разбит на подвекторы /Эт = (/3'1'т,/3®г), где (3<г\ г = 1,2, имеют размерности тп и р — тп соответственно, 1 < тп < р. Одной из основных задач работы является исследование тестов для проверки гипотезы о размерности модели (1) Н0: /З*2' = 0. Альтернативой возьмем Н^. /3® Ф О. Таким образом,
/3« является мешающим параметром. Если гипотеза Нд верна, то размерность (1) не превышает т. Мощность теста будем исследовать при локальных альтернативах Ях„(г): /3 = /Зп := /30-|-п~1/'2т, где /Зр = (/З'1'7*,0Г), тт = (т'1'7,т'2'т) еГ - постоянный вектор с подвекторами размерности тп и р — т соответственно.
Мощность теста в схеме (2) на локальной альтернативе Н\п(т) обозначим \Уп(т, 7, ц). Тест называется Ь(]-робастпъш, если семейство {\Уп(т, 7,;«)} равностепенно непрерывно по 7 в точке 7 = 0. То есть,
8ир|Ж„(т,7,^)-Ж„(г,0,аО|-»0, 7^0. (5)
Супремум в (5) берется по произвольным ц, ||т|| < Т < оо и п > по(Т). Здесь || • ||— евклидова норма вектора, а п0(Т) — наименьшее целое число такое, что корни характеристического многочлена, соответствующего (1), по модулю меньше единицы для всех ||т|| < Т.
Соотношение (5) означает, что для малых 7 равномерно по р,, ||т|| < Т и п > по близки уровни значимости и мощности тестов в схемах с засорениями и без засорений, т.е. при 7 = 0.
Предположим, что существует W(t, 7,/i) := lim,,^^ 1У„(т, 7, ц) — предельная мощность теста. Будем называть тест предельно качественно ро-бастным, если
sup |W(t,7,m) - w(r,0,/i)| -> 0, 7 -»■ 0. (6)
Вторая глава диссертации состоит из пяти параграфов. Она посвящена построению GM-процедур для стационарной AR(1) модели в случае, когда наблюдения содержат выбросы. Таким образом, рассматривается модель (1) в схеме засорений (2) при р = 1. В этой главе мы будем писать /Зп вместо f3n, Ln(a) вместо Ln(a) и т.п.
По засоренным наблюдениям {yt} мы будем проверять гипотезу Но: ¡3 = /?о против правосторонних альтернатив Н*: ¡3 > /Зц. Мощность тестов будем исследовать при локальных альтернативах Н\п(г): /3 = ¡Зп := Д) + п~1!2т,т > 0. Удобно дальше полагать г > 0, так что H\n(Q) есть Но-Кроме того, будем предполагать, что п > пт, где пт есть наименьшее натуральное число, при котором |/3n| < 1 для п > пт. Это условие гарантирует существование п.н. единственного строго стационарного решения уравнения (1) при р = 1.
Непараметрическая GM-оценка в рассматриваемой схеме определяется как корень уравнения
/оо "
iKx)dvZ{a, х) = п-1'2 Y, <P(yt-iMyt - QWi-i) = 0 (7)
00 (=i
для априори выбранных функций ip и ф.
Нам понадобятся следующие условия.
Условие 1. G дважды дифференцируема с производной д, д(х) > 0 при всех х, supjs^z)! < 00. Условие 2. sup;,. |<р(а;)| < оо.
Пусть Втх := {(г,7,д):0<г<Г<оо,0<7<Г<оо,^ - любое} . Обозначим {и0} — стационарное решение (1) при Щ, р = 1.
Основной результат первого параграфа составляет теорема о линейном по г и 7 асимптотическом разложении эмпирического процесса«^(а, х), равномерном поО<т<Т, 0<7<Ги любым у. А именно,
Теорема 2.2. Пусть выполнены Условия 1-2 и функция (р п.в. непрерывна. Пусть верна //¡„(г). Тогда при любых 5 > 0, 0 < Г < оо, 0 < Т < оо
где р(х, ß) := + + Mi) + <P(ui)G(x - fc) - 2V{u\)G{x).
Доказательство этого утверждения использует Теорему 2.1 об асимптотическом равномерном разложении соответствующего условно-центрированного эмпирического процесса.
Используя полученные результаты, во втором параграфе мы строим тест для проверки гипотезы Щ: 0 = Д. В качестве тестовой статистики берется
где в2 — состоятельная оценка параметра сг2(/30) := Е(р2(и1)ф2(£1). Сформулируем условие на функцию ф.
Условие 3. Вариация Уаг [ф\ < оо, Еф{£\) = 0.
Обозначим
д2 = Л2(Дь ß) := + 6) + Е^К + ЬЩе2 - Д6)-
Положим 5{т,7, ¡л) := ff-1(^0)[AiT + Дг7]-
Теорема 2.2 и соотношение (3) влекут асимптотическую равномерную линейность (AUL) статистики L^(ßo) (Следствие 2.1). Используя Следствие 2.1, доказывается следующая теорема о равномерной слабой сходимости статистики (8) к нормальному закону.
Теорема 2.3. Пусть верна Н\п(т), т > 0. Пусть выполнены Условия 1-3 и функция <р п. в. непрерывна. Тогда
Супремум в (9) берется по х е К и (г, 7, ц) е Вт,т-
В силу Теоремы 2.3 при 7 = 0 при гипотезе Но Лп,у -4 N(0,1), п -> оо. Отвергать Но будем при Апу > £х_а, £х_а — квантиль Ф(ж) уровня 1 — а. В схеме без засорений такой тест имеет асимптотический уровень а. При произвольном 7 его мощность на Н1т1(т) есть \Уп(т, 7, //) := Ррп(АпУ >
+ g(x)E[u°1<p{u°1)]r ~ Е[р(х,/х)]7| > j) 0, п -»• оо,
Ky = KAßo) ~ KlLYn{ßo),
(8)
suplP^JA^y < х) -Ф(а;-5(т,7,^))| -)■ 0, п оо. (9)
Простым следствием Теоремы 2.3 является равномерная по 0 < т < Т < оо, 0<7<Г<оои произвольным /х сходимость
1¥п(т,у,ц) \У{т,-у,ц) := 1 - Ф(<!_„ - 5(т,7,/х)), п оо. (10)
Очевидно, при ограниченных (р и ф и любого Г > 0 выполнено соотношение вида (6), т.е семейство предельных мощностей {И^т, 7,/^)} равностепенно непрерывно по 7 в точке 7 = 0.
Соотношения (6) и (10) позволяют установить (5), т.е. ЬС^-робастность построенного теста (Теорема 2.4.).
В отличие от второго параграфа, где СМ-тесты строятся без использования оценок неизвестного параметра, в третьем параграфе тесты основаны на заранее построенных ОМ-оценках. Сформулируем сначала теорему о существовании и асимптотической гауссовости таких оценок в схеме (2) при р = 1. Нам понадобятся дополнительные условия на функции ф и распределение выбросов.
Условие 4. /^оЭ(ж)^(ж)Е[^(и5)и5] ф 0.
Условие 5. Е£2 < оо.
Теорема 2.5. Пусть выполнены Условия 1-5. Пусть, кроме того, функции <р(х) и ф(х) непрерывны. Пусть верна альтернатива Н1П(т). Тогда с вероятностью, стремящейся к 1, уравнение (7) имеетп1^2-состоятельное решение для которого
п1/2(Ком ~ рп) 4 ^(7ДГ1Д2,АГ2^(/30)).
Для доказательства Теоремы 2.5 используется асимптотическая равномерная по \в\ < 9 (0 < © < оо) линейность + п~1/2в) (Теорема 2.7). Теорема 2.7, в свою очередь, является следствием соотношения (3) и Теоремы 2.6 об асимптотическом равномерном по < В разложении о.э.п. (4) при р = 1.
Пусть — произвольная состоятельная оценка Д^2сг2(/Зо). Тестовой статистикой для Щ возьмем Тпу := Очевидным следствием Теоремы 2.5 является асимптотическая нормальность Тпу на альтернативе Я1п(г), а именно Г„,у Л Щ5(т, 7,/х), 1), п -> оо. Таким образом, в силу (9) СМ-тесты, основанные на Тпу и Лп,у, асимптотически эквивалентны. Это, в частности, означает, что для предельной мощности теста, основанного на Г„,у, выполняется соотношение (6). Отсюда следует, что построенный тест также является предельно качественно робастным.
Четвертый параграф посвящен случаю, когда целевая функция ф является гладкой. Это важно, т.к. в этом случае удастся отказаться от условия ограниченности ф. Такая ситуация включает в себя, например, случай
ip(x) = 1р(х) = x, при котором уравнение (7) определяет оценку наименьших квадратов, и случай tp(x) = х, гр{х) = при котором (7) становится уравнением максимального правдоподобия.
Итак, сформулируем новое условие для функции -ф вместо Условия 3.
Условие 6. ф(х) 6 С2, supx{|^'(ar)|, \ф"(х)\} < оо, = 0.
При выполненных Условиях 2, 5-6 доказательство AUL статистки L„(ßn + п~1!20) (Утверждение 2.2) проводится с помощью обычной формулы Тейлора для самой функции "ф(х) без использования свойства AUL остаточных процессов v%(a,x). Утверждение 2.2 в свою очередь влечет аналог Теоремы 2.5 для случая гладкой -ф.
В пятый параграф для удобства вынесены громоздкие доказательства утверждений первого и второго параграфов.
Третья глава диссертации состоит из трех параграфов. В ней мы исследуем GM-процедуры в общей линейной авторегрессионной AR(p) модели (!)•
Основными задачами главы является построение нового непараметрического GM-теста для проверки гипотезы о порядке этой модели в схеме (2) и исследование его робастности против грубых выбросов.
Напомним, что проверяется гипотеза Щ: /3(2) = 0, где ß(2) е RP-m _ компонента векторного параметра ßT = , 1 < т < р. Отме-
тим, что тест, который мы строим, может быть основан на любой предварительной п1/,2-состоятельной оценке ßn параметра ß, например, на оценке наименьших квадратов.
Первый параграф посвящен построению нового теста в схеме (1) без засорений. Для краткости мы приведем результаты сразу для более общего случая из второго параграфа, в котором рассматривается модель (1) в схеме засорений (2). Выводы первого параграфа могут быть получены из второго, если взять 7 = 0. Отметим, однако, что результаты в случае без засорений (Теоремы 3.1-3.3) получены при более слабых условиях на функцию^.
Основным результатом первого параграфа является асимптотическое равномерное разложение процесса и%(0,х). Соответствующее утверждение в схеме без засорений является следствием более общей Теоремы 2 из Boldin21.
Теорема 3.4. Пусть выполнены Условия 1, 2 и 5. Пусть верна Нгп(т). Тогда для любого 0 < 0 < оо
sup \\и^(в,х) — z)|| 0, оо.
1|0||<е, хек1
Этот результат является обобщением Теоремы 2.6 на случай многопараметрической авторегрессии.
21 Boldin M.V., On sequential residual empirical processes in heteroscedastic time series, Math. Methods of Statist., Vol. 11, No. 4, 453-464, 2002.
Мы используем Теорему 3.4 и соотношение (3) для доказательства AUL процесса (Теорема 3.5).
Пусть «1_р, ...,«„ — выборка из строго стационарного решения уравнения (1) при ß = ß0. Введем статистику Ln(ß0) := п~1/2 ]Г"=1 if(U°_^(£t) и матрицу С := <?(*)*) EV(l/°)(l7°f. Введем вектор
а{ц) := (AiM, А2(ц), ..., Ар(ц))т, где
Ajiß) := Еф°2Ч + Ь-М'^2 - ß0j&-j) + + 6)
р
+ £ Ъу{и%ч)Щ{е2 - ß0ib-i), 2=1, ¿/j
Вектор a(fi) будет характеризовать асимптотическое влияние засорений на вектор 1%(ос) и тестовую статистику.
В силу Теоремы 3.5 для произвольной п ^-состоятельной оценки ßnY при Hi„(t) справедливо следующее разложение:
Ll(ßnX) = Ln(ß0) - Сп^20пХ - ßn) + 7Д(ji) + ор( 1). (И)
Пусть ßn0y •'= (Аю,Г!°Г)> гДе /9п0)у е Кт — и1/2-состоятельная оценка параметра
построенная по {j/t}. Введем вектор а(/() := С 1Д(р). Обозначим 7roa — проекцию на последние {p—m) координат вектора а е Ер. Используя (11) и С„,у, состоятельную оценку невырожденной матрицы С, получаем
7Г О С~уЬ„ (Зпо.у) = т о С-^Д/Зо) + т<2> + 7о(2) + ор(1), (12)
где а'2' — вектор размерности (р — т) такой, что ат{ц) = (о'1'7, а'2'г).
Введем матрицу К := E^2(ei) Eip(U%)cpT . В силу ЦПТ для мартингал-разностей имеет место сходимость Ln(ß0) -4 Лг(0, К), п —> оо. Для матриц К и С нам потребуется выполнение следующего условия.
Условие 7. det С ф 0, det К > 0.
Пусть J — такая матрица размерности (р — m) х (р — тп), что
C-K(C-T:=(BQT 5).
В качестве статистики нового теста для Но рассматривается
Ку := ° C^YLl(ßn0:Y)]Т J-iy [тг о C^YLl(ßn0iY)] , (13)
jn,y — произвольная состоятельная при Н\п(т) оценка J.
Обозначим нецентральное распределение хи-квадрат с p — m степенями свободы и параметром нецентральности А2 как х2(р ~ т> А2). Центральное распределение будем обозначать х2(Р — т)• Используя разложение (12), доказывается следующая
Теорема 3.6. Пусть выполнены Условия 1-3, 5, 7 и <р п.в. непрерывна. Тогда при альтернативе Hi„(t)
Л*у4Х2(р-т,А2),
где параметр нецентральности Л2 = ||J_1/,2(r^ + 7а'2')||2.
Отвергать Н0 будем при у > x?Iq > где ™ ~ (1 ~~ а)-квантиль Х2(р — т). Мощность теста, основанного на при альтернативе Н\п{т) есть \¥п(т,Ъ(г) = Pßn(K,y > хП")-
Обозначим функцию распределения х2(р ~~ т> А2) через Fp_m (х,\2). В силу Теоремы 3.6
lim Wn(r,7,/i) = W(r,7,м) = 1 - А2),
п-юо
и тест имеет асимптотический уровень значимости a. W„(t, 0,/х) — мощность статистического теста в схеме (1) без засорений. Обозначим Ш2 класс распределений с конечным вторым моментом. Для предельной мощности оказывается верна
Теорема 3.7. Пусть выполнены условия Теоремы 3.6. Тогда
sup IW(t, 7, ii) - W(t, 0, /0| 0, 7^0. (14)
/isajt2
Таким образом, семейство предельных мощностей {W(t, 7,/х)}(,еал2 равностепенно непрерывно по 7 в точке 7 = 0. Свойство (14) характеризует предельную качественную робастность теста (13) против выбросов.
Отметим, что предложенные в 5 „general score tests" также были основаны на специальным образом преобразованной статистике Ln(ßn), где ßn — произвольная п1^2-состоятельная оценка. Причем при (р(х) = х наша тестовая статистика (13) в схеме без засорений совпадает со статистикой из 5. Однако преобразование Ln(ßn) из 5 в случае произвольной неприменимо. Наш способ позволяет строить тесты, в частности, для ограниченных ip. Кроме того, в отличие от 5 мы рассматриваем случай, вообще говоря, негладкой ip.
В третьем параграфе в схеме засорений (2) исследуется GM-тест, основу
ванный на GM-оценке ßn GM — п1/,2-состоятельном решении нелинейной системы уравнений Ь„(а) = О. Основным утверждением параграфа является
Теорема 3.8. Пусть выполнены условия 1-3, 5, 7, функции ip(x) и ф(х) непрерывны. Пусть верна альтернатива Н\п{т). Тогда с вероятностью, стремящейся к 1, система уравнений L^(a) = 0 имеет п1/2-
состоятельное решение f3n GM, для которого
п1/2(Ксм-Рп) 4 ЛГ(7а(д),С-1К(С-1)т), п оо.
Теперь в качестве последовательности тестовых статистик возьмем
VnX ■= n3S(5n,v)-3S. (15)
В силу Теоремы 3.8 Vn y -4 \2(Р ~~ п ~~^ оо, где параметр нецен-
тральности Л2 такой же, как и в Теореме 3.6. Таким образом, статистические тесты, основанные на Л£у(/Зп0) из (13) и Vny из (15) являются асимптотически эквивалентными. Это означает, что последний тест также является предельно качественно робастным.
Четвертая глава диссертации состоит из трех параграфов. В первом параграфе, который является вспомогательным, излагаются известные результаты об асимптотической оптимальности тестов, построенных в Главе 2 для AR(1) модели в схеме засорений (2). Они принадлежат М.В. Болдину и содержатся в совместной публикации [4] (раздел 3). Они необходимы нам для второго параграфа, в котором излагаются результаты численного эксперимента на моделированных данных.
Дополнительно к Условиям 1-3 полагаем, что выполнено Условие 8. Е<р(м5) = 0, Е[и5<р(и?)] > 0, ¡™оод{х)(1ф(х) > 0.
Тогда в силу (9) на альтернативе Н\п(т) верна равномерная слабая сходимость статистики i\ny из (8) к нормальному закону с дисперсией 1 и средним 5\{т, /Зо) + ¿2(7, А>)> гДе
5 Е[чУЮ] ¡ддф 5 _Еу(ц; + 6Ме2-/Щ [E<p2(W?)]1/2 [Щ2Ы1/2 Т' 2' [E^2(u0)]1/2[E^(£i)]1/2
Сдвиг ii(r, /30) определяется альтернативой Н\п{т), а 62(7, характеризует асимптотическое влияние засорений на Апу.
Для b > 0 введем <ръ(х) '■= (x/6)min(l,6/|a;|) — усечение функции х/Ь на уровнях 1 и —1. Пусть ipo(x) := signх. Для b > 0 положим ev(b) := 1/[Е<р%(и%)]1/2. Введем для с > 0 функции фс(х) := <рс{-^{х)) и 1ф(с) := 1/[Е ф2М)?/2-
Поиск оптимальных ¡ря-ф, удовлетворяющих описанным выше условиям, ведется на классах функций
у Г suPl \tp(x)\ -1 , . f supJ^Qr)! -I
Параметры b, с > 0 заданы априори (алгоритм выбора их значений описан во втором параграфе). Заметим, что при <р € /С<ДЬ), ф € К.ф(с) сдвиг 62{7, р, ßo) ограничен для фиксированных 7. Сдвиг <5i(t, ßo) достигает максимума по <р, ф на паре функций фс (Лемма 4.2).
Предельную мощность теста со статистикой Апу переобо-
значим через W(t, 7, fi\ip, ф). Основными характеристиками теста являются вирдИ^(0,7,/i|iр,ф) — его наибольший асимптотический объем и inf^ W{t, 7, р\<р, ф) — его наименьшая асимптотическая локальная мощность. Следствием Леммы 4.2 является Теорема 4.1, которая и описывает оптимальность GM-теста основанного на Апу с целевыми функциями tpi, и фс. А именно, для любых <р е К.9(Ь), ф е 1Сф(с) при т>0и0<7< 7о(</>, ф) выполнены соотношения
supW(0,7,/i|<р,ф) < Ф(^а + е^(6)^(с)7); (16)
ß
inf W{t, 7, ц\ipb, фс) > inf W(t, 7, tp, Ф).
¡л ß
Во втором параграфе приводится алгоритм выбора подходящих значений параметров & и с для статистики Апу(<рь(х), фс(х)).
Отметим, что уравнение s~1n_1/'2 <РьЫ-1) sign(2/t — &Vt-1) 0, соответствующее Апу((рь(х),фо{х)), определяет взвешенную оценку наименьших модулей (LDW-оценку). Здесь символ -г- означает переход через ноль. LDW-оценки были введены в 8 (§5.5.3). Тест со статистикой Апу(Ь) := Лп,у(^ь(а;), фо{х)) по аналогии будем называть LDW-тестом. В случае 7 = О соответствующую статистику обозначим Ап(Ь). Тест наименьших модулей (LAD-тест) соответствует статистике
п
Ку (00) := s~^LADn~1/2 yt-1 sign(yt - ßoyt-i), t= 1
где sl,lad = n'1 eil vt-i-
Зафиксировав с = 0 мы, таким образом, рассматриваем класс асимптотически оптимальных LDW-тестов. Прежде чем для этого класса описывать численный метод поиска подходящего значения b при неизвестном распределении {£t}, мы рассмотрим вспомогательный случай, когда это распределение известно. Оптимальное b = b* в этом случае выбирается среди всех значений, для которых верхняя граница наибольшего асимптотического объема GM-теста из (16) при всех 7 < 7о (70 известно) не превосходит априори выбранного числаQo, ощ > се: $(ia +6^(6)7) < ад. Это условие эквивалентно неравенству
е*(Ь) < (ta0 - ta)ho- (17)
Наша цель — среди всех 6, удовлетворяющих (17), найти то, при котором наименьшая асимптотическая локальная мощность теста
т^ IV(т, 7, /х\(рь,Фо) достигает наибольшего значения. Для этого воспользуемся тем, что для 61,62, 6х < 62
эир И'(т, 7, ,^о) < тП^(т,7,/^г>2,^о), (18)
где т > 0и0<7< 7о(Ьь 62, г) (Утверждение 4.1). Используя (18) и возрастание функции е^Дб) (Лемма 4.1), имеем, что искомым 6* является (Следствие 4.1) решение уравнения
е^(6) = (<ао-<а)/70- (19)
Значение Ь* характеризуется еще одним важным свойством. Пусть 7 = О (засорения отсутствуют). Тогда АОЭ по Питмену теста со статистикой Лп(6) относительно ЬАБ-теста, которому соответствует статистика Л„(оо), достигает в 6 = 6* своего максимума (Замечание 4.1).
В семипараметрическом случае, когда распределение {£>} неизвестно, е,р{Ъ) в (19) оценивается с помощью выборки {г/;}. В качестве оптимального 6 теперь берется оценка Ьп — единственное решение уравнения
!/(*ао"«а)2. (20)
П (=1
Утверждение 4.2. Пусть выполнено Условие 1. Пусть верна альтернатива Н\п{т), т > 0. Тогда уравнение (20) имеет единственное
решение оПу
^ р
причем Ьп —> 6*, п —► оо.
Значения оценок Ьп для различных /30 и объемов выборки п получены в работе численно методом дихотомии.
Ниже в Таблице 1 частично описаны результаты обширного численного эксперимента, проведенного для данной диссертации. А именно, представлены значения уровней значимости и мощностей тестов, основанных на статистиках Лп,у(6*), Л„,у(оо) и Лп,у(6„) для проверки гипотез Я0: /3 = —0.5, Но: ¡3 = 0.5, Я0: /3 = 0 и Н0: ¡3 = 0.9 в случае гауссовских А^(0,1) инноваций и различных истинных значений параметра /3. Обозначим мощности тестов \¥п{Ь*), 1У„(оо) и 1УП(Ь„) соответственно.
Рассматривается случай & ~ N(10,5). При этом для краткости изложения здесь мы приводим подробные результаты только для случая 7 = 0.1, оо = 0.0615. Значения мощностей получены методом Монте-Карло, а именно, было смоделировано 10000 выборок различных объемов. Здесь мы приводим только случай п = 1000.
Результаты Таблицы 1 и других вычислений, проведенных для диссертации, в частности, показывают, что при больших значениях п мощности при альтернативе и гипотезе (т.е. уровни значимости) тестов, построенных по Ьп и Ь*, близки. То есть, при достаточно больших п в качестве тестовой статистики можно брать оценку Апу(Ьп).
Таблица 1: Мощности тестов для Но: fi = Аь 7о = 0.1
Д, = -0.5, Ee{ = 1, 6* = 0.107 /Зо = 0.5, Eef = 1, b' = 0.107
/3 -0.5 -0.48 -0.4 -0.25 0 0.5 0.52 0.6 0.75 0.9
0.064 0.143 0.759 1 1 0.042 0.105 0.811 1 1
W„(oo) 0.185 0.356 0.959 1 1 0.01 0.034 0.648 1 1
lVn(b„) 0.062 0.141 0.75 1 1 0.043 0.106 0.767 1 1
/Зо = 0, Ее = 1,6"= 0.092 До = 0.9, Eef = 1, 6* = 0.212
Р 0 0.02 0.1 0.25 0.5 0.9 0.92 0.99 0.8 0.7
w„(b*) 0.05 0.109 0.661 1 1 0.006 0.066 1 0.962 1
W„(oo) 0.05 0.127 0.81 1 1 0 0 0.999 1 1
Wn(bn) 0.0505 0.105 0.642 1 1 0.044 0.247 1 1 1
В случае /Зо = 0 присутствие засорений не оказывает влияние на предельное распределение рассматриваемых статистик. Далее, в случаях /Зо = 0 и ра = —0.5 тест, основанный на А.пу(Ь*), является менее мощным, чем LAD-тест. Однако при Д = —0.5 уровень значимости построенного теста равен 0.064, что гораздо ближе к асимптотическому значению а = 0.05, чем значение 0.185, соответствующее LAD-тесту. Отметим, что в случае большой доли выбросов (7 = 1) LAD-тест оказывается вообще неприменим, т.к. ошибка первого рода для него равна 1 против примерно 0.25 у теста со статистикой
Л„,у(6*).
В случае положительных /Зо ситуация меняется на противоположную. А именно, при /30 = 0.5 и /Зо = 0.9 значения мощности GM-теста со статистикой Ку{Ь') больше соответствующих значений для LAD-теста. При этом несмотря на то, что уровень построенного GM-теста больше уровня значимости LAD-теста, его значение не превышает 0.05 (оно равно 0.042 для /Зо = 0.5 и 0.006 для /30 = 0.9).
Доказательства представленных результатов получены автором диссертации самостоятельно и вынесены для удобства в третий параграф.
Заключение.
В данной диссертации исследована качественная робастность GM-процедур в авторегрессионных схемах с засорениями. Но полученные в работе результаты, в частности, асимптотические равномерные разложения остаточных эмпирических процессов в схемах с засорениями, могут быть использованы при исследовании качественной робастности и других статистических процедур, например, ранговых, знаково-ранговых и процедур минимального расстояния.
Таким образом, рассмотренные в данной работе задачи являются частью более общей проблемы, решение которой будет продолжено в дальнейшем.
Автор выражает глубокую признательность своему научному руководителю кандидату физико-математических наук, доценту Михаилу Васильевичу Болдину за постановку задачи и постоянное внимание к работе.
Работы автора по теме диссертации
[1] Есаулов Д.М., Робастность GM-тестов в авторегрессии против выбросов, Вестник МГУ. Математика. Механика, №2, с. 47-50, 2012.
[2] Esaulov D., Residual empirical processes and its application to GM-testing for the autoregression order, Mathematical Methods of Statistics, Vol. 22, No. 4, pp. 333-349, 2013.
[3] Esaulov D., Application of residual empirical processes to robust linear hypotheses testing in autoregression, Proceedings of 10th International Conference CDAM: Theoretical and applied stochastic, Vol. 1, pp. 153-156, 2013.
[4] Волдин M.B., Есаулов Д.М., Остаточные эмпирические процессы и качественно робастные GM-тесты в авторегрессии, Вестник МГУ. Математика. Механика, №1, с. 46-50, 2014.
Постановка задач и результаты раздела 3 об асимптотически оптимальных тестах пршшдлежат М.В. Болдину. Результаты раздела 2 о линейных разлооюениях о.э. п. принадлежат Д. М. Есаулову.
[5] Болдин М.В., Есаулов Д-М. Эмпирические процессы в авторегрессионных схемах с выбросами. Робастные GM-тесты, Тезисы докладов Международной конференции „Теория Вероятностей и ее Приложения", посвященной 100-летию со дня рождения Б.В. Гнеденко, Москва, с. 22-23, 2012.
Постановка задачи принадлежит М.В. Болдину. Результаты о разложениях о.э.п. принадлежат Д. М. Есаулову.
Подписано в печать 30.09.2015 г. Бумага офсетная. Печать цифровая. Формат А4/2. Усл. печ. л.1. Заказ № 329. Тираж 100 экз. Типография «КОПИЦЕНТР» 119234, г. Москва, Ломоносовский пр-т, д.20 Тел. 8(495)213-88-17 \vww.autoreferat 1 .ги