Асимптотические свойства статистических процедур анализа смесей вероятностных распределений тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Горшенин, Андрей Константинович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2011 ГОД ЗАЩИТЫ
   
01.01.05 КОД ВАК РФ
Диссертация по математике на тему «Асимптотические свойства статистических процедур анализа смесей вероятностных распределений»
 
Автореферат диссертации на тему "Асимптотические свойства статистических процедур анализа смесей вероятностных распределений"

Московский государственный университет имени М. В. Ломоносова

На правах рукописи

ГОРШЕНИН Андрей Константинович

АСИМПТОТИЧЕСКИЕ СВОЙСТВА СТАТИСТИЧЕСКИХ ПРОЦЕДУР АНАЛИЗА СМЕСЕЙ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ

Специальность 01.01.05 — теория вероятностей и математическая статистика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

1 СЕН 2011

Москва - 2011

4852593

Работа выполнена на кафедре математической статистики факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова.

Научный руководитель: Официальные оппоненты:

Ведущая организация:

доктор физико-математических наук, профессор В.Ю. Королев

доктор физико-математических наук, профессор И. Н. Володин

доктор физико-математических наук В. П. Будаев

Московский государственный институт радиотехники, электроники и автоматики (технический университет)

Защита диссертации состоится 23 сентября 2011 г. в 11 часов на заседании диссертационного совета Д 501.001.44 в Московском государственном университете имени М.В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет ВМК, аудитория С85. Желающие присутствовать на заседании диссертационного совета должны сообщить об этом за два дня по тел. 939-30-10 (для оформления заявки на пропуск).

С диссертацией можно ознакомиться в библиотеке факультета ВМК МГУ. С текстом автореферата можно ознакомиться на официальном сайте ВМК МГУ http://cs.msu.ru в разделе «Наука» - «Работа диссертационных советов» - «Д 501.001.44».

Автореферат разослан Ю августа 2011 г.

Ученый секретарь

диссертационного совета //fs У^УУ

профессор I/ Н. П. Трифонов

Общая характеристика работы

Актуальность :

Во многих ситуациях удобными математическими моделями стохастических хаотических процессов являются подчиненные ви-неровские процессы, по сути представляющие собой процессы броуновского движения со случайным временем (или со случайными параметрами сноса и диффузии). Математическим обоснованием такого подхода являются, в частности, предельные теоремы для обобщенных процессов Кокса, которые являются в некотором смысле наилучшими моделями нестационарных хаотических случайных блужданий и демонстрируют высокую адекватность при их использовании для описания динамики биржевых цен или характеристик турбулентной плазмы на временных микромасштабах. С помощью соответствующих предельных теорем такие модели распространяются на временные макромасштабы и трансформируются в упоминавшиеся выше подчиненные винеровские процессы1. В рамках таких моделей распределения приращений рассматриваемых процессов в общем случае имеют вид сдвиг-масштабных смесей нормальных законов.

При изучении топкой стохастической структуры хаотических процессов наибольший интерес представляет скорость изменения процесса (то есть его волатильность). При этом, в отличие от многих стандартных определений термина «волатильность», в данной работе будет использоваться понятие многомерной волатильности, которое основано на возможности аппроксимации произвольной сдвиг-масштабной смеси нормальных законов конечной смесью вида

ХХ^г).

г=1

где Ф(х) функция распределения стандартного нормального зако-

к

на, к ^ 1 - известное натуральное число, Pi ^ 0, ^ рг — 1, я,- £ R,

¿=1

cri > 0, i = 1,..., к. В рамках такой модели распределений приращений хаотических стохастических процессов волатильность трактуется как дисперсия приращения, которая равна

¿=1 г=1 i=1

1 В. Ю. Королев. Вероятностно-статистические методы декомпозиции волатильности хаотических процессов. - М.: изд-во Моск. ун-та, 2011. - 512 с.

Здесь первое слагаемое, не зависящее от параметров сдвига компонент, описывает диффузионную компоненту волатильности, тогда как второе слагаемое, не зависящее от параметров диффузии компонент, описывает динамическую компоненту волатильности.

С целью анализа стохастической структуры рассматриваемой системы, в рамках которой развивается изучаемый процесс, необходимо осуществить декомпозицию волатильности на динамическую и диффузионную составляющую. В рамках указанной выше модели типа конечной смеси распределений вероятности эта задача сводится к задаче статистического разделения конечных смесей, то есть задаче отыскания статистических оценок параметров смеси. Данная задача является весьма важной при изучении скрытых тенденций на финансовых рынках, при исследовании корреляционной структуры хаотических процессов в физике турбулентной плазмы, при анализе информационных потоков в вычислительных или телекоммуникационных системах.

Для решения задачи статистического разделения смесей используются различные методы, наиболее популярным из которых является ЕМ-алгоритм2, который представляет собой итеративный метод для нахождения оценок максимального правдоподобия.

Несмотря на свою популярность и относительную эффективность, ЕМ-алгоритм не лишен ряда существенных недостатков. Например, существуют проблемы неустойчивости по отношению к исходным данным (оценки могут радикально измениться при замене всего лишь одного наблюдения в выборке из 200 — 300 наблюдений) и неустойчивости по отношению к выбору начального приближения (от этого может зависеть скорость сходимости, причем весьма существенно). К тому же алгоритм работает с заранее заданным числом компонент, которое может не соответствовать реальному распределению выборки.

В силу неустойчивости ЕМ-алгоритма по отношению к исходным данным возникает необходимость использования робаст-ных оценок на шагах ЕМ-алгоритма, то есть оценок, обладающих нечувствительностью к малым отклонениям от предположений. В качестве робастных оценок можно рассмотреть так называемые М-оценки. М-оценка - всякая оценка Т„, определяемая как решение экстремальной задачи на минимум вида

2A. Dempster, N. Laird and D. Rubin. Maximum likelihood estimation from incompleted data // Journal of the Royal Statistical Society, 1977. Series B.

n

i=1

Vol. 39(1). P. 1-38.

где р{-) - произвольная функция. М-оценки допускают обобщение на многопараметрический случай, что позволяет одновременно выписывать оценки данного типа для сдвига и масштаба. Известно3, что медиана является робастной М-оценкой параметра сдвига. Более того, медиана является единственной М-оценкой, инвариантной относительно масштаба. Поэтому в данной работе значительное внимание уделяется построению и применению медианных модификаций алгоритмов ЕМ-типа.

Одним из важнейших недостатков классического ЕМ-алгорит-ма является то, что он в ряде ситуаций выбирает первый попавшийся локальный максимум4. То есть, являясь методом локальной оптимизации, он приводит не к глобальному максимуму функции правдоподобия, а к тому локальному максимуму, который является ближайшим к начальному приближению. Довольно эффективный способ преодоления данного недостатка заключается в случайном «встряхивании» наблюдений (выборки) на каждой итерации. Этот способ лежит в основе SEM-алгоритма5 (от Stochastic EM-algorithm, стохастический (или случайный) ЕМ-алгоритм). Отличие заключается в добавлении дополнительного S-шага, на котором и реализуется указанное встряхивание «выборки».

Изучение свойств SEM-алгоритма проводилось для случая неполных данных, а также с введение дополнительных ограничений6,7. В данной работе основное внимание уделяется изучению применения SEM-алгоритма к задаче разделения конечных смесей вероятностных распределений и, прежде всего, к разделению смесей нормальных законов (в частности, с применением его новой версии - медианного SEM-алгоритма), а также доказательству важных свойств сходимости данного алгоритма для произвольного конечного числа компонент без дополнительных предположений о параметрах метода. Вопросы, относящиеся к данной тематике, ранее либо не исследовались, либо изучались лишь для некоторых частных случаев.

Для классического SEM-алгоритма известны результаты о свойствах сходимости для случая смеси только двух законов, однако

3 Л. Хъюбер. Робастность в статистике. М.: Мир, 1984. - 304 с.

4 В. ДО. Королев. Вероятностно-статистический анализ хаотических процессов с помощью смешанных гауссовских моделей. Декомпозиция волатилыгости финансовых индексов и турбулентной плазмы. - М.: ИПИ РАН, 2007. - 363 с.

° M. Broniatowski, G. Celeux and J. Diebolt. Reconnaissance de mélanges de densités par un algorithme d'apprentissage probabiliste // Data Analysis and Informatics, 1984. Vol. 3. P. 359-373.

6 E. H. Ip. A Stochastic EM Estimator in the Presence of Missing Data. - Theory and Practice. PhD Dissertation, Stanford University, 1994.

7S. F. Nielsen. Stochastic EM algorithm: Estimation and asymptotic results // Bernoulli, 2000. № 6. P. 457-489.

приведенная техника доказательства не допускает обобщения даже на случай смеси трех законов8. Более того, предлагается рассмотреть дополнительные ограничения, которые фактически предназначены для того, чтобы исключить случай пустых кластеров, а также учесть возможность считать пустым не только кластер, не содержащий элементов выборки, но и содержащий некоторое их число. Очевидным недостатком данного подхода является тот факт, что приходится принудительно задавать число компонент в подгоняемой смеси, которое на практике обычно неизвестно. Способы преодоления указанного недостатка также рассматриваются в диссертации.

Алгоритмы ЕМ-типа могут применяться как важная составная часть некоторой более сложной процедуры, называемой методом скользящего разделения смесей (СРС-методом). Данный метод позволяет учесть изменения в эволюции процесса с течением времени. Такой подход позволяет решить задачу декомпозиции волатиль-ности в динамике, отследить появление и исчезновение факторов, формирующих структуру процесса в каждый момент времени.

Важным параметром в модели типа смесей вероятностных распределений является число компонент. Алгоритмы ЕМ-типа обычно подразумевают явное задание этого числа. При этом включение в модель дополнительных параметров увеличивает ее согласие с данными. Однако в данной ситуации возникают две существенные сложности. Во-первых, увеличение числа параметров приводит к существенному повышению вычислительной сложности алгоритма. Во-вторых, в ряде ситуаций использование максимального числа компонент может не приводить к увеличению согласия. К примеру, для масштабных смесей известен эффект насыщения, когда согласие не увеличивается уже со значений числа компонент, равного 4 — 5. Для сдвиг-масштабных смесей известен эффект перетекания волатильности, когда при небольшом числе компонент (около 2 — 3) большее влияние имеет диффузионная компонента, а при увеличении числа компонент - динамическая. Таким образом, задание слишком большого числа компонент может критически влиять на соответствие модели исходным данным или на интерпретацию получаемых результатов. Поэтому задача исследования подходов к определению точного числа компонент является исключительно важной и во многом определяющей для успешного применения подобных моделей и методов на практике.

Многие существующие подходы к определению числа компо-

8 G. Celeux, J. Diebolt. Asymptotic properties of a stochastic EM algorithm for estimating mixing proportions // Communications in statistics. Stochastic models 1993. Vol. 9. P. 599-613.

нент смеси носят название информационных, так как основываются на понятии расстояния Кульбака-Лейблера9, также называемого энтропией по Кульбаку. В качестве примеров можно привести критерий Акаике10, байесовский информационный критерий11, критерий Ло12. Первые два критерия позволяют учесть увеличение согласия с данными при увеличении числа параметров, однако они подразумевают использование некоторой штрафной функции за включение в модель новых параметров. Критерий Ло не требует штрафных функций, однако его статистика обладает весьма сложным распределением при выполнении нулевой гипотезы, а именно взвешенным х2-распределением. При этом определение параметров данного распределения представляет собой достаточно серьезную вычислительную задачу даже на небольших объемах выборки и малом числе компонент в смеси (например, уже при максимальном числе компонент, равном трем).

Общим недостатком подобных критериев является то, что для корректности их применения требуется выполнение достаточно жестких условий регулярности, которые для реальных ситуаций могут не быть справедливыми. Так, например, для смесей нормальных законов нарушается предположение о конечности функции правдоподобия, поэтому формальное применение данных критериев может приводить к ошибочным результатам.

Чтобы минимизировать возможные ошибки, возникающие из-за необходимости задавать в явном виде точное число компонент алгоритмам EM-типа, в диссертации предложено использовать статистический подход к определению числа компонент по выборке. Исходя из особенностей применения предлагаемых алгоритмов, были выделены две практически значимые модели смесей вероятностных распределений, в которых необходимо правильно оценивать число компонент (названные моделью добавления компоненты и моделью расщепления компоненты). При этом ключевым моментом является переход от проверки гипотез о значении натуралънозначного дискретного параметра (равного числу компонент смеси) к проверке гипотез о значении непрерывного параметра (соответствующего весу компоненты, значимость которой проверяется). При таком

9S. Kullback and R. А. Leibler. On Information and Sufficiency // Annals of Mathematical Statistics, 1951.Vol. 22. P. 79-86.

10Я. Akaike. Information theory and an extension of the maximum likelihood principle.// In: B.N. Petrov and F. Csake (eds.) Second International Symposium on Information Theory. - Budapest, 1973. P. 267-281.

11G. Schwartz. Estimating the dimension of a model // The Annals of Statistics, 1978. Vol. 6. P. 461-464.

12 Y. Lo, N. R. Mendell and D. B. Rubin. Testing the number of components in a normal mixture // Biometrika, 2001. Vol. 88. №. 3. P. 767-778.

переходе естественно возникает задача проверки простой гипотезы против сложной альтернативы. Для построения критерия и исследования его свойств при решении данной задачи используется асимптотический подход.

В рамках такого подхода, также называемого подходом Питмэна13, размер и мощность критерия одновременно отделены от нуля, при этом важную роль играют асимптотический дефект14 и потеря мощности. При этом предполагается, что распределение статистики и мощность критерия зависят от некоторого неизвестного параметра t, 0 < t ^ С, С > 0. Однако величина, определяющая потерю мощности, позволяет сравнить мощность некоторого критерия, не зависящего от неизвестного параметра t, с мощностью наиболее мощного критерия, зависящего от t. Таким образом, можно гарантировать, что, с одной стороны, полученный критерий будет асимптотически наиболее мощным, а с другой стороны, возможно его корректное применение на практике. Величина же дефекта критерия говорит о том, сколько дополнительных наблюдений необходимо для того, чтобы мощность данного критерия совпала с мощностью наиболее мощного критерия. Важную роль в развитии методологии доказательств в данной области сыграли работы JI. ЛеКама10'16, которые позволили получать выражения для потери мощности без построения асимптотических разложений (см. работы Д. М. Чибисова17'18). Наконец, в книге В.Е. Бенинга19 были получены выражения для асимптотического дефекта и потери мощности, использование которых позволило в данной работе в явном виде получить потерю мощности и асимптотический дефект предложенных асимптотически наиболее мощных критериев.

Цель работы:

Целью дайной работы является исследование асимптотических свойств предложенных в диссертации статистических процедур анализа смесей вероятностных распределений, предназначенных

13 Е. J. G. Pitman. Lecture notes on nonparametric statistical inference. Lectures given for the University of North Carolina, Institute of Statistics, 1948.

14 J. L. Hodges, Jr., and E. L. Lehmann. Deficiency // Ann. Math. Statist., 1970. Vol. 41. P. 783-801.

15L. LeCam. An extension of Wald's theory of statistical decision functions // Ann. Math. Statist., 1955. Vol. 26. P. 69-81.

16£. LeCam. Asymptotic Methods in Statistical Decision Theory. - New York: Springer, 1986.

17D. M. Chibisov. Asymptotic expansions and deficiencies of tests // In: Proc. Intern. Congr. Math.,Warszawa, 1983. Vol. 2. P. 1063-1079.

1SD. M. Chibisov. Calculation of the deficiency of asymptotically efficient tests // Theory Probab. Appl., 1985. Vol. 30. P. 289-310.

19 V. E. Bening. Asymptotic Theory Of Testing Statistical Hypothesis: Efficient Statistics, Optimality, Power Loss and Deficiency. - Untrecht: VSP, 2000. - 277 p.

для решения задачи статистического определения параметров смесей, в том числе, для определения числа компонент.

Методика исследования:

Для решения задач в первой главе используется методы математического анализа, теории вероятностей, а также аппарат марковских цепей. Вторая глава существенно использует методы математического анализа, свойства метрики Леви, методы статистической проверки гипотез, а также асимптотический подход Питмэна. Результаты данной главы проверялись с помощью компьютерного моделирования и программной реализации построенных критериев на встроенном языке программирования пакета МАТЬАВ. Третья глава базируется на анализе реальных данных с финансовых рынков и экспериментальных измерений параметров турбулентной плазмы. Тестирование этих данных проводилось с помощью изученных в первых двух главах методов, которые были реализованы программно на различных языках программирования (встроенный язык программирования пакета МАТЬАВ, С++).

Научная новизна:

Все основные результаты диссертации являются новыми и состоят в следующем:

1. Получено обоснование возможности использования медианных модификаций алгоритмов ЕМ-типа для смесей нормальных законов.

2. Установлены свойства получаемой на итерационных шагах БЕМ-алгоритма последовательности оценок параметров идентифицируемых сдвиг-масштабных смесей вероятностных распределений с произвольным конечным числом компонент. Доказано, что последовательность БЕМ-оценок параметров смеси представляет собой конечную однородную апериодическую эргодическую марковскую цепь. Данный результат означает корректность использования стохастических алгоритмов ЕМ-типа для получения оценок компонент смеси: доказан факт сходимости распределения итерационной последовательности оценок к стационарному распределению, а также установлена независимость от начального приближения. В частности, эти результаты справедливы для конечных сдвиг-масштабных смесей нормальных законов.

3. Доказаны теоремы устойчивости конечных масштабных смесей нормальных законов к возмущениям параметров в терминах расстояния Леви. Получены двусторонние оценки для

расстояний Леви между смесями через расстояние Леви между смешивающими распределениями в рамках моделей добавления и расщепления компоненты. Данный результат может быть использован для обоснования эквивалентности задач проверки гипотез о значении дискретного и непрерывного параметра для статистического определения числа компонент произвольных конечных смесей вероятностных распределений, а также для доказательства корректности использования различных моделей типа конечных смесей нормальных законов, в частности, сеточных методов разделения смеси.

4. Построены асимптотически наиболее мощные критерии проверки гипотез о числе компонент конечной смеси вероятностных распределений и исследованы их асимптотические свойства, в частности, установлена асимптотическая нормальность критериев, выписаны выражения для потери мощности и асимптотического дефекта. Найдены условия их применимости к анализу практически значимых моделей вида конечных сдвиг-масштабных смесей нормальных и гамма-распределений, а также для случая смесей равномерных распределений. Продемонстрирована высокая вычислительная эффективность полученных критериев по сравнению с известными.

5. Рассмотренные в диссертации методы и статистические процедуры эффективно применены к исследованию стохастической структуры конкретных сложных хаотических систем, в частности, плазменной турбулентности.

Практическая значимость: Результаты диссертации имеют теоретический характер. Однако они направлены на повышение эффективности практического применения статистических процедур анализа смешанных вероятностных моделей. Все описанные методы имеют строгие математические обоснования и в тоже время успешно применены к анализу статистических или экспериментальных данных в различных областях, таких как финансовые рынки или физика турбулентной плазмы.

Апробация работы:

Результаты работы неоднократно докладывались и обсуждались на научном семинаре кафедры Математической статистики факультета ВМК МГУ «Теория риска и смежные вопросы» (2008 — 2011 гг.), Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов» (2008, 2009 гг.),

научной конференции «Тихоновские чтения» (2010 г.), международной научной конференции «Интеллектуальная обработка информации» (2010 г.), XII Всероссийском Симпозиуме по прикладной и промышленной математике (2011 г.), международной научной конференции «Моделирование нелинейных процессов и систем» (2011 г.).

Методы, описанные в диссертации, реализованы программно на различных языках программирования, получены свидетельства о государственной регистрации программ для ЭВМ №№ 2009610873, 2010611909, 2010611910, 2010611911, 2011610584, 2011610587, 20116119047, 20116119048. Результаты диссертации были использованы при проведении анализа экспериментальных исследований стохастических плазменных процессов в стелларато-ре Л-2М и линейной установке ТАУ-1 в Институте общей физики им. А. М. Прохорова Российской Академии Наук.

Публикации:

Материалы диссертации опубликованы в 14 печатных работах ([1] - [14]), из них 5 статей опубликованы в журналах, включенных в перечень ВАК ([2], [3], [8], [9], [13]).

Структура и объем диссертации:

Диссертация состоит из введения, трех глав, разбитых на 10 параграфов, и списка литературы, содержащего 87 наименований. Общий объем работы составляет 175 страниц.

Содержание работы

Первая глава посвящена исследованиям свойств различных итерационных методов оценивания параметров смесей вероятностных распределений.

В §1.1 дано описание медианной модификации ЕМ-алгоритма, а также обосновывается целесообразность использования робастных оценок медианного типа на Е-этапе ЕМ-алгоритма в задаче разделения конечных смесей нормальных законов. Показано, что медианные оценки естественным образом возникают на Е-этапе ЕМ-алгоритма в задаче разделения конечных смесей двойных экспоненциальных распределений (распределений Лапласа) с теми же самыми значениями параметров сдвига и масштаба компонент, что и у исходной смеси нормальных законов. В свою очередь, двойное экспоненциальное распределение можно представить в виде масштабной смеси нормальных законов при стандартном показательном смешивающем распределении. Таким образом, медианная модификация

ЕМ-алгоритма по сути сводится к замене исходной задачи разделения конечных смесей нормальных законов задачей разделения конечных смесей распределений Лапласа с теми же самыми значениями параметров сдвига и масштаба компонент. При указанной замене исходные данные представляются в виде «зашумленной» выборки, причем «зашумление» производится с помощью умножения параметров масштаба компонент на случайную величину со стандартным показательным распределением, а подлежащие оцениванию параметры положения (сдвига) компонент остаются неизменными. Показано, что оценки, получаемые с помощью медианной версии ЕМ-алгоритма в задаче разделения конечных смесей нормальных законов, приближают оцениваемые параметры постольку, поскольку соответствующая последовательность оценок, получаемая ЕМ-алгоритмом, сходится к оценкам максимального правдоподобия аналогичных параметров в модели вида конечных смесей распределения Лапласа.

В §1.2 дано общее описание Б ЕМ-алгоритма, а также приводятся подробные формулы для важного частного случая конечных сдвиг-масштабных смесей нормальных распределений (в частности, рассматривается и медианная версия БЕМ-алгоритма для смесей нормальных распределений). Описаны свойства последовательности БЕМ-оценок, которые строятся алгоритмом при решении задачи разделения конечных смесей вероятностных распределений с произвольным числом компонент. Основной результат формулируется в виде следующей теоремы.

ТЕОРЕМА 1.1. Последовательность оценок получаемая

БЕМ-алгоритмом в задаче разделения идентифицируемых смесей с произвольным конечным числом компонент, представляет собой конечную однородную апериодическую эргодическую марковскую цепь.

Данная теорема играет ключевую роль в обосновании корректности использования стохастических ЕМ-алгоритмов для оценивания параметров смесей. Доказательство заключается в последовательной проверке свойств марковской цепи, которой является последовательность БЕМ-оценок.

Как уже было отмечено, в работах, посвященных исследованию свойств БЕМ-алгоритма, предполагается выполнение ряда дополнительных условий. Так, в первых работах, посвященных данной тематике, устанавливались свойства лишь для двухкомпонентной смеси (при этом отмечалась невозможность обобщения приведенных доказательств на произвольное число компонент). Затем была доказана сходимость БЕМ-алгоритма для произвольного числа компонент, установлены асимптотические свойства последователь-

ности SEM-оценок (асимптотическая нормальность) при выполнении достаточно сложных для проверки на практике условий. Более того, некоторые условия для реальных данных вообще могут не выполняться (например, предположение строгой положительности весов компонент смеси может нарушаться в силу того, что этапы SEM-алгоритма непосредственно не запрещают весам обращаться в нуль). Теорема 1.1 устанавливает свойства оценок SEM-алгоритма для произвольного числа компонент без введения дополнительных предположений о параметрах метода.

Вторая глава посвящена построению наиболее мощных критериев проверки гипотез о числе компонент смеси. Для формализации задачи предложены две модели: добавления компоненты и расщепления компоненты. Рассматриваются сдвиг-масштабные смеси произвольных абсолютно непрерывных распределений.

С целью формирования гипотез в задаче статистической проверки гипотез о числе компонент смеси и количественной оценки того, насколько может измениться модель при добавлении или изъятии компоненты, в §2.1 рассматривается задача оценки устойчивости конечных масштабных смесей нормальных законов относительно смешивающего распределения в рамках упомянутых выше двух специальных моделей добавления и расщепления компоненты. Основные результаты данного раздела сформулированы в теоремах 2.1 — 2.4.

Предположим, что каждое из независимых наблюдений имеет распределение, представимое в виде конечной масштабной смеси нормальных законов вида

к к

G{x) = ]Г^Ф(хсгг), Y^Vi = 1, Pi о, 04 > 0, г = 1Д. (1)

г=1 г=1

Очевидно, что функция распределения G(x) из соотношения (1) может быть представлена в виде

ОД = ЕФ([/х),

где U - дискретная случайная величина, принимающая значения (Т{ с вероятностями pi, i = 1,..., к. Обозначим через p(F, G) равномерное расстояние между функциями распределения F(x) и G(:г), а через L(F, G) - соответствующее расстояние Леви.

В модели добавления компоненты предполагается, что каждое из независимых наблюдений имеет распределение, представимое в виде

к

Gp(x) = (1 -р)^р,ф(хсг;) +рФ(хсг),

г=1

где все величины <7*, Рь г~ 1,..., А;, считаем известными, а а > 0 и О < р < 1 считаем параметрами модели. Без ограничения общности для определенности считаем, что 0 < <т < < ^ ... ^

В модели расщепления компоненты предполагается, что каждое из независимых наблюдений имеет распределение, представимое в виде

к-1

ср(х) = ^РгЦхъ) + (Рк - рЩх<тк) + р${ха), (2)

г=1

где все величины сг;, р^, г = 1,..., к, считаем известными, а а > 0 и О ^ р ^ Рк считаем параметрами модели. Без ограничения общности для определенности будем считать, что выполнены соотношения 0 < СТ1 ^ <72 < . . . ^ <Ук-\ ^ <? ^ СГк-

Отметим, что условие отделенности параметров масштаба от нуля в обеих моделях также является достаточно общим и означает, что рассматриваются невырожденные нормальные законы с конечными дисперсиями.

Для моделей добавления и расщепления компоненты в диссертации доказываются четыре теоремы об устойчивости, связывающие двойными неравенствами расстояния Леви между смесями и смешивающими распределениями (теоремы 2.1 — 2.4). В качестве примера приведем одну из теорем для модели расщепления компоненты. Здесь и далее <р(-) обозначает плотность стандартного нормального закона.

Теорема 2.3. В рамках модели расщепления компоненты (2) справедливы неравенства

с[*]{аиокща,ср) < ци,ир) < С[^((тк)Ь^2{С,Ср),

где коэффициенты с|2', ] = 1,2, не зависят от величин р и а и имеют вид

1/2

СР(<гг,ак) =

тах{1,ад:}

Доказанные теоремы позволяют переформулировать задачу проверки гипотез о значении дискретного (натуральнозначного) параметра, равного числу компонент смеси, в терминах задачи проверки гипотез о значении непрерывного параметра, принимающего

значения из отрезка [0,1]. Переход от дискретного случаю к непрерывному играет важную роль при построении асимптотически оптимальных критериев проверки гипотез о числе компонент.

В §2.2 строится асимптотически наиболее мощный критерий в рамках модели добавления компоненты и исследуются его свойства.

Пусть к - некоторое известное натуральное число. Требуется проверить гипотезу

Я о : К = к

против альтернативы

Нх : К = к + 1,

где через К обозначено «истинное» число компонент в смеси. Для удобства асимптотического анализа сведем задачу проверки гипотез о значении дискретного параметра К к задаче проверки гипотез о значении непрерывного параметра: рассматривается простая гипотеза вида

Н0 : 9 = 0

против последовательности сложных альтернатив вида

Нх : в = 4= > О,

\/П

где t - неизвестный параметр.

Модель добавления компоненты в общем случае имеет вид

к

{фг{х) - плотности, Pi > 0, i = 1,..., к, в е [0,1], J2Pi = 1)

г=1

к

р(х, в) = (1 - в^РгФЛх) + 0Фк+l(x) = (1 - в)f{x) + вд{х). (3) ¿=1

Первый из основных результатов данной главы сформулирован в следующей теореме. Здесь и далее иа обозначает (1 — а)-квантиль стандартного нормального закона.

Теорема 2.5. Пусть для s = 2,3,4 моментные характеристики Ф5 = Ео (g(Xi)/f(Xi))s для функций f(x) и д(х) из соотношения (3) конечны, а соответствующая смесь идентифицируема. Тогда для модели добавления компоненты критерий проверки гипотезы о том, что смесь является k-компонентной, против альтернативы, что смесь является (k + I)-компонентной, основанный на статистике

обладает следующими свойствами:

1. При справедливости нулевой гипотезы статистика имеет нормальное распределение с параметрами 0 и Ф2 — 1 при п —> оо:

ВД |Яо)->^(0,Ф2-1).

2. При справедливости альтернативы статистика Т\ имеет нормальное распределение с параметрами Ь (Ф2 — 1) и Ф2 — 1 при п —оо:

ад |яп,1)->лг(е(Ф2-1),Ф2-1).

3. Данный критерий является асимптотически наиболее мощным критерием для заданного уровня а €Е (0,1) с предельной мощностью вида

/Г(г) = Ф(Н/Ф2 -1 -«а).

Потеря мощности этого критерия равна

X (ф4 + 2Фз - ф2 - Ф2 - - 1).

5. Асимптотический дефект этого критерия равен

2 г(0

— (Ф4 + 2Ф3-Ф1-Ф2-^-1).

4 (Ф2 — 1) V 41 ° ^ " Ф2-1

Здесь Рп(Ь)- мощность критерия, основанного па статистике Т\.

Отметим, что условия теоремы обеспечивают выполнение условий регулярности, что устанавливает следующая лемма.

Лемма 2.1. Пусть фишеровская информация I для плотности р(х, в) для модели добавления компоненты конечна. Тогда выполнены условия регулярности.

Здесь же получены достаточные условия конечности моментных характеристик Ф3, в = 2,3,4, которые для случая конечных смесей нормальных и гамма-распределений имеют вид

2 4 2

3 3

для смесей нормальных распределений и

А+1 > та* {I mm (ЗА +1), | mm (Д, + 1)} , afc+1 > | тш а,.

для смесей гамма-распределений.

Для корректного рассмотрения примеров доказывается теорема об условиях идентифицируемости смесей равномерных распределений.

Теорема 2.6. Пусть А(М) = (J [а»,Ь»], где М - некоторое

i&M

подмножество номеров. Обозначим семейство конечных смесей равномерных распределений через

к к F(x) = Х> - 1, Fi € $ L

¿=i ¿=i J

где 5 = {F(x,ai,bi), ieR, — oo < а* < bi < oo, г € N} - некоторое множество функций распределения равномерных законов (возможно, конечное). Семейство Н идентифицируемо тогда и только тогда, когда

A{bh)\A{M2) ф 0,

для всех возможных различных М\ и Мг, Mj С N.

В §2.3 рассматривается асимптотически наиболее мощный критерий для модели расщепления компоненты, которая в общем случае формализуется следующим образом (т/>»(х), ~ф(х) - плотности,

к

Pi > 0, г = 1,..., к, 0 < в < рк, £ Pi =

»=х

к

р(х, в) = + б • (</>(z) - Vfc(®)) = /(*) + в • <?(*)• (4)

г=1

Второй основной результат данной главы сформулирован в следующей теореме.

Теорема 2.7. Пусть выполнены достаточные условия конечности моментных характеристик Ф8 = Ео (g(Xi)/f(Xi))s, s = 2,3,4, для функций f(x) и g(x) из соотношения (4), а соответствующая смесь идентифицируема. Тогда для модели расщепления компоненты критерий проверки гипотезы о том, что смесь является k-компонентной, против альтернативы, что смесь является (k + 1)-компонентной, основанный на статистике

Т - „-1/2 у*

Т2~П ¿1)'

обладает следующими свойствами:

1. При справедливости нулевой гипотезы эта статистика имеет нормальное распределение с параметрами 0 и Ф2 пРи п -> оо:

£(Г2 |#0)->ЛГ(0,Ф2).

2. При справедливости альтернативы эта статистика имеет нормальное распределение с параметрами íФ2 и Фг при п —> оо:

£(Т2|ЯП11)->^(«Ф2,Ф2).

3. Данный критерий является асимптотически наиболее мощным критерием для заданного уровня а € (0,1) с предельной мощностью вида

4■ Потеря мощности для этого критерия составляет

5. Асимптотический дефект для этого критерия равен

* * (ф4_ф2 *1).

4Ф2 V 2 Ф2/

В данной модели выполнение условий регулярности устанавливается следующей леммой.

ЛЕММА 2.2 Пусть при к = 1 в равенстве (4) конечен интеграл

оо

J ф2(х)'ф^1{х) Лх,

-оо

а при к^ 2 конечен интеграл

7 (к~х V1

J 92(х) <1Х.

Тогда выполнены условия регулярности.

В этом параграфе также получены достаточные условия конечности моментных характеристик s = 2,3,4, которые для случая конечных смесей нормальных и гамма-распределенш! имеют вид

а2 < ^аI, к^ 1, а2 < 2 max о\. < 2 max о\, к ^ 2. для смесей нормальных распределений и

/3 ^ max jl(30i + 1), i(/3i + 1) j , а > к = 1,

/3 £ max + 1), + 1), \ ^min_i (ft + 1) j ,

fl 3 \

а > max < - mm ау,-а/Л, [2 J 4 J

& ^ , + Qfc > ^ , ^ 2" Z l<l<fc —1 / 1

для смесей гамма-распределений.

В §2.4 рассматривается эффективность применения полученных асимптотически наиболее мощных критериев на практике. Проверяется правильность различения малых весов (вплоть до значений 0.01) на различных объемах выборки. Показано, что число успехов приближается к 100%, при этом число ошибок заведомо не превосходит уровень значимости критерия для каждого из случаев. Отмечены преимущества использования данных критериев по сравнению с критерием JIo.

Третья глава посвящена применению введенных в главах 1 и 2 алгоритмов и техник повышения их эффективности. Отмечены новые для ряда практических областей результаты, которые были получены только с использованием полученных в диссертации методов.

В §3.1 описывается общая схема анализа хаотических процессов с применением метода скользящего разделения смесей (СРС-метод).

В §3.2 рассматривается анализ реальных данных с финансовых рынков с использованием СРС-метода. Найдены и проинтерпретированы портреты волатильности для различных финансовых индексов. Наибольшее внимание уделяется применению стохастических модификаций алгоритмов ЕМ-типа.

В §3.3 рассматривается анализ хаотических процессов в турбулентной плазме с использованием СРС-метода для различных алгоритмов ЕМ-типа. С помощью подобного анализа впервые была

определена структура хаотических процессов, протекающих в турбулентной плазме - было найдено их число (3 — 5), определены параметры.

В §3.4 рассматривается альтернативный СРС-методу подход в анализе хаотических процессов в турбулентной плазме, базирующийся на рассмотрении «производных» величин от выборки (гистограммы, спектры), который можно рассматривать как одну из разновидностей бутстреп-процедур. Данный подход позволяет отследить, прежде всего, особенности функционирования системы на протяжении некоторого периода времени, за которое была построена анализируемая выборка. При этом объем выборки заранее предполагается весьма значительным (порядка нескольких сотен тысяч наблюдений), а истинная структура системы неизвестной. Проведенный анализ позволил получить взаимосвязь между результатами для гистограмм и для спектров, что заранее не предсказывалось теорией. Однако высокая степень согласия полученных результатов с экспериментальными данными позволяет предполагать, что данная связь является неслучайной, а потому представляет значительный интерес для исследований.

Работа выполнена под руководством доктора физико-математических наук, профессора Виктора Юрьевича Королева, которому автор выражает искреннюю благодарность.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Г. М. Батанов, А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Анализ статистических характеристик турбулентных пульсаций с помощью алгоритмов ЕМ-типа // Материалы научной конференции «Тихоновские чтения». Москва, 2010. С. 62-63.

2. Г. М. Батанов, А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Эволюция вероятностных характеристик низкочастотной турбулентности плазмы в микроволновом поле // Математическое моделирование, 2011. Т. 23. № 5. С. 35-55.

3. В. Е. Бенина, А. К. Горшенин, В.Ю. Королев. Асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений // Информатика и ее применения, 2011. Т. 5. Вып. 3. С. 4-15.

4. А. К. Горшенин. Медианные модификации стохастического ЕМ-алгоритма для разделения смесей вероятностных распре-

делений и их применение к декомпозиции волатильности финансовых временных рядов // Сборник тезисов лучших дипломных работ 2008 года. М.: Издательский отдел факультета ВМиК МГУ им. М. В. Ломоносова, 2008. С. 62-63.

5. А. К. Горшенин. Применение медианной модификации ЭВМ-алгоритма к задаче разделения смесей вероятностных распределений // Материалы XV Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов-2008»: секция «Вычислительная математика и кибернетика». М.: Издательский отдел факультета ВМиК МГУ им. М. В. Ломоносова, 2008. С. 30.

6. А. К. Горшенин. Проверка гипотез о числе компонент смеси вероятностных распределений // Обозрение прикладной и промышленной математики, 2011. Т. 18. Вып. 2.

7. А. К. Горшенин. Сравнение модификаций ЕМ-алгоритма для декомпозиции волатильности финансовых временных рядов // Материалы XVI Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов-2009»: секция «Вычислительная математика и кибернетика». М.: Издательский отдел факультета ВМиК МГУ им. М. В. Ломоносова, 2009. С. 22.

8. А. К. Горшенин. Проверка статистических гипотез в модели расщепления компоненты // Вестник Московского Университета, 2011. Серия 15, Вычислительная математика и кибернетика. Т. 4.

9. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Сквор-цова. Анализ тонкой стохастической структуры хаотических процессов с помощью ядерных оценок // Математическое моделирование, 2011. Т. 23. № 4. С. 83-89.

10. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Сквор-цова. Бутстреп-методология структурного исследования хаотических процессов // Материалы научной конференции «Тихоновские чтения». Москва, 2010. С. 63-64.

11. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Сквор-цова. Бутстреп-методология исследования структуры хаотических процессов // Материалы Второй международной научной конференции «Моделирование нелинейных процессов и систем». Москва, 2011. С. 219.

12. А. К. Горшенин, В. Ю. Королев, А. М. Турсунбаев. Медианные модификации EM-алгоритма для разделения смесей вероятностных распределений и их применение к декомпозиции волатилыюсти финансовых индексов // Статистические методы оценивания и проверки гипотез, 2008. С. 169-195.

13. А. К. Горшенин, В. Ю. Королев, А. М. Турсунбаев. Медианные модификации ЕМ- и SEM-алгоритмов для разделения смесей вероятностных распределений и их применение к декомпозиции волатильности финансовых временных рядов // Информатика и ее применения, 2008. Т. 2. Вып. 4. С. 12-47.

14. А. К. Горшенин, В. Ю. Королев, С. Я. Шоргин. СРС-методы как методы интеллектуального анализа данных при исследовании реальных хаотических процессов // Интеллектуальная обработка информации: 8-я международная конференция. Республика Кипр, г. Пафос, 17-24 октября 2010 г.: Сборник докладов. - М.: МАКС Пресс, 2010. С. 224-227. ISBN: 978-5-317-03409-2.

В работах [1, 2] Горшениным А. К. получены результаты анализа экспериментальных данных, построены портреты волатильности.

В работе [3] Горшенину А. К. принадлежат формулировка и доказательство теоремы о свойствах асимптотически оптимального критерия, доказательство достаточных условий конечности мо-ментных характеристик, формулировка и доказательство теоремы об условиях идентифицируемости смесей равномерных распределений.

В работах [9, 10, 11] Горшенину А. К. принадлежат разработка предлагаемой в статьях бутстреп-процедуры, ее программная реализация, а также проведение анализа экспериментальных измерений параметров турбулентной плазмы.

В работе [12] Горшенину А. К. принадлежат программная реализация медианных методов и их применение к реальным финансовым данным.

В работе [13] Горшенину А. К. принадлежат программная реализация стохастических и медианных методов, построение портретов волатильности финансовых и тестовых данных.

В работе [14] Горшенину А. К. принадлежит описание особенностей применения СРС-методов к реальным хаотическим процессам.

Заказ N9150-А/06/И Подписано в печать 30.06.2011 Тираж 100 экз. Усл. пл. 1,0

/Т^ч • ООО "Цифровичок", тел. (495) 797-75-76; (495) 778-22-20 mvw.cfr.ru; е-тт1:т/о@ф.ги

 
Содержание диссертации автор исследовательской работы: кандидата физико-математических наук, Горшенин, Андрей Константинович

Введение

1 Свойства медианных модификаций алгоритмов ЕМ-типа

1.1 Свойства медианных модификаций EM-алгоритма.

1.1.1 Задача разделения смесей вероятностных распределений

1.1.2 ЕМ-алгоритм для разделения конечных смесей нормальных законов.

1.1.3 Относительная эффективность выборочного среднего и выборочной медианы при оценивании параметров положения компонент конечных смесей нормальных законов.

1.1.4 Медианные модификации EM-алгоритма.

1.1.5 Обоснование целесообразности применения медианной модификации ЕМ-алгоритма для решения задачи разделения конечных смесей нормальных законов.

1.2 Свойства стохастических медианных модификаций

EM-алгоритма

1.2.1 SEM-алгоритм

1.2.2 Медианная модификация SEM-алгоритма.

1.2.3 Свойства SEM-алгоритмов, получаемые на основании интерпретации последовательности оценок как марковской цепи

2 Асимптотически наиболее мощные критерии проверки гипотез о числе компонент смеси вероятностных распределений

2.1 Устойчивость масштабных смесей нормальных законов относительно смешивающего распределения

2.1.1 Постановка задачи.

2.1.2 Модель добавления компоненты.

2.1.3 Модель расщепления компоненты

2.1.4 Выводы.

2.2 Асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений в модели добавления компоненты.

2.2.1 Постановка задачи.

2.2.2 Асимптотически наиболее мощный критерий проверки гипотез о числе компонент смеси.

2.2.3 Асимптотическое поведение разности мощностей

2.2.4 Условия конечности моментных характеристик Ф

2.2.5 Примеры конкретных смесей вероятностных распределений

2.3 Асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений в модели расщепления компоненты.

2.3.1 Постановка задачи.

2.3.2 Асимптотически наиболее мощный критерий проверки гипотез о числе компонент смеси.

2.3.3 Асимптотическое поведение разности мощностей

2.3.4 Условия конечности моментных характеристик

2.3.5 Примеры конкретных смесей вероятностных распределений

2.4 Тестирование критериев.

3 Практическое применение методов разделения смесей вероятностных распределений

3.1 Декомпозиция волатильности с помощью метода скользящего разделения смесей.

3.2 Применение медианных модификаций алгоритмов ЕМ-типа для декомпозиции волатильности финансовых индексов

3.3 Эволюция вероятностных характеристик низкочастотной турбулентности плазмы.

3.3.1 Описание установки и метода измерения

3.3.2 Структурная ионно-звуковая турбулентность в установке ТАУ-1.

3.3.3 Применение ЕМ- и SEM-алгоритмов для анализа временных выборок флуктуаций потенциала ионно-звуковой структурной турбулентности

3.3.4 Экспериментальные результаты

3.3.5 Выводы.

3.4 Анализ тонкой стохастической структуры хаотических процессов с помощью ядерных оценок.

3.4.1 Исследование тонкой структуры доплеровских спектров флуктуаций плотности в краевой плазме в тороидальных установках.

3.4.2 Метод анализа структуры процесса, основанный на ядерных оценках плотности.

3.4.3 Применение метода к реальным данным.

3.4.4 Выводы.

 
Введение диссертация по математике, на тему "Асимптотические свойства статистических процедур анализа смесей вероятностных распределений"

Во многих ситуациях удобными математическими моделями стохастических хаотических процессов являются подчиненные винеровские процессы, по сути представляющие собой процессы- броуновского движения со случайным временем (или со случайными параметрами сноса и диффузии). Математическим обоснованием такого подхода являются предельные теоремы для обобщенных дважды стохастических пуассо-новских процессов (обобщенных процессов Кокса). Обобщенные процессы Кокса являются в некотором смысле наилучшими моделями нестационарных хаотических случайных блужданий и демонстрируют высокую адекватность при их использовании для описания динамики биржевых цен или характеристик турбулентной плазмы на временных микромасштабах. С помощью соответствующих предельных теорем такие модели распространяются на временные макромасштабы и трансформируются в упоминавшиеся выше подчиненные винеровские процессы (см., например, книгу [10]). В рамках таких моделей распределения приращений рассматриваемых процессов в общем случае имеют вид сдвиг-масштабных смесей нормальных законов.

Как уже отмечалось, подчиненные винеровские процессы широко применяются для моделирования таких хаотических процессов как поведение биржевых цен, финансовых индексов, характеристик турбулентной плазмы. Столь разные по своей природе процессы объединяют некоторые общие черты, которые и служат обоснованием возможности применения схожих моделей для моделирования как финансовых рынков, так и плазменной турбулентности. Так, для обеих областей характерны непредсказуемость, неоднородность по времени (например, интенсивность торгов может быть различной в течение торгового дня; в плазме наблюдается структурная турбулентность), наличие более-менее устойчивых внутренних структур, оказывающих существенное влияние на функционирование всей системы (например, солитоны в плазме, группировки участников финансовых рынков). При проведении анализа в обеих областях внутренняя структура процесса, чаще всего, исследователю неизвестна.

При изучении тонкой стохастической структуры подобных процессов наибольший интерес представляет скорость изменения процесса (то есть его волатильность). При этом, в отличие от многих стандартных определений термина «волатильность», в данной работе будет использоваться понятие многомерной волатильности (см., например, книгу [10]), которое основано на возможности аппроксимации произвольной сдвиг-масшабной смеси нормальных законов конечной смесью вида 1 где

Ф(ж) = J ф{х) -^=ехр оо

- соответственно функция распределения и плотность стандартного норк мального закона, к ^ 1 - известное натуральное число, р{ ^ 0, — 1> 1 а* € К, <У{ > 0, г — 1,., к. В рамках такой модели распределений приращений хаотических стохастических процессов волатильность трактуется [10] как дисперсия приращения, которая равна к к И = + ~ Ю2, г=1 г=1 где к а = ^рга{. i=l

Здесь первое слагаемое, не зависящее от параметров сдвига компонент, описывает диффузионную компоненту волатильности, тогда как второе слагаемое, не зависящее от параметров диффузии компонент, описывает динамическую компоненту волатильности. Следует отметить, что параметры щ являются средними значениями приращений рассматриваемого процесса за единицу времени, поэтому векторы а = (а^ ., а/.) и р = (^>1,. ,рк) описывают распределение средних скоростей в рассматриваемой системе.

Поясним сказанное. В процессе могут присутствовать некоторые (локальные) тренды, происходить их взаимодействия. Данные факторы формируют динамическую компоненту волатильности. Одновременно в моделируемых системах (и в плазме, и на финансовых рынках) присутствует большое число факторов, оказывающих существенное влияние на функционирование системы (частицы среды, участники рынка), но поведение каждого из которых в отдельности не поддается предсказанию. Суммарное случайное воздействие данных факторов определяет диффузионную составляющую волатильности. Только с учетом факторов обоих типов можно получить корректный портрет волатильности хаотического процесса.

С целью анализа стохастической структуры рассматриваемой системы, в рамках которой развивается изучаемый процесс, необходимо осуществить декомпозицию волатильности на динамическую и диффузионную составляющую. В рамках указанной выше модели типа конечной смеси распределений вероятности эта задача сводится к задаче статистического разделения конечных смесей, то есть задаче отыскания статистических оценок параметров смеси.

Данная задача является весьма важной в целом ряде отраслей:

1. Финансовые рынки (изучение скрытых тенденций эволюции различных секторов рынка или различных финансовых инструментов, основанное на применении понятия многомерной волатильности.

2. Физика турбулентной плазмы (анализ распределения энергии между процессами или структурами, исследование корреляционной структуры хаотических процессов).

3. Информационные системы (исследование стохастической структуры информационных потоков в вычислительных или телекоммуникационных системах).

Для решения задачи статистического разделения смесей используются различные методы, наиболее популярным из которых является ЕМ-алгоритм. ЕМ-алгоритм представляет собой итеративный метод для нахождения оценок максимального правдоподобия в задаче с неполным набором данных. На каждой итерации проводятся:

Е-шаг (от expectation), на котором вычисляется условное математическое ожидание логарифма функции правдоподобия по имеющимся данным и текущим оценкам параметра.

М-шаг (от maximization), на котором находится следующая оценка параметра максимизацией функции, полученной на Е-шаге.

Термин «неполные данные» подразумевает существование двух выборочных пространств X и У, при этом отображение X —> У не единственно. Наблюдаемые данные - из У, а соответствующие х не наблюдаются непосредственно, а только через у. Именно множество X является полным набором данных.

Данный метод был описан и систематически исследован в работе [39] в 1977 году, хотя сам метод использовался со значительно более раннего времени (например, работа [44] датирована 1958-годом). В дальнейшем исследование свойств ЕМ-алгоритма продолжалось в работах многих исследователей (см., например, работы [30, 41, 72]).

Существует два основных применения ЕМ-алгоритма. Во-первых, в случае, когда действительно есть пропущенные значения в данных в связи с ограничениями их процесса получения. Во-вторых, в ситуации, когда задача оптимизации функции правдоподобия аналитически неразрешима, но функция правдоподобия может быть значительно упрощена предположениями о существовании и значениях дополнительных (неизвестных) параметров. Такая задача часто встречается в задачах разделения смесей вероятностных распределений, распознавания образов, реконструкции изображений. При этом математическую основу данных прикладных задач составляют задачи кластерного анализа, классификация и разделение смесей вероятностных распределений.

Приведем примеры практического применения ЕМ-алгоритма:

1. Интеллектуальный анализ данных (Data Mining), связанный с задачами кластеризации, распознавания образов, выделения закономерностей в данных в информационных потоках.

2. Заполнение пропусков в данных для дальнейшего анализа методами, ориентированными на работу с данными без пропусков (например, при анализе временных рядов).

3. Обработка изображений (восстановление и анализ изображений, компьютерная томография), распознавание естественных языков (например, часто используемый алгоритм Баума-Велча представляет собой модификацию ЕМ-алгоритма).

Несмотря на свою популярность и относительную эффективность, ЕМ-алгоритм не лишен недостатков, оказывающихся весьма существенными в ряде ситуаций. Например, как показывают модельные примеры, в задачах разделения смесей нормальных законов на основе выборок конечного объема EM-алгоритм выдает не наиболее близкие к правильным оценки параметров, а наиболее «правдоподобные» (с точки зрения максимизации соответствующей функции правдободобия), что, естественно, способно привести к ошибочным выводам на основе неправильных оценок. Известны проблемы неустойчивости по отношению к исходным данным (оценки могут радикально измениться при замене всего лишь одного наблюдения в выборке из 200 — 300 наблюдений) и неустойчивости по отношению к выбору начального приближения (от этого может зависеть скорость сходимости, причем весьма существенно) [10]. К тому же алгоритм работает с заранее заданным числом компонент, которое может не соответствовать реальному распределению выборки. Известен ряд практических примеров (см., например, [23]), когда классический ЕМ-алгоритм оказывается неприменимым.

Существуют и другие методы отыскания оценок максимального правдоподобия, например, метод сопряженного градиента, модификации метода Гаусса-Ньютона. Однако в отличие от EM-алгоритма, такие методы, как правило, требуют оценки первой и/или второй производных функции правдоподобия. На практике также возникают сложности с вычислением интегралов на Е-шаге. Например, далеко не всегда возможно получить данный интеграл в терминах элементарных функций. Для преодоления данной проблемы был предложен МСЕМ-алгоритм (Monte Carlo ЕМ-алгоритм) [71], основанный на принципе имитационного моделирования. Однако за упрощение вычислений на Е-шаге приходится платить дополнительной погрешностью (из-за приближения интеграла суммой).

Для борьбы с недостатками классического EM-алгоритма применяют различные модификации классического алгоритма. При этом изменения не затрагивают принципиальную суть EM-алгоритма, изменяя лишь подходы к вычислению параметров на Е- и М-шагах (как, например, уже упомянутый МСЕМ-алгоритм, описываемый далее SEM-алгоритм).

В силу неустойчивости EM-алгоритма по отношению к исходным данным возникает необходимость использования робастных оценок на шагах EM-алгоритма, то есть оценок, обладающих нечувствительностью к малым отклонениям от предположений. В качестве робастных оценок П. Хьюбером [22] предложено использовать так называемые М-оценки. М-оценка - всякая оценка Тп, определяемая как решение экстремальной задачи на минимум вида п

2p(xüTn) -> min, ¿=1 где р(-) - произвольная функция. Заметим, что если в качестве р(х\ в) взять функцию — log /(ж;0), где f{x\6) - плотность распределения наблюдений, в - неизвестный параметр, то можно получить оценки максимального правдоподобия. Данные оценки допускают обобщение на многопараметрический случай, что позволяет одновременно выписывать оценки данного типа для сдвига и масштаба.

В книге [22] развиваются результаты Ф.Р. Хэмпела [43], на основании которых показано, что медиана является робастной М-оценкой параметра сдвига. Более того, известно, что медиана является единственной М-оценкой, инвариантной относительно масштаба. Поэтому в данной работе значительное внимание уделяется построению и применению медианных модификаций алгоритмов ЕМ-типа.

Одним из важнейших недостатков классического EM-алгоритма является то, что он в ряде ситуаций выбирает первый попавшийся локальный максимум (см., например, [9]). То есть, являясь методом локальной оптимизации, он приводит не к глобальному максимуму функции правдоподобия, а к тому локальному максимуму, который является ближайшим к начальному приближению.

Самый простой способ противодействия этому свойству заключается в том, чтобы, не ограничиваясь единственным начальным приближением и, соответственно, единственной траекторией ЕМ-алгоритма, реализовать несколько траекторий, задавая (например, случайно) несколько различных начальных приближений, а затем выбрать тот из результатов, для которого правдоподобие является наибольшим среди всех реализованных траекторий EM-алгоритма. Однако при таком подходе остается неясным ответ на вопрос о том, каким механизмом разумнее всего пользоваться при переходе от одного начального приближения к другому. В частности, когда начальное приближение задается случайно, без дополнительной информации нельзя исчерпывающим образом определить распределение вероятностей, в соответствии с которым следует генерировать очередное начальное приближение.

Другой, оказавшийся весьма эффективным, способ заключается как бы в случайном «встряхивании» наблюдений (выборки) на каждой итерации. Этот способ лежит в основе семейства SEM-алгоритмов от Stochastic EM-algorithm, стохастический (или случайный) ЕМ-алго-ритм [11, 31]). Отличие заключается в добавлении еще одного (помимо Е- и М-шагов) так называемого S-шага, который и реализует указанное встряхивание «выборки».

Основная идея данной модификации заключается в некотором разделении исходных данных по кластерам и максимизации соответствующих функций с учетом принадлежности данных тому или иному кластеру. Одним из важных достоинств практического применения SEM-алгоритма является то, что он, чаще всего, находит именно глобальный максимум функции правдоподобия.

Далее будет подробно описана теоретическая модель SEM-алгоритма для задачи декомпозиции конечных смесей вероятностных распределений, а также доказаны важные свойства сходимости данного алгоритма и его новой версии - медианного SEM-алгоритма для смесей нормальных распределений, не исследовавшиеся или мало исследовавшиеся в литературе. На основе интерпретации последовательности SEM-оцеиок как марковской цепи будут получены важные результаты, проливающие свет на функционирование SEM-алгоритмов, из которых можно сделать выводы об особенностях практического использования SEM-алго-ритмов в задаче декомпозиции смесей. При этом доказательство свойств SEM-алгоритмов проводится без дополнительных предположений о параметрах метода и для произвольного конечного числа компонент в смеси.

Некоторые свойства классического SEM-алгоритма изучались в работах [32, 33, 40, 49, 57]. Так, в работе [32] для классического SEM-алгоритма рассмотрен случай смеси только двух законов fi(x) и /г (я). Пусть pC-^lf^M,

2=1 где zf^ - независимые случайные величины с распределением Бернулли с параметром t{m) - t (x- v™) - Pim)Mxi)

Величина p(m+1) в принятых авторами работы [32] обозначениях соответствует оценке параметров на (т + 1)-м итерационном шаге. При этом на моделируемые на S-шаге случайные величины накладывается дополнительное ограничение

4Я)>С(ЛГ,<0, (1)

1=1 справедливое для всех компонент от 1 до А; (даже в случае к ^ 3, см., например, [33]). Здесь, в принятых авторами указанных работ обозначениях N - объем выборки, а с(Ы, й) - пороговая функция. Причем О < фУ, в) < 1, с(N,(1) —> 0 при N —> со. Предлагается в) выбирать из соотношения дг ¿+1 1 с(ЛГ,б0 = ——, - ^ о; ^ 1. 4 ' 1 N° 2

Величину N0^, в) можно интерпретировать как минимальное число элементов, которое должно содержаться в непустом кластере (при этом величину (1 нужно считать одним из параметров метода; понятно, что необходимо требовать, как минимум, выполнение условия б? ^ 0). Если же соотношение (1) не выполняется, то выбираются из некоторого заранее заданного распределения, а алгоритм возвращается к Е-шагу (то есть, фактически, реализуется принцип перезапуска алгоритма с начальными значениями из некоторого заранее выбранного семейства).

Фактически данные ограничения предназначены для того, чтобы исключить случай пустых кластеров (речь об этом пойдет ниже, в главе 1), а также учесть возможность считать пустым не только кластер, не содержащий элементов выборки, но и содержащий некоторое их число. Очевидным недостатком данного подхода является тот факт, что приходится принудительно задавать число компонент в подгоняемой смеси, которое на практике обычно неизвестно. Способам преодоления указанного недостатка посвящена глава 2.

В указанных предположениях в работе [32] для классического БЕМ-алгоритма в случае смеси двух законов приводится теорема о свойствах БЕМ-оценок, однако в той же работе отмечено, что уже для трех-компонентной смеси подобная техника доказательства не подходит (а значит, нельзя перенести результаты с двухкомпопентной смеси на смесь с произвольным конечным числом компонент). В главе 1 будет доказана теорема о свойствах оценок БЕМ-алгоритма (в том числе и для медианной модификации для смесей нормальных законов) для случая произвольного числа компонент в смеси и без дополнительных ограничений на параметры метода.

Алгоритмы ЕМ-типа могут применяться как важная составная часть некоторой более сложной процедуры, называемой методом скользящего разделения смесей (СРС-метод, см. [10]). Данный метод позволяет учесть изменения, происходящие в функционировании процесса в течении времени. Такой подход позволяет решить задачу декомпозиции во-латильности во времени, отследить появление и исчезновение факторов, формирующих структуру процесса в каждый момент времени.

Важным параметром в модели типа смесей вероятностных распределений является число компонент. Алгоритмы ЕМ-типа обычно подразумевают явное задание этой величины. При этом включение в модель дополнительных параметров увеличивает ее согласие с данными. Однако в данной ситуации возникают две существенные сложности. Во-первых, увеличение числа параметров приводит к повышению вычислительной сложности алгоритма, причем порой к довольно существенному. Во-вторых, в ряде ситуаций (см , например, книгу [10]) использование максимального числа компонент может не приводить к увеличению согласия. К примеру, для масштабных смесей известен эффект насыщения, когда согласие не увеличивается уже со значений числа компонент, равного 4 — 5. Для сдвиг-масштабных смесей известен эффект перетекания волатильности, когда при небольшом числе компонент (около 2 — 3) большее влияние имеет диффузионная компонента, а при увеличении числа компонент - динамическая. Таким образом, задание слишком большого числа компонент может критически влиять на соответствие модели исходным данным или на интерпретацию получаемых результатов. Поэтому задача исследования подходов к определению точного числа компонент является исключительно важной и во многом определяющей для успешного применения указанных моделей и методов на практике.

Многие существующие подходы к определению числа компонент смеси основываются на понятии расстояния Кульбака-Лейблера [45] и носят название информационных (так как данную величину также называют энтропией по Кульбаку). В качестве примеров можно привести критерий Акаике [25], байесовский информационный критерий [62], критерий Ло [55]. Первые два критерия позволяют учесть увеличение согласия с данными при увеличении числа параметров, однако они подразумевают использование некоторой штрафной функции за включение в модель новых параметров. О критерии Ло более подробно речь пойдет в главе 2, где будет дано его формальное описание. Здесь же отметим, что этот критерий не требует штрафных функций, однако его статистика обладает весьма сложным распределением при выполнении нулевой гипотезы1, а именно взвешенным ^-распределением. Причем определение параметров данного распределения представляет собой достаточно серьезную вычислительную задачу даже на небольших объемах выборки и малом числе компонент в смеси (например, уже при = 3).

Общим недостатком подобных критериев является то, что для корректности их применения требуется выполнение достаточно жестких условий регулярности, которые для реальных ситуаций могут не быть справедливыми. Так, например, для смесей нормальных законов нарушается предположение о конечности функции правдоподобия, поэтому формальное применение данных критериев может приводить к ошибочным результатам.

Чтобы минимизировать возможные ошибки, возникающие из-за необходимости задавать в явном виде точное число компонент алгоритмам ЕМ-типа, в диссертации предложено использовать статистический подход для определения числа компонент по выборке. Исходя из особенностей применения предлагаемых алгоритмов, были выделены две практически значимые модели смесей вероятностных распределений, в которых необходимо правильно оценивать число компонент (названные моделью добавления компоненты и моделью расщепления компоненты). При этом ключевым моментом является переход от проверки гипотез о значении натуральнозначного дискретного параметра (равного числу компонент смеси) к проверке гипотез о значении непрерывного параметра (соответствующего весу компоненты, значимость которой проверяется) . При таком переходе естественно возникает задача проверю: простой гипотезы против сложной альтернативы. Для построения критерия и исследования его свойств при решении данной задачи используется асимптотический подход.

В рамках такого подхода, также называемого подходом Питмэна [60], размер и мощность критерия одновременно отделены от нуля, при этом важную роль играют асимптотический дефект [48] и потеря мощности. Особенностью асимптотического подхода является тот факт, что распре

1Предположим, что есть две плотности: /со-компонентаая и /сх-компонентная, кх > кц. Рассматриваются две возможности. Первая: обе плотности одинаково хорошо приближают в смысле расстояния Кульбака-Лейблера исходную выборку. Значит, можно выбрать смесь с меньшим числом компонент. Именно данный вариант (к — ¿о) и будем считать нулевой гипотезой. Вторая: к\-компонентная плотность лучше (точнее). Каждая из альтернатив отдает предпочтение одной из плотностей. Поэтому в качестве альтернативы в нашей исходной задаче можно рассмотреть тот случай, что /^-компонентная смесь лучше приближает смесь деление статистики и мощность критерия зависят от некоторого неизвестного параметра 0 < Ь ^ С, С > 0. При этом величина, определяющая потерю мощности, позволяет сравнить мощность некоторого критерия, не зависящего от неизвестного параметра с мощностью наиболее мощного критерия, зависящего от Таким образом, можно гарантировать, что полученный критерий будет асимптотически наиболее мощным и в тоже время возможно его корректное применение на практике. Величина же дефекта критерия говорит о том, сколько дополнительных наблюдений необходимо для того, чтобы мощность данного критерия совпала с мощностью наиболее мощного критерия. Исследованиям данной проблематики посвящены работы Дж. Л. Ходжеса и Э.Л. Лемана [46, 47], Г.Е. Ноэзера [58], В. Элберса [26, 27]. Важную роль в методологии доказательств результатов в данной области сыграли работы Л. ЛеКама [51, 52, 53, 54], которые позволили получать выражения для потери мощности без построения асимптотических разложений (см. работы Д.М. Чибисова [35, 36, 37, 38]). Наконец, в книге В.Е. Бе-нинга [29] были получены выражения для асимптотического дефекта и потери мощности, использование которых позволило в данной работе в явном виде получить потерю мощности и асимптотический дефект предложенных асимптотически наиболее мощных критериев.

Основные результаты диссертации являются новыми и состоят в следующем:

1. Получено обоснование возможности использования медианных модификаций алгоритмов ЕМ-типа для смесей нормальных законов.

2. Установлены свойства получаемой на итерационных шагах ЭЕМ-алгоритма последовательности оценок параметров идентифицируемых сдвиг-масштабных смесей вероятностных распределений с произвольным конечным числом компонент. Доказано, что последовательность ЭЕМ-оценок параметров смеси представляет собой конечную однородную апериодическую эргодическую марковскую цепь. Данный результат означает корректность использования стохастических алгоритмов ЕМ-типа для получения оценок компонент смеси: доказан факт сходимости распределения итерационной последовательности оценок к стационарному распределению, а также установлена независимость от начального приближения. В частности, эти результаты справедливы для конечных сдвиг-масштабных смесей нормальных законов.

3. Доказаны теоремы устойчивости конечных масштабных смесей нормальных законов к возмущениям параметров в терминах расстояния Леви. Получены двусторонние оценки для расстояний Ле-ви между смесями через расстояние Леви между смешивающими распределениями в рамках моделей добавления и расщепления компоненты. Данный результат может быть использован для обоснования эквивалентности задач проверки гипотез о значении дискретного и непрерывного параметра для статистического определения числа компонент произвольных конечных смесей вероятностных распределений, а также для доказательства корректности использования различных моделей типа конечных смесей нормальных законов, в частности, сеточных методов разделения смеси.

4. Построены асимптотически наиболее мощные критерии проверки гипотез о числе компонент конечной смеси вероятностных распределений и исследованы их асимптотические свойства, в частности, установлена асимптотическая нормальность критериев, выписаны выражения для потери мощности и асимптотического дефекта. Найдены условия их применимости к анализу практически значимых моделей вида конечных сдвиг-масштабных смесей нормальных и гамма-распределений, а также для случая смесей равномерных распределений. Продемонстрирована высокая вычислительная эффективность полученных критериев по сравнению с известными.

5. Рассмотренные в диссертации методы и статистические процедуры эффективно применены к исследованию стохастической структуры конкретных сложных хаотических систем, в частности, плазменной турбулентности.

Результаты диссертации имеют теоретический характер. Однако они направлены на повышение эффективности практического применения статистических процедур анализа смешанных вероятностных моделей. Все описанные методы имеют строгие математические обоснования и в тоже время успешно применены к анализу статистических или экспериментальных данных в различных областях, таких как финансовые рынки или физика турбулентной плазмы.

Результаты работы неоднократно докладывались и обсуждались на научном семинаре кафедры математической статистики факультета ВМК МГУ «Теория риска и смежные вопросы» (2008 — 2011 гг.), Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов» (2008, 2009 гг.), научной конференции «Тихоновские чтения» (2010 г.), международной научной конференции «Интеллектуальная обработка информации» (2010 г.), XII Всероссийском Симпозиуме по прикладной и промышленной математике (2011 г.), международной научной конференции «Моделирование нелинейных процессов и систем» (2011 г.).

Методы, описанные в диссертации, реализованы программно на различных языках программирования, получены свидетельства о государственной регистрации программ для ЭВМ №№ 2009610873, 2010611909, 2010611910, 2010611911, 2011610584, 2011610587, 20116119047, 20116119048. Результаты диссертации были использованы при проведении анализа экспериментальных исследований стохастических плазменных процессов в стеллараторе Л-2М и линейной установке ТАУ-1 в Институте общей физики им. А. М. Прохорова Российской Академии Наук.

Материалы диссертации опубликованы в 14 печатных работах ([74] - [87]), из них 5 статей опубликованы в журналах, включенных в перечень ВАК ([75], [76], [81], [82], [86]).

Кратко остановимся на содержании работы.

Первая глава посвящена исследованиям свойств различных итерационных методов оценивания параметров смесей вероятностных распределений.

В §1.1 дано описание медианной модификации ЕМ-алгоритма, а также обосновывается целесообразность использования робастных оценок медианного типа на Е-этапе ЕМ-алгоритма в задаче разделения конечных смесей нормальных законов. Показано, что медианные оценки естественным образом возникают на Е-этапе ЕМ-алгоритма в задаче разделения конечных смесей двойных экспоненциальных распределений (распределений Лапласа) с теми же самыми значениями параметров сдвига и масштаба компонент, что и у исходной смеси нормальных законов. В свою очередь, двойное экспоненциальное распределение можно представить в виде масштабной смеси нормальных законов при стандартном показательном смешивающем распределении. Таким образом, медианная модификация ЕМ-алгоритма по сути сводится к замене исходной задачи разделения конечных смесей нормальных законов задачей разделения конечных смесей распределений Лапласа с теми же самыми значениями параметров сдвига и масштаба компонент. При указанной замене исходные данные представляются в виде «зашумленной» выборки, причем «зашумление» производится с помощью умножения параметров масштаба компонент на случайную величину со стандартным показательным распределением, а подлежащие оцениванию параметры положения (сдвига) компонент остаются неизменными. Показано, что оценки, получаемые с помощью медианной версии ЕМ-алгоритма в задаче разделения конечных смесей нормальных законов, приближают оцениваемые параметры постольку, поскольку соответствующая последовательность оценок, получаемая ЕМ-алгоритмом, сходится к оценкам'максимального правдоподобия аналогичных параметров в модели вида конечных смесей распределения Лапласа.

В: §1.2 дано общее описание вЕМ-алгоритма, а также приводятся подробные формулы для важного частного случая конечных сдвиг-масштабных смесей нормальных, распределений (в частности, рассматривается и медианная версия ЭЕМ-алгоритма для смесей нормальных распределений). Описаны свойства последовательности БЕМ-оценок, которые строятся алгоритмом при решении задачи разделения конечных смесей вероятностных распределений с произвольным числом компонент. Основной результат формулируется в виде следующей теоремы.

ТЕОРЕМА 1.1. Последовательность оценок получаемая

БЕМ-алгоритмом в задаче разделения идентифицируемых смесей с произвольным конечным числом компонент, представляет собой конечную однородную апериодическую эргодическую марковскую цепь.

Данная теорема играет ключевую роль в обосновании корректности использования стохастических ЕМ-алгоритмов для оценивания параметров смесей. Доказательство заключается в последовательной проверке свойств марковской цепи, которой является последовательность ЭЕМ-оценок.

Как уже было отмечено, в работах, посвященных исследованию свойств БЕМ-алгоритма, предполагается выполнение ряда дополнительных условий. Так, в первых работах, посвященных данной тематике, устанавливались свойства лишь для двухкомпонентной смеси (при этом отмечалась невозможность обобщения приведенных доказательств на произвольное число компонент). Затем была доказана сходимость БЕМ-алгоритма для произвольного числа компонент, установлены асимптотические свойства последовательности ЗЕМ-оценок (асимптотическая нормальность) при выполнении достаточно сложных для проверки на практике условий. Более того, некоторые условия для реальных данных вообще могут не выполняться (например, предположение строгой положительности весов компонент смеси может нарушаться в силу того, что этапы ЯЕМ-алгоритма непосредственно не запрещают весам обращаться в нуль). Теорема 1.1 устанавливает свойства оценок ЭЕМ-алгоритма для произвольного числа компонент без введения дополнительных предположений о параметрах метода.

Вторая глава посвящена построению наиболее мощных критериев проверки гипотез о числе компонент смеси. Для формализации задачи предложены две модели: добавления компоненты и расщепления компоненты. Рассматриваются сдвиг-масштабные смеси произвольных абсолютно непрерывных распределений.

С целью формирования гипотез в задаче статистической проверки гипотез о числе компонент смеси и количественной оценки того, насколько может измениться модель при добавлении или изъятии компоненты, в §2.1 рассматривается задача оценки устойчивости конечных масштабных смесей нормальных законов относительно смешивающего распределения в рамках упомянутых выше двух специальных моделей, называемых моделями добавления и расщепления компоненты. Основные результаты данного раздела отражены в теоремах 2.1 — 2.4.

Предположим, что каждое из независимых наблюдений имеет распределение, представимое в виде конечной масштабной смеси нормальных законов вида к к

Х^Рг = 1, Рг ^ 0, (Тг > О, I = IД. (2) г=1 г=1

Очевидно, что функция распределения (х) из соотношения (2) может быть представлена в виде в(х) =ЕФ(Е/ж), где и - дискретная случайная величина, принимающая значения сг^ с вероятностями р{, то есть

Ц . ■ ■■ СГк

Р\ Р2 ■•■ Рк

Обозначим через (2) равномерное расстояние между функциями распределения Р(х) и С(х), а через Ь(Р, С) - соответствующее расстояние Леви. В модели добавления компоненты предполагается, что каждое из независимых наблюдений имеет распределение, представимое в виде к

Gp(x) = (1 - р) + рф(жсг), (3) 1 где все величины сг^, р^, г = 1 считаем известными, а <т > 0 и

О ^ р ^ 1 считаем параметрами модели. Без ограничения общности для определенности будем считать, что выполнены соотношения

О < а ^ <Ti ^ о"2 ^ . ^ сгк

Для данной модели Gp(x) — ЕФ(Upx), причем дискретная случайная величина Up имеет следующий вид

G <Т\ а2 . СГк

Р' Р pi(l-p) Р2О--Р) ••■ pjb(l-p). Без ограничения общности считаем, что р ^ ст\ — а, тогда

L(U, Up) = p.

При выполнении этих условий справедлива следующая теорема. Теорема 2.1. В рамках модели добавления компоненты (3) справедливы неравенства

L(G, Gp) < L(U, Up) ^ cl\(ik)Ll'2{G, Gp), где коэффициент cj1' (<7fc) зависит только от известной величины о^ и имеет вид

Рассмотрим следующее обобщение модели (3). Пусть имеется еще одна смесь данного типа, отличающаяся от (3) только весом, то есть (при этом 0 ^ q ^ 1) к

Gq{x) = (1 - q) + q$(xa). i=1

Для Gq(x) дискретная случайная величина Uq имеет вид

У a ai а2 • • • о~к

4 ' Q Pi(l-g) Рг(1-д) ••• Pfc(l-g).

Предположим, что — g| ^ crj — сг. Тогда расстояние Леви L(UP, Uq) принимает вид

L{Up,Uq) = \p-q\.

При выполнении указанных условий справедлива следующая теорема.

ТЕОРЕМА 2.2. В рамках модели добавления компоненты вида (3) справедливы неравенства

L(GP, G g) < L(UP1 Uq) < Gy, где коэффициент зависит только от известной величины (Jk и определяется формулой (4).

В модели расщепления компоненты предполагается, что каждое из независимых наблюдений имеет распределение, представимое в виде к-1

Gp(x) = ^РгФ{хсГг) + {рк - р)Ф{хак) + рФ(ггсг), (5) г=1 где все величины tr^, г = считаем известными, а сг > 0 и

О ^ р ^ £>/с считаем параметрами модели. Без ограничения общности для определенности будем считать, что выполнены соотношения

О < <J\ ^ СГ ^ (7k

Отметим, что условие отделенности параметров от нуля в моделях добавления и расщепления компоненты также является достаточно общим и означает, что рассматриваются невырожденные нормальные законы с конечными дисперсиями.

Для данной модели дискретная случайная величина Up имеет вид у <7i СГ2 . . . G Gk

Р ' Pl Р2 • • • Р Рк-Р-Для модели расщепления компоненты расстояние Леви имеет вид

L(U, Up) = min{<jfc — а, р}. 21

Справедлива следующая теорема.

ТЕОРЕМА 2.3. В рамках модели расщепления компоненты (5) справедливы неравенства где коэффициенты j = 1,2, не зависят от величин р и а и имеют вид \ 1/2 сРы = (1 + ^) , (6)

7)

Рассмотрим следующее обобщение модели (5). Пусть имеется еще одна смесь данного типа, отличающаяся от (5) только весом, то есть (при этом 0 ^ q ^ Pk) к-1 я(х) = ^РгФ(ж^) + (рк - д)Ф(хак) + дф(жбт). г=1

Для Gq(x) дискретная случайная величина С/^ имеет вид

C7l СГ2 • • • <Т СТА; ' Pi • • • g Рк ~ Ч-В рассматриваемом случае расстояние Леви имеет вид

L(UP, Uq) = min{<jfc - сг, \р

Справедлива следующая теорема.

Теорема 2.4. 5 рамках модели расщепления компоненты вида (5) справедливы неравенства

C^](<juak)L(Gp:Gq) ^ L(UP, Uq) < cf\cjk)l}l\Gp,Gq), где коэффициенты j = 1, 2, не зависят от величин р и а и определяются формулами (6) и (7).

Доказанные теоремы позволяют переформулировать задачу проверки гипотез о значении дискретного (натуральнозначного) параметра, равного числу компонент смеси, в терминах задачи проверки гипотез о значении непрерывного параметра, принимающего значения из отрезка [0,1]. Переход от дискретного случаю к непрерывному играет важную роль при построении асимптотически оптимальных критериев проверки гипотез о числе компонент.

В §2.2 строится асимптотически наиболее мощный критерий в рамках модели добавления компоненты и исследуются его свойства.

Пусть к - некоторое известное натуральное число. Требуется проверить гипотезу

Н0 : К = к против альтернативы

Hl:K = k + 1, где через К обозначено «истинное» число компонент в смеси. Для удобства асимптотического анализа сведем задачу проверки гипотез о значении дискретного параметра К к задаче проверки гипотез о значении непрерывного параметра: рассматривается простая гипотеза вида о : 6> = 0 против последовательности сложных альтернатив вида : в = -4= > 0, Vn где t - неизвестный параметр.

Модель добавления компоненты в общем случае имеет вид (рг- ^ 0, ipi(x) - плотности, г = 1,., /с, в G [0,1]) к р(х,в) = (1-в) + 0i/>k+i(x) = (1 - 0) • f(x) + в ■ д(х), (8) г=1 к

Eft = г=1

Первый из основных результатов данной главы сформулирован в следующей теореме. Здесь и далее иа обозначает (1 —а)-квантиль стандартного нормального закона.

ТЕОРЕМА 2.5. Пусть для s = 2,3,4 моментные характеристики Ф5 = Ео (g(Xi)/f(Xi))s для функций f(x) и д{х) из соотношения (8) конечны, а соответствующая смесь идентифицируема. Тогда для модели добавления компоненты критерий проверки гипотезы о том, что смесь является к-компонентной, против альтернативы, что смесь является (к + 1)-компонентной, основанный на статистике

Тх = „-1/2 у- (9Ш Л обладает следующими свойствами:

1. При справедливости нулевой гипотезы статистика Т\ имеет нормальное распределение с параметрами 0 и Ф2 — 1 при п —У оо:

Тх | Но) N(0, Ф2 — 1).

2. При справедливости альтернативы статистика имеет нормальное распределение с параметрами £ (Ф2 — 1) и Ф2 — 1 Щи п —> оо:

-► #(*(Ф2-1), Ф2-1).

3. Данный критерий является асимптотически наиболее мощным критерием для заданного уровня а £ (0,1) с предельной мощностью вида = Ф

4. Потеря мощности этого критерия равна

Ш) = Нш п№) ~Ш) = п-> оо 8\/Ф2 — 1

X (ф4 + 2Ф3 - ф2 - ф2 - - 1).

5. Асимптотический дефект этого критерия равен

2 г(г) сI = л/7 ■ (р(Ьу/1 — иа)

Фз - I)2

Здесь (Зп{€) - мощность критерия, основанного на статистике Т\. Отметим, что условия теоремы обеспечивают выполнение условий регулярности, что устанавливает следующая лемма.

JlEMMA 2.1. Пусть фишеровская информация I для плотности р(х, в) для модели добавления компоненты конечна. Тогда выполнены условия регулярности.

Здесь же получены достаточные условия конечности моментных характеристик Ф5, s = 2,3,4, которые для случая конечных смесей нормальных и гамма-распределений имеют вид

2 4 2 Сыл < ~ ■ max а А + 3 i<j<k 3 для смесей нормальных распределений и k+i ^ max 1 \ min (ЗА + 1), ~ min (/% + 1) l^z^fc 2 1<г</с ak+i > - min ocj. 4l<j<k J для смесей гамма-распределений.

Для корректного рассмотрения примеров доказывается теорема об условиях идентифицируемости смесей равномерных распределений.

Теорема 2.6. Пусть А{М) = U [аг,Ьг-], где М - некоторое подъем множество номеров. Обозначим семейство конечных смесей равномерных распределений через к к F(x) = = F* е $ f ' г=1 г=1 J где % = {F(x,a{,bi), х £ М, —оо < щ < bi < сю, г 6 N} - некоторое множество функций распределения равномерных законов (возможно, конечное). Семейство Н идентифицируемо тогда и только тогда, когда

А(М1)\А(М2) Ф 0, для всех возможных различных М\ и М^, Mi С N.

В §2.3 рассматривается асимптотически наиболее мощный критерий для модели расщепления компоненты, которая в общем случае формализуется следующим образом (ipi(x), ф{х) - плотности, рг ^ 0, г = 1,., к, к р(х, в) = Y,pMx) + 0 • WW - Мх)) = /(®) + 0 ■ (9) г=1

Х> г=1

Второй основной результат данной главы сформулирован в следующей теореме.

ТЕОРЕМА 2.7. Пусть выполнены достаточные условия конечности моментпых характеристик Ф3 = Ео (д(Х1)//(Хх))3, в = 2,3,4; для функций /(х) и д(х) из соотношения (9); а соответствующая смесь идентифицируема. Тогда для модели расщепления компоненты критерий проверки гипотезы о том, что смесь является к-компонентной, против альтернативы, что смесь является (к + 1)-компонентной, основанный на статистике обладает следующими свойствами:

1. При справедливости нулевой гипотезы эта статистика имеет нормальное распределение с параметрами 0 и при п оо:

2. При справедливости альтернативы эта статистика имеет нормальное распределение с параметрами и при п оо:

3. Данный критерий является асимптотически наиболее мош,ным критерием для заданного уровня а £ (0,1) с предельной мощностью вида

Т2 | #о)->АГ(0,Ф2). = Ф {1у/¥г-иа).

4. Потеря мощности для этого критерия составляет

5. Асимптотический дефект для этого критерия равен

В данной модели выполнение условий регулярности устанавливается следующей леммой.

ЛЕММА 2.2 Пусть при к = 1 в равенстве (9) конечен интеграл оо

•■'.

-оо ф2{х)'ф1 г(х) d:г, а при k ^ 2 конечен интеграл

7 (k~l V1

J 92{Х) ^J^P.V'iWj dx

Тогда выполнены условия регулярности.

В этом параграфе также получены достаточные условия конечности моментных характеристик s = 2, 3,4, которые для случая конечных смесей нормальных и гамма-распределений имеют вид а2 < -a2, k ^ 1, о2 <2 шах сг2, а2 < 2 max erf, к ^ 2.

3 l^j^k-l J l^j-^k-l J для смесей нормальных распределений и

3 > max |i(3/3i + 1), |(/?i + 1)|, а > |аь к = 1,

3 ^ max + 1), + 1), i ^ (A + 1) j ,

1 . 3 \ a; > max < - mm a^, -m. > ,

2 J,4 ky min l (A + 1), ak > \ min aj: к ^ 2. для смесей гамма-распределений.

В §2.4 рассматривается эффективность применения полученных асимптотически наиболее мощных критериев на практике. Проверяется правильность различения малых весов (вплоть до значений 0.01) на различных объемах выборки. Показано, что число успехов приближается к 100%, при этом число ошибок заведомо не превосходит уровень значимости критерия для каждого из случаев. Отмечены преимущества использования данных критериев по сравнению с критерием Ло.

Третья глава посвящена применению введенных в главах 1 и 2 алгоритмов и техник повышения их эффективности. Отмечены новые для ряда практических областей результаты, которые были получены только с использованием полученных в диссертации методов.

В §3.1 описывается общая схема анализа хаотических процессов с применением метода скользящего разделения смесей (СРС-метод).

В §3.2 рассматривается анализ реальных данных с финансовых рынков с использованием СРС-метода. Найдены и проинтерпретированы портреты волатильностей для различных финансовых индексов. Наибольшее внимание уделяется применению стохастических модификаций алгоритмов ЕМ-типа.

В §3.3 рассматривается анализ хаотических процессов в турбулентной плазме с использованием СРС-метода для различных алгоритмов ЕМ-типа. С помощью подобного анализа впервые была определена структура хаотических процессов, протекающих в турбулентной плазме - было найдено их число (3 — 5), определены параметры.

В §3.4 рассматривается альтернативный СРС-методу подход в анализе хаотических процессов в турбулентной плазме, базирующейся на рассмотрении «производных» величин от выборки (гистограммы, спектры), который можно рассматривать как одну из разновидностей бутстреп-процедур. Данный подход позволяет отследить, прежде всего, особенности функционирования системы на протяжении некоторого периода времени, за которое была построена анализируемая выборка. При этом объем выборки заранее предполагается весьма значительным (порядка нескольких сотен тысяч наблюдений), а истинная структура системы неизвестной. Проведенный анализ позволил получить взаимосвязь между результатами для гистограмм и для спектров, что заранее не предсказывалось теорией. Однако высокая степень согласия полученных результатов с экспериментальными данными позволяет предполагать, что данная связь является неслучайной, а потому представляет значительный интерес для исследований.

Диссертация состоит из введения, трех глав, разбитых на 10 параграфов, и списка литературы, содержащего 87 наименований. Общий объем работы составляет 175 страниц.

 
Заключение диссертации по теме "Теория вероятностей и математическая статистика"

3.4.4 Выводы

При сравнении результатов анализа бутстреп-процедурой для спектра и для гистограммы для одинаковых данных было обнаружено, что число и структура компонент разложения для каждой из ситуаций совпадают. Более того, характеристики компонент и для спектра, и для гистограммы описывают число и поведение процессов, наблюдаемых в плазме во время экспериментов. Эта связь может быть неслучайной и представляет определенные возможности для уточнения моделей функционирования хаотических процессов в турбулентной плазме.

Отметим определенный универсализм изложенного подхода: для описанного метода совершенно не важно, какие именно данные анализировать: различные спектры (Фурье, Велча или другие) или гистограммы - общий подход остается неизменным. Более того, область применения метода не ограничивается только турбулентной плазмой. Он может быть применен в любой области, которая эффективно описывается моделью смеси нормальных законов (например, для биржевых котировок) или любой другой смесью с внесением незначительных изменений в общий принцип функционирования метода (например, для описания информационных потоков используются смеси гамма-распределений; общий алгоритм останется неизменным, лишь в качестве метода для нахождения оценок параметров нужно применить ЕМ-алгоритм для гамма-распределений).

Несмотря на проблемы, характерные для любого алгоритма численной обработки данных (выбор точности приближения, выбор модели), скорость работы метода позволяет провести тестирование для нескольких значений и выбрать оптимальные настройки. Интерпретация полученных результатов с точки зрения конкретных предметных областей представляет существенный практический интерес и является важной задачей для исследований.

Г' 1 Гистограмма ""Смесь (3 компоненты)

-Компонента 1

Компонента 2 Компонента 3

15 -0.1 -0.05

0.05

0.15

Рис. 3.26. Разложение гистограммы на смесь гауссовских компонент. Сплошная жирная линия является взвешенной суммой полученных компонент.

-0.4

X 10

Спектр

Сглаженный спектр Смесь (3 компоненты) Компонента 1 Компонента 2 Компонента 3

Рис. 3.27. Разложение спектра на смесь гауссовских компонент. Сплошная жирная линия является взвешенной суммой полученных компонент.

 
Список источников диссертации и автореферата по математике, кандидата физико-математических наук, Горшенин, Андрей Константинович, Москва

1. С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. Прикладная статистика. Основы моделирования и первичная обработка данных. М: Финансы и статистика, 1983.

2. Г. М. Батанов, В. Е. Бенинг, В. Ю. Королев, А. Е. Петров, К. А. Сарксян, H.H. Скворцова, Н. К. Харчев, С. В. Щепетов. Турбулентный перенос в плазме как диффузионный процесс со случайным временем // Письма в ЖЭТФ, 2001. Т. 73(4). С. 143-147.

3. A.A. Боровков. Теория вероятностей. Изд. 4-е М.: Едиториал УРСС, 2003.

4. Ф. П. Васильев. Методы оптимизации. М: Факториал Пресс, 2002.

5. Г.М. Батанов, Л.М. Колик, А.Е. Петров, К. А. Сарксян, Н. Н. Скворцова. Возбуждение нижнегибридной волны на биении двух электронно-циклотронных волн // Физика плазмы, 1996. Т. 22(7). С. 643-647.

6. В. М. Золотарев. Современная теория суммирования независимых случайных величин. М.: Наука, 1986. 417 с.

7. А. Н. Колмогоров, С. В. Фомин. Элементы теории функций и функционального анализа (4-е изд.). М.: Наука, 1976. - 543 с.

8. В. Ю. Королев. Вероятностно-статистический анализ хаотических процессов с помощью смешанных гауссовских моделей. Декомпозиция волатильности финансовых индексов и турбулентной плазмы.- М.: ИПИ РАН, 2007. 363 с.

9. В. Ю. Королев. Вероятностно-статистические методы декомпозиции волатильности хаотических процессов. М.: изд-во Моск. ун-та, 2011. - 512 с.

10. В. Ю. Королев. EM-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений. Теоретический обзор. М: ИПИ РАН, Москва, 2007.

11. В.Ю. Королев. Статистическая декомпозиция волатильности // Статистические методы оценивания и проверки гипотез, 2007. С. 170-206.

12. В. Ю. Королев. Теория вероятностей и математическая статистика.- М: Проспект, 2006.

13. А. Н. Колмогоров. Метод медианы в теории ошибок // Матем. сборник, 1931. Т. 38. № 3/4. С. 47-50.

14. А. Н. Колмогоров. Теория вероятностей и математическая статистика. Сборник статей. М: Наука, 1986.

15. А. С. Кронрод. Узлы и веса квадратурных формул. М.: Наука, 1964.

16. В. И. Петвиашвили, О. А. Похотелов. Уединенные волны в плазме и атмосфере. М.: Энергоатомиздат, 1989. - 200 с.

17. А. Е. Петров, К. А. Сарксян, H.H. Скворцова, Н. К. Харчев. Сравнительные характеристики ионно-звуковых и дрейфовых турбулентных потоков в низкотемпературной плазме // XXXII Звенигородская конференция по физике плазмы и УТС, 2005, Звенигород. С. 106.

18. А. В. Тимофеев. Резонансные явления в колебаниях плазмы. М.: Физматлит, 2000. - 224 с.

19. В. Феллер. Введение в теорию вероятностей и её приложения, т. 2). М.: Либроком, 2010. 766 с!

20. П. Хьюбер. Робастность в статистике. М.: Мир, 1984. 304 с.

21. А. И. Цыплихин, В. Н. Сорокин. Сегментация речи на кардинальные элементы // Информационные процессы, 2006. Т. 6. № 3. С. 177-207.

22. Б. Эфрон. Нетрадиционные методы многомерного статистического анализа. М.: Финансы и статистика, 1988. - 264 с.

23. Н. Akaike. Information theory and an extension of the maximum likelihood principle.// In: B.N. Petrov and F. Csake (eds.) Second International Symposium on Information Theory. Budapest, 1973. P. 267-281.

24. W. Albers. Asymptotic Expansions and the Deficiency Concept in Statistics // Mathematisch Centrum, Amsterdam, 1974.

25. W. Albers Efficiency and deficiency considerations in the symmetry problem // Statist. Neerlandica, 1975. Vol. 29. P. 81-92.

26. G. M. Batanov, L. V. Kolik, D. V. Malakhov, et al. Amplification of Ion-Acoustic Turbulence Upon Electron-Cyclotron Heating of Plasma Bulletin of the Lebedev Physics Institute, 2009. Vol. 36. № 10. P. 305-309.

27. V. E. Bening. Asymptotic Theory Of Testing Statistical Hypothesis: Efficient Statistics, Optimality, Power Loss and Deficiency. Untrecht: VSP, 2000. - 277 p.

28. R. A. Boyles. On the convergence properties of the EM-algorithm // Journal of the Royal Statistical Society, 1983. Series B. Vol. 45. P. 47-50.

29. M. Broniatowski, G. Celeux and J. Diebolt. Reconnaissance de mélanges de densités par un algorithme d'apprentissage probabiliste // Data Analysis and Informatics, 1984. Vol. 3. P. 359-373.

30. G. Celeux, J. Diebolt. Asymptotic properties of a stochastic EM algorithm for estimating mixing proportions // Communications in statistics. Stochastic models 1993. Vol. 9. P. 599-613.

31. G. Celeux, D. Chauveau, J. Diebolt. On Stochastic Versions of the EM Algorithm // Rapports de Recherche-INRIA, 1995. Programme 5. P. 1-25.

32. G. Celeux, J. Diebolt. The EM and the SEM algorithms for mixtures: statistical and numerical aspects // Cahiers du Centre d'Etudes de Recherche Ope'rationnelle, 1990. Vol. 32. P. 135-151.

33. D. M. Chibisov. Asymptotic expansions in problems of testing hypotheses //I. Izv. Akad. Nauk Uzbek SSR, Ser. Fiz.-Mat. Nauk, 1982. Vol. 5. P. 18-26 (in Russian).

34. D. M. Chibisov. Asymptotic expansions in problems of testing hypotheses. II. Izv. Akad. Nauk Uzbek SSR, Ser.Fiz.-Mat. Nauk, 1982. Vol. 5. P. 23-30 (in Russian).

35. D.M. Chibisov. Asymptotic expansions and deficiencies of tests // In: Proc. Intern. Congr. Math.,Warszawa, 1983. Vol. 2. P. 1063-1079.

36. D. M. Chibisov. Calculation of the deficiency of asymptotically efficient tests // Theory Probab. Appl., 1985. Vol. 30. P. 289-310.

37. A. Dempster, N. Laird and D. Rubin. Maximum likelihood estimation from incompleted data // Journal of the Royal Statistical Society, 1977. Series B. Vol. 39(1). P. 1-38.

38. J. Diebolt, E. H. Ip. Stochastic EM: method and application // W. R. Gilks, S. Richardson, D.J. Spiegelhalter (Eds.) Markov Chain Monte Carlo in Practice. London: Chapman and Hall, 1996.

39. B. S. Event and D. J. Hand. Finite Mixture Distributions. London: Chapman and Hall, 1981.

40. J. Hajek Asymptotically most powerful rank- order tests // Ann. Math. Statist., 1962. Vol. 33. P. 1124-1147.

41. F. R Hampel. A general qualitative definition of robustness // Ann. Math. Statist., 1971. Vol. 42. № 6. P. 1887-1896.

42. H. Hartley. Maximum likelihood estimation from incomplete data // Biometrics, 1958. Vol. 14. P. 174-194.

43. S. Kullback and R. A. Leibler. On Information and Sufficiency // Annals of Mathematical Statistics, 1951. Vol. 22. P. 79-86.

44. J. L. Hodges, Jr., and E. L. Lehmann. The efficiency of some nonparametric competitors of the t-test // Ann. Math. Statist., 1956. Vol. 27. P. 324-335.

45. J. L. Hodges, Jr., and E. L. Lehmann. Comparison of the normal scores and Wilcoxon tests // In: Proc. 4th Berkeley Symp., 1960. Vol. 1. P. 307-317.

46. J. L. Hodges, Jr., andE. L. Lehmann. Deficiency // Ann. Math. Statist., 1970. Vol. 41. P. 783-801.

47. E. H. Ip. A Stochastic EM Estimator in the Presence of Missing Data. Theory and Practice. PhD Dissertation, Stanford University, 1994.

48. V. Yu. Korolev, N. N. Skvortsova. (Eds) Stochastic Models of Structural Plasma Turbulence. VSP, Leiden-Boston, Netherlands, 2006.

49. L. LeCam. An extension of Wald's theory of statistical decision functions // Ann. Math. Statist., 1955. Vol. 26. P. 69-81.

50. L. LeCam. On the asymptotic theory of estimation and testing hypotheses // In: Proc. 3rd Berkeley Symp. Math. Statist. Probab., 1956. Vol. 1. P. 129-156.

51. L. LeCam. Locally asymptotically normal families of distributions. Univ. of California Publ. in Statist., 1960. Vol. 3. P. 27-98.54.55

52. LeCam. Asymptotic Methods in Statistical Decision Theory. York: Springer, 1986.1. New

53. Y Lo, N. R. Mendell and D. B. Rubin. Testing the number of components in a normal mixture // Biometrika, 2001. Vol. 88. №. 3. P. 767-778.

54. Y. Lo. Likelihood ratio tests of the number of components in a normal mixture with unequal variances // Statistics and Probability Letters, 2005. Vol. 71. P. 225-235.

55. S. F. Nielsen. Stochastic EM algorithm: Estimation and asymptotic results // Bernoulli, 2000. № 6. P. 457-489.

56. G.E. Noether. On a theorem of Pitman // Ann. Math. Statist., 1955. Vol. 26. P. 64-68.

57. N. Ohno, V. P. Budaev, K. Furuta, H. Miyoshi, S. Takamura. Reconstruction of Velocity Distribution of Density Bursts by Wavelet Analysis in the Linear Divertor Simulator NAGDIS-II Contrib // Plas.Phys., 2004. Vol. 44. P. 222-227.

58. E. J. G. Pitman. Lecture notes on nonparametric statistical inference. Lectures given for the University of North Carolina, Institute of Statistics, 1948.

59. K. A. Sarksyan, N. N. Skvortsova, N. K. Kharchev and B. Ph. Milligen. Turbulent ion-acoustic structures in a current-carrying magnetized plasma // Plasma Phys. Rep., 1999. Vol. 25. 312 p.

60. G. Schwartz. Estimating the dimension of a model // The Annals of Statistics, 1978. Vol. 6. P. 461-464.

61. N. N. Skvortsova, D. K. Akulina, G. M. Batanov, et al. Effect of ECRH regime on characteristics of short-wave turbulence in plasma of the L-2M stellarator // Plasma Phys. and Control. Fusion, 2010. Vol. 52.

62. N. N. Skvortsova, V. Yu. Korolev, T. V. Maravina, et al. New possibilities for the mathematical modeling of turbulent transport processes in plasma // Plasma Physics Reports, 2005. Vol. 31. №. 1. P. 57-74.

63. H. Teicher. Identifiability of Finite Mixtures // The Annals of Mathematical Statistics, 1963. Vol. 34. № 4. P. 1265-1269.

64. Q. H. Vuong. Likelihood Ratio Tests for Model Selection and non-nested Hypotheses. Econometrica, 1989. Vol. 57. Iss. 2. P. 307-333.

65. G. C. G. Wei and M. A. Tanner. A Monte Carlo implementation of the EM algorithm and the poor man's data augmentation algorithms // Journal of the American Statistical Association, 1990. Vol. 85. P. 699-704.

66. G. F. Wu. On the convergence properties of the EM-algorithm // The Annals of Statistics, 1983. Vol. 11. № 1. P. 95-103.

67. S. J. Yakowitz, J. D. Spragins. On the Identifiability of Finite Mixtures // The Annals of Mathematical Statistics, 1968. Vol. 39. № 1. P. 209-214.

68. Г. M. Батанов, А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Анализ статистических характеристик турбулентных пульсаций с помощью алгоритмов ЕМ-типа // Материалы научной конференции «Тихоновские чтения». Москва, 2010. С. 62-63.

69. Г. М. Батанов, А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Эволюция вероятностных характеристик низкочастотной турбулентности плазмы в микроволновом поле // Математическое моделирование, 2011. Т. 23. № 5. С. 35-55.

70. В. Е. Бенине, А. К. Горшенин, В. Ю. Королев. Асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений // Информатика и ее применения, 2011. Т. 5. Вып. 3. С. 4-15.

71. А. К. Горшенин. Проверка гипотез о числе компонент смеси вероятностных распределений // Обозрение прикладной и промышленной математики, 2011. Т. 18. Вып. 2.

72. А. К. Горшенин. Проверка статистических гипотез в модели расщепления компоненты // Вестник Московского Университета, 2011. Серия 15, Вычислительная математика и кибернетика. Т. 4.

73. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Анализ тонкой стохастической структуры хаотических процессов с помощью ядерных оценок // Математическое моделирование, 2011. Т. 23. № 4. С. 83-89.

74. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Бутстреп-методология структурного исследования хаотических процессов // Материалы научной конференции «Тихоновские чтения». Москва, 2010. С. 63-64.

75. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Бутстреп-методология исследования структуры хаотических процессов // Материалы Второй международной научной конференции «Моделирование нелинейных процессов и систем». Москва, 2011.