Прогнозирование стохастических процессов с помощью сеточного метода разделения дисперсионно-сдвиговых смесей нормальных законов тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Корчагин, Александр Юрьевич
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2015
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
На правах рукописи
Корчагин Александр Юрьевич
Прогнозирование стохастических процессов с
помощью сеточного метода разделения дисперсионно-сдвиговых смесей нормальных
законов
Специальность 01.01.05 — :<Теория вероятностей и математическая статистика»
Автореферат 3 ИЮН 2015
диссертации на соискание учёной степени кандидата физико-математических наук
Москва — 2015
005569591
Работа выполнена на кафедре математической статистики факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова
Научный руководитель: доктор физико-математических наук, профессор
Королёв Виктор Юрьевич
Официальные оппоненты: Беляев Константин Павлович,
Ведущая организация: Казанский (Приволжский) федеральный
университет
Защита состоится 26 июня 2015 г. в 11:00 на заседании диссертационного совета Д 501.001.44 при Московском государственном университете имени М. В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет ВМК, аудитория 685. Желающие присутствовать на заседании диссертационного совета должны сообщить об этом за 2 дня до указанной даты по тел. (495) 939-30-10 (для оформления заявки на пропуск).
С диссертацией можно ознакомиться в библиотеке Фундаментальной библиотеке МГУ им. М. В. Ломоносова. С текстом автореферата можно ознакомиться на официальном сайте ВМК МГУ http://cs.msu.ru в разделе "Диссертации".
доктор физико-математических наук, Институт океанологии РАН им. П. П. Ширшова, ведущий научный сотрудник
Артюхов Сергей Владимирович,
кандидат физико-математических наук, ЗАО «Сбербанк-Технологии», ведущий аналитик
Ученый секретарь диссертационного совета д.ф.-м.н., доцент
О. В. Шестаков
Общая характеристика работы
Актуальность темы. Дисперсионно-сдвиговые смеси нормальных законов активно используются как математические модели статистических закономерностей, наблюдаемых во многих практических задачах. Изначально они вводились в семидесятых-восьмидесятых годах прошлого столетия в работах О.-Е. Барндорфф-Нильсеном и его коллегами как довольно естественные обобщения нормального закона в терминах случайно остановленных процессов броуновского движения с нетривиальным сносом. Наиболее популярными дисперсионно-сдвиговыми смесями нормальных законов являются обобщенные гиперболические распределения, определяемые пятью параметрами.
Эти смеси интересны тем, что хотя формально в них смешивание происходит по обоим параметрам нормальных законов - сдвигу и дисперсии, - но эти параметры связаны жесткой пропорциональной зависимостью, так что фактически смешивающее распределение одномерно. В частности, для обобщенных гиперболических законов смешивающим является обобщенное обратное гауссовское распределение.
В работах f1, 2] был предложен еще один класс специальных дисперсионно-сдвиговых смесей нормальных законов - класс обобщенных дисперсионных гамма-распределений (generalized variance-gamma distributions), который в отличие от обобщенных гиперболических законов содержит распределения, хвосты которых убывают экспоненциально-степенным (вейбулловским) образом. В некоторых случаях такие распределения оказываются более адекватными моделями реально наблюдаемых явлений, нежели обобщенные гиперболические законы [3].
Наличие большого числа настраиваемых параметров порождает уверенность в том, что обобщенные гиперболические или обобщенные дисперсионные гамма-распределения являются практически универсальными моделями.
Однако в прикладной теории вероятностей хорошо известен принцип, восходящий, по-видимому, к работе [4], согласно которому та или иная
1Королев В. Ю., Сокоюв Я. А, Скошенные распределения Стьюдента, дисперсионные гамма-распределения и их обобщения как асимптотические аппроксимащш // Информатика и ее применения,
2012. Т. е. Вып. 1. С. 2-10.
г3акс Л. М., Королев В. Ю. Обобщенные дисперсионные гаммо^распределения как предельные для случайных сумм // Информатика и ее применения, 2013. Т. 7. Вып. 1. С. 105-115.
3Qian Chen, Gerlach R. Я. The two-sided Weibull distribution and forecasting financial tail risk // International Journal of Fbrecasting, 2013. Vol. 29. No. 4. P. 527-540.
4Гнеденко В. В., Колмогоров А. Я. Продельные распределения для сумм независимых случайных
величин! М.-Л.: ГИТТЛ, 1949.
модель может считаться в достаточной мере обоснованной только тогда, когда она является асимптотической аппроксимацией, то есть когда существует довольно простая предельная схема, например, схема максимума или схема суммирования, и соответствующая предельная теорема, в которой рассматриваемая модель выступает в качестве предельного распределения. В книге [5] прослежена глубокая связь этого принципа с универсальным принципом неубывания энтропии в замкнутых системах. Как известно, нормальное распределение обладает максимальной (дифференциальной) энтропией среди всех распределений, носителем которых является вся числовая прямая, и имеющих конечный второй момент. Если бы моделируемая сложная система была информационно изолирована от окружающей среды, то в соответствии с принципом неубывания энтропии, который. в теории вероятностей проявляется в виде предельных теорем [5], наблюдаемые статистические распределения ее характеристик были бы неотличимы от нормального. Но поскольку любая математическая модель по своему определению не может учесть все факторы, влияющие на состояние или эволюцию моделируемой системы, то параметры этого нормального закона изменяются в зависимости от состояния среды, внешней по отношению к моделируемой системе. Другими словами, эти параметры являются случайными и изменяются под влиянием информационных потоков между системой и внешней средой. Таким образом, во многих ситуациях разумные модели статистических закономерностей изменения параметров сложных систем должны иметь вид смесей нормальных законов, частным случаем которых являются дисперсионно-сдвиговые смеси нормальных законов.
В классических задачах математической статистики объем выборки, доступной исследователю, традиционно считается детерминированным и в асимптотических постановках играет роль неограниченно возрастающего известного параметра. На практике часто возникают ситуации, когда размер выборки не является заранее определенным и может рассматриваться как случайный. Эти ситуации, как правило, связаны с тем, что статистические данные накапливаются в течение фиксированного времени. Это имеет место, в частности, в страховании, когда в течение разных отчетных периодов одинаковой длины (скажем, месяцев) происходит разное число страховых событий - страховых выплат и/или заключений страховых контрактов; в медицине, когда число пациентов с тем или иным заболеванием варьируется от года к году; в технике, когда при испытании на надежность (скажем, при определении наработки на отказ) разных партий приборов, число отказавших
5 Gnedenko В. V., Koroleo V. Yu. Random Summation: Limit Theorems and Applications. - Boca Raton: CRC Presa, 199S.
приборов в разных партиях будет разным; в информатике при разработке методов оценки «своевременности» завершения программ, включая методы решения задач предсказания времени безотказного функционирования или времени выполнения прикладных программ в случайных вычислительных средах. В таких ситуациях заранее не известное число наблюдений, которые будут доступны исследователю, разумно считать случайной величиной. Другими словами, в таких ситуациях объем выборки не является известным параметром, а сам становится наблюдением. В силу указанных обстоятельств вполне естественным становится изучение асимптотического поведения распределений статистик достаточно общего вида, основанных на выборках случайного объема, а также поиск удобной и адекватной модели, описывающей статистические закономерности поведения таких статистик.
На естественность такого подхода, в частности, обратил внимание Б. В. Гпеденко в работе [б], в которой рассматривались асимптотические свойства распределений выборочных квантилей, построенных по выборкам случайного объема, и было продемонстрировано, что при замене неслучайного объема выборки случайной величиной асимптотические свойства статистик могут радикально измениться. Вместо ожидаемого в соответствии с классической теорией нормального закона, могут возникать распределения с произвольно тяжелыми хвостами. Если объем выборки является геометрически распределенной случайной величиной, то вместо ожидаемого в соответствии с классической теорией нормального закона, в качестве асимптотического распределения выборочной медианы возникает распределение Стьюдента с двумя степенями свободы, хвосты которого столь тяжелы, что у него отсутствуют моменты порядков, больших второго.
Литература о статистиках, построенных по выборкам случайного объема, обширна. Их свойства изучены достаточно полно. Однако условия сходимости распределений таких статистик к дисперсионно-сдвиговым смесям нормальных законов были найдены лишь недавно [7, 2]. В работе [8] приведены критерий сходимости распределений статистик, построенных по выборкам случайного объема, к многомерным обобщенным гиперболическим законам. Как показано в этой статье, указанная сходимость имеет место тогда и только тогда, когда случайная
6 Гнгденко В. В. Об оценке неизвестных параметров распределения при случайном числе независимых наблнэдепий // Труды Тбилисского Математического института, 1989. Т. 92. С. 146-150.
1Корома В. Ю. Обобщенные гиперболические распределения как предельные для случайных сумм // Теория вероятностей и ее применения, 2013. Т. 58. Вып. 1. С. 117—132.
*Korokv V. Уч., Zeifinan А. /. On convergence of the distributions of statistics constructed from samples with random sizes to normal variance-mean mixtures // Journal of Statist. Planning and Inference, to appear. Available at: arXiv:1410.1518vl, 2014.
интенсивность потока информативных событий, в результате которых накапливаются наблюдения, формирующие выборку, имеет асимптотически обобщенное обратное гауссовское распределение. В некоторых случаях обобщенные гаммаграспределения с экспоненциально-степенными хвостами лучше описывают статистические закономерности поведения наблюдаемых величин. Вместе с тем, как показано в работе [9],асимптотическое поведение хвостов смесей нормальных законов в определенном смысле совпадает с аналогичным поведением хвостов смешивающих законов. Следовательно, аналогичная асимптотика должна быть присуща хвостам распределений интенсивностей потоков информативных событий. Действительно, как оказалось, обобщенные гаммаграспределения заметно лучше согласуются с эмпирическими распределениями числа событий в книгах заявок в высокочастотных системах электронной торговли на финансовых рынках (Р-значения при проверке согласия с помощью критерия хи-квадрат примерно равны 0.8), нежели обобщенные обратные гауссовские распределения (аналогичные Р-значения примерно равны 0.2). Поэтому поиск критериев сходимости к многомерным дисперсионным гамма-распределениям представляет собой весьма перспективную задачу, решение которой позволяет получить дополнительную информацию о структуре моделируемой системы или моделируемого процесса.
Неотъемлемой составной частью задачи практического математического моделирования стохастических процессов или явлений является задача определения параметров используемых математических моделей. Если для описания стохастических процессов или явлений используются смешанные модели, в частности, упоминавшиеся выше дисперсионно-сдвиговые смеси нормальных законов, то задача определения параметров сводится к статистическому разделению смесей статистическому оцениванию параметров смесей вероятностных распределений. Такая задача, в частности, является одной из самых часто встречающихся практических задач моделирования и исследования волатильности. Она в деталях разобрана, например, в книге [10], где можно найти дальнейшие ссылки на многие работы, посвященные данной тематике.
Для решения задачи разделения смесей вероятностных распределений традиционно используются итерационные процедуры типа ЕМ-алгоритма. К сожалению, классический ЕМ-алгоритм обладает рядом серьезных
9Антонов С. Н., Кокшаров С. Н. Об асимптотическом поведении хвостов масштабных смесей нормальных распределений // Статистические методы оценивания и проверки гипотез. - Пермь: Изд-во Пермского университета, 2006. С. 90-105.
10 Королев В. Ю. Вероятностно-статистические методы декомпозиции волатильности хаотических процессов. - М.: Изд-во Московского университета, 2011.
6
недостатков при его применении к смесям нормальных законов. В частности, он демонстрирует крайнюю неустойчивость к исходным данным и начальным приближениям. Для преодоления этих недостатков предложено много модификаций ЕМ-алгоритма, см., например, [10]. В указанной книге предложен и исследован принципиально новый «сеточный» метод приближенного решения задачи разделения смесей. В работе ["] подробно исследованы вопросы сходимости сеточных методов разделения смесей.
В соответствии с подходом к статистическому анализу хаотических стохастических процессов, в частности к решению задачи декомпозиции волатильности таких процессов, развитом в книге [10], в общем случае на практике приходится решать задачу разделения конечных смесей нормальных законов с произвольно большим числом неизвестных параметров (параметров компонент и их весов). И хотя в большинстве приложений возникают смеси не более чем с пятью-семью компонентами, даже при использовании таких смесей, скажем, в задачах анализа и прогнозирования финансовых рисков приходится моделировать траекторию движения точки в пространствах, размерность которых соответственно лежит в пределах от 14 (для пятикомпонептных смесей) до 20 (для семикомпонентных смесей), что существенно увеличивает вычислительные и временные ресурсы, необходимые для практического решения указанных задач. Поскольку во многих ситуациях, например, при прогнозировании на основе высокочастотных данных, необходимо работать в режиме, близком к реальному времени, для создания эффективных методов на основе смешанных моделей на первый план выходит проблема снижения размерности решаемой задачи.
Одним из возможных подходов к снижению размерности является априорное сужение классов допустимых смесей. К примеру, при решении многих задач, связанных с анализом процессов атмосферной или плазменной турбулентности, а также процессов, описывающих эволюцию различных финансовых индексов, высочайшую адекватность продемонстрировали модели, основанные на дисперсионно-сдвиговых смесях нормальных законов. Класс таких смесей очень обширен и, в частности, включает в себя обобщенные гиперболические распределения, и обобщенные дисперсионные гамма-распределения. В указанных семействах смесей число неизвестных параметров равно пяти или шести (если учитывать неслучайный сдвиг). Как показано в первой главе диссертации, у подобных моделей имеются
11Назаров А. Л. Приближенные методы разделения смесей вероятностных распределений. Диссертация на соискание ученой степени кандидата фпз.-матем. наук. - М.: Московский государственный университет им. М. В. Ломоносова, 2013.
довольно серьезные теоретические обоснования, а именно, указанные модели являются асимптотическими аппроксимациями в простой предельной схеме случайного суммирования и потому могут успешно применяться для анализа процессов типа остановленных случайных блужданий. Эти выводы подтверждены статистическим анализом высокочастотных финансовых данных, в результате которого выявлен синхронизированный характер изменения интенсивностей потоков заявок в торговых системах, что приводит' к синхронизированному поведению параметров сдвига и диффузии в соответствующих моделях вида смесей нормальных законов [12].
Для решения задачи оценивания параметров обобщенных гиперболических распределений традиционно используется метод, предложенный в статье [13] и по сути являющийся классическим ЕМ-алгорйтмом, приспособленным к конкретной задаче, и, соответственно, наследующий присущие ЕМ-алгоритмам недостатки. В связи с этим возникает важная задача адаптации упоминавшихся выше сеточных методов для решения задачи статистического разделения произвольных дисперсионно-сдвиговых смесей нормальных законов, решению которой посвящена глава 2 данной диссертации, где на примере обобщенных гиперболических и обобщенных дисперсионных гамма-распределений описывается и изучается принципиально новый метод разделения дисперсионно-сдвиговых смесей нормальных законов.
Эффективно работающие алгоритмы статистического разделения смесей могут быть использованы при решении задачи прогнозирования рисков. А именно, традиционная задача прогнозирования стохастических процессов сводится к построению точечного прогноза возможной его траектории. Вместе с тем во многих случаях исследователь в не меньшей степени заинтересован в решении задач прогнозирования распределения значения случайного процесса, что позволяет решать, в частности, задачи прогнозирования финансовых рисков как вероятностей превышения критических порогов рассматриваемым индексом.
Помимо непосредственного исследования распределений, любая финансовая организация заинтересована в получении достаточно достоверных прогнозов на основе наблюдаемых данных. Прогнозирование содержит в себе большой спекулятивный фактор, но некоторые жесткие требования к любому осмысленному методу прогнозирования известны
12Королев В. Ю., Чертпок А. В., Корчагин А. Ю-, Горшенин А. К. Вероятностно-статистическое моделирование информационных потоков в сложных финансовых системах на основе высокочастотных данных // Информатика и ее применения, 2013 г., том 7, Вып. 1, с. 12-21.
uProias3ov Я. S. EM-based maximum likelihood parameter estimation for a multivariate generalized hyperbolic distribution with fixed A // Statistics, Computing, 2004. Vol. 14. P. 67-77.
8
заранее: метод должен работать достаточно быстро, чтобы прогноз оставлял время для принятия решения, а также должен показывать хорошие результаты на случайно выбранных исторических данных.
В диссертации продемонстрировано, что указанная задача прогнозирования рисков с помощью смешанных моделей может быть успешно сведена к решению задачи прогнозирования траектории точки, описывающей параметры обобщенного гиперболического или обобщенного дисперсионного гамма-распределения в соответствующем четырех- или пятимерном пространстве.
Целью данной работы является всестороннее изучение специальных вероятностных моделей стохастических процессов и явлений, имеющих вид дисперсионно-сдвиговых смесей нормальных законов, в частности, обобщенных гиперболических и обобщенных дисперсионных гаммаграспределений. .
Для достижения поставленной цели необходимо было решить следующие задачи:
1. доказать критерии, сходимости распределений статистик, построенных по выборкам случайного объема, в частности, сумм случайного числа случайных величин, к многомерным дисперсионно-сдвиговым смесям нормальных законов, в частности, к обобщенных гиперболическим и обобщенным дисперсионным гамма-распределениям;
2. разработать эффективный комбинированный методд статистического разделения дисперсионно-сдвиговых смесей нормальных законов, в частности, обобщенных гиперболических и обобщенных дисперсионных гаммаграспределений, и изученить его свойства;
3. изучить и продемонстрировать возможности предложенных моделей и методов на примере решения практических задач, в частности, задачи статистической локализации невосполнимых областей головного мозга человека по магнитоэнцефалограммам и миограммам; задачи прогнозирования финансовых рисков; задачи анализа текстовой информации для анализа и предотвращения утечек данных.
Основные положения, выносимые на защиту:
1. Предложено теоретическое обоснование адекватности моделей, имеющих
вид дисперсионно-сдвиговых смесей нормальных законов: доказаны
предельные теоремы о сходимости распределений многомерных
статистик, построенных по выборкам случайного объема, к
многомерным дисперсионно-сдвиговым смесям нормальных законов. В
9
том числе доказаны критерии сходимости распределений случайных сумм независимых многомерных случайных величин к многомерным дисперсионно-сдвиговым смесям нормальных законов, в частности, к многомерным обобщенным гиперболическим и обобщенным дисперсионным гаммаграспределениям, а также функциональная предельная теорема о сходимости обобщенных процессов Кокса к процессам Леви с одномерными обобщенными дисперсионными гамма-распределениями.
2. Разработан, реализован, а также теоретически и экспериментально исследован комбинированный сеточный метод разделения дисперсионно-сдвиговых смесей нормальных законов. Этот метод успешно применен к решению задачи отыскания опорных точек для локализации невосполнимых областей головного мозга человека с помощью выявления двигательной активности на основе магнитоэнцефалограмм .и миограмм.
3. Разработан, реализован и исследован метод прогнозирования финансовых рисков с помощью приближенного решения задачи статистического разделения дисперсионно-сдвиговых смесей нормальных законов. Проведено тестирование метода на различных финансовых данных. Этот метод также применен в задаче анализа текстовой информации для предотвращения утечек данных.
Научная новизна:
1. Впервые доказаны предельные теоремы о сходимости распределений многомерных случайных последовательностей с независимыми случайными индексами к дисперсионно-сдвиговым смесям нормальных законов. В частности, впервые доказаны критерии сходимости распределений сумм случайного числа независимых многомерных случайных величин, а также многомерных статистик, построенных по выборкам случайного объема, к многомерным обобщенным гиперболическим и многомерным обобщенным дисперсионным гаммаграспределениям.
2. Впервые разработан комбинированный метод разделения дисперсионно-сдвиговых смесей нормальных законов и получены теоретические оценки для выбора оптимальных параметров метода. Этот метод впервые применен к решению задачи отыскания опорных точек для локализации невосполнимых областей головного мозга человека с помощью
выявления двигательной активности на основе магнитоэнцефалограмм и миограмм, где он продемонстрировал высокую эффективность.
3. Впервые разработан и экспериментально исследован метод прогнозирования финансовых рисков на основе разделения дисперсионно-сдвиговых смесей нормальных законов.
Практическая значимость диссертационной работы состоит в том, что разработанные методы показывают более высокую точность по сравнению с аналогами в ряде практических задач, в частности применительно к задаче выявления двигательной активности на основе магнитоэнцефалограмм и миограмм, а также применительно к задаче анализа текстовой информации для предотвращения утечек данных.
Достоверность обеспечивается корректными доказательствами теорем и подробными описаниями алгоритмов и экспериментов, допускающими воспроизводимость.
Апробация работы. Основные результаты диссертации докладывались на ежегодной научной конференции «Тихоновские чтения» (Москва, 27-31 октября 2014 г.), на XXXII Международном семинаре по проблемам устойчивости стохастических моделей (Тронхейм, Норвегия, июнь 2014 г.), на научно-исследовательском семинаре «Теория риска и смежные вопросы» на факультете ВМК МГУ, на первой научно-практической конференции молодых ученых «Задачи современной информатики» (Москва, ИПИ РАН, декабрь 2014 г.).
Публикации. Основные результаты по теме диссертации изложены в 10 печатных изданиях [1] - [10], в том числе высокорейтинговых журналах; 6 работ изданы в журналах, рекомендованных ВАК, 3 — в тезисах докладов.
Личный вклад автора состоит в получении основных теоретических результатов, программной реализации, экспериментальной апробации. В работе [2] автору принадлежит доказательство теорем о сходимости статистик, построенных по выборкам случайного объема, к многомерным дисперсионно-сдвиговым смесям нормальных законов. В частности, доказаны критерии сходимости к многомерным обобщенным гиперболическим и многомерным обобщенным дисперсионным гамма-распределениям. В работах [8 - 10] автором проведены конкретные расчеты с использованием предложенного им метода разделения смесей. В остальных работах вклад соавторов заключается в следующем. В работе [3] В. Ю. Королев предложил подход к оцениванию границ носителя смешивающего распределения. В работе [4] В. Ю. Королев и О. А. Морева предложили альтернативные
подходы к многопроходному выбору сеток. В работе [6] В. Ю. Королев, И. А.
11
Соколов и А. В. Черток исследовали свойства обобщенных гиперболических моделей, а А. Ю. Корчагин исследовал свойства обобщенных дисперсионных гамма-моделей. В работе [7] Ярошенко И. И. предложил простой метод отыскания параметров распределения из заданного класса.
Объем и структура работы. Диссертация состоит из введения, трех глав, заключения и двух приложений. Полный объем диссертации составляет 113 страниц с 33 рисунками и 20 таблицами.
Содержание работы
Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, приводится обзор научной литературы по изучаемой проблеме, формулируется цель, ставятся задачи работы.
В первых разделах первой главы содержатся общие сведения о свойствах дисперсионно-сдвиговых смесей нормальных законов.
Дисперсионно-сдвиговой смесью нормальных законов называется функция распределения
F(x) = "J^IaZ) dG(z), xeR. (1.1)
G(z) - функция распределения, такая, что G(0) = 0.
' В соотношении (1.1) смешивание происходит одновременно и по параметру сдвига, и по параметру масштаба, но так как эти параметры в (1.1) связаны жесткой зависимостью, при которой параметры положения (сдвига) смешиваемых нормальных законов пропорциональны их дисперсиям то фактически смесь (1.1) является однопараметрической. Именно поэтому смеси вида (1.1) называются дисперсионно-сдвиговыми.
Аналогично, в многомерном случае распределение Позначного случайного вектора Z является многомерной дисперсионно-сдвиговой смесью нормальных законов, если
Z= b+Ua+VUAY, (1.2)
где о, & £ Rm, А - вещественная (ш х т)-матрица такая, что £ s ААГ положительно определена, Y - случайный вектор со стандартным m-мерным нормальным распределением Л/о,/, a U - неотрицательная случайная величина, независимая от У. Этот факт иногда записывается в виде F = Afb+za,zZ 0 G.
В первой главе также описаны два конкретных параметрических семейства дисперсионно-сдвиговых смесей нормальных законов: обобщенные гиперболические распределения и обобщенные дисперсионные гаммаг распределения.
Плотность обобщенного обратного гауссовского распределения обозначим рс/с(®5
Л) =, • х-1 • ехр { - ^ + ■Хх) }, х>0. (1.4)
Здесь с£К,
ц > О, Л > 0, если и < О, ц > О, Л > 0, если V = О, р. > О, Л > 0, если V > О, Ки(г) - модифицированная бесселева функция третьего рода порядка и,
= + геС,11ег>0.
В 1977-78 гг. О.-Э. Барндорфф-Нильсен ввел класс обобщенных гиперболических распределений как класс специальных дисперсионно-сдвиговых смесей нормальных законов. Пусть а 6 М, Р 6 К. Если функцию обобщенного гиперболического распределения с параметрами а, /3, и, ¡л, X обозначить Р(?я(а;;ог,^,1/,/г, А), то по определению
Раф)а,Р,и,ц,Х) = ^ ф(Д ~ а2) Рою(*\ Х)<1г, хё1. (1.5)
Для другого важного рассматриваемого класса нам понадобиться определение обобщенного гамма^распределения - это распредление, определяемое плотностью вероятностей вида
(1-е)
О, х < О,
N '
с параметрами и б К, к, 6 е отвечающими соответственно за степень, форму и масштаб, где
Г(к) = Г хк-1е~х(кс Jo
обозначает эйлерову гамма-функцию.
В работе [*] введено пятипараметрическое семейство распределений
Роус{х\ а, сг, I/, к, 5) = У Фи, к, 8)с1и, (1.7) 0 13
где рас{и;и,к,5) - плотность СС-распределения (1.6). В статье распределения вида (1.7) названы обобщенными дисперсионными гамма-распределениями.
Указанные выше два семейства сопоставляются, демонстрируется что в некоторых ситуациях использование обобщенных дисперсионных, гамматраспределений в качестве моделей дает лучшие результаты.
В разделе 1.4 первой главы приводятся известные и доказываются новые предельные теоремы, объясняющие характер смешивающего распределения в конкретных ситуациях и дающие дополнительное обоснование высокой адекватности моделей типа дисперсионно-сдвиговых смесей в рамках асимптотического подхода.
Рассмотрим последовательность серий п € М, независимых,
но не обязательно одинаково распределенных в каждой серии случайных величин. Для п, к е N Положим
8п,к = Хщ1 + ... + ХпМ. (1.34)
Для п,к & N пусть а^ = (а(п%..., а$)т еГ - неслучайные векторы и Ьп?к € К - положительные числа. Назначение векторов Оп,к и чисел Ъпк~ обеспечить слабую относительную компактность семейства случайных векторов { Уп,к г 6-^(5».,* - ап,к)}пШ, когда это требуется.
Рассмотрим семейство {А/п}пбИ неотрицательных случайных величин таких, что при каждом п,к е N случайные величины Ип независимы от случайных векторов Особо заметим, что «построчная» независимость случайных векторов не требуется. Пусть Сп = ..,сГт €
Мт - неслучайные векторы и с1п - положительные числа, п £ N. Наша цель - изучить асимптотическое поведение случайных векторов = <1~1 - Сп) при п оо, уделив особое внимание ситуации, в которой
предельные распределения для 2п имеют вид дисперсионно-сдвиговых смесей нормальных законов,
Характеристическую функцию случайного вектора Уп,к обозначим К,к($, Ь € Кт. Пусть У - Кт-мерный случайный вектор, х. ф. которого будет обозначаться Н(£), Ь е Введем случайные величины 11„ = Пусть Уп = (Уп(1),...,^(т))т, где № ~ - ¿к)) - к-я
компонента случайного вектора — ¿п). В дальнейшем символ \Уп
будет обозначать (т + 1)-мерный случайный вектор Шп — (С/„, =
{ипМ1\-Мп))Т.
Пусть Л(Хх, Х2) - любая вероятностная метрика, метризующая слабую сходимость в пространстве (т + 1)-мерных случайных векторов.
Примером такой метрики является расстояние Леви-Прохорова.
14
Исследуем слабую сходимость нормированных случайных векторов с независимыми случайными индексами
Zn => Z (п оо) (1.32)
к некоторому случайному вектору Z. Нам потребуется следующее дополнительное условие согласованности: для любого Т € (0, оо)
Um Е sup ~ М*)| = 0- (1-29)
"~>00 РЦСГ
ТЕОРЕМА 1.6. Пусть случайные векторы Snik имеют вид (1.34). Предположим, что семейство случайных векторов {yn,fc}n,iteN слабо относительно компактно, причем выполнено условие согласованности (1.29). Тогда сходимость (1.32) нормированных многомерных случайных сумм Z„ к некоторому случайному вектору Z имеет место с некоторыми Сп е Rm в том и только в том случае, когда существует слабо относительно компактная последовательность случайных векторов = {ü*, (К)Т)Т € W(Z\ Y),n 6 N такая, что
lim Wn) = 0. (1.35)
71-* ОО
Далее получены критерии сходимости распределений сумм случайного числа независимых многомерных случайных величин, к многомерным дисперсионно-сдвиговым смесям нормальных законов и конкретно к обобщенным гиперболическим и обобщенным дисперсионным гамма-распределениям. Предположим, что суммы Sn,k неслучайного числа случайных векторов асимптотически нормальны в том смысле, что существует положительно определенная симметричная (ш х т)-матрица Е такая, что для любого Т € (0, оо)
lim Е sup \hnNn{t) -exp{-ifTEi}| = 0, (1.39)
п~уо° ||t||*r
где h„tk(t) - х. ф. нормированных и центрированных сумм = b~lk(S,hh —
Предположим, что существуют векторы а^ € и Ьп € Мт такие, что для всех п, k е N справедливы соотношения
On.fc = d^blj-On, Сп = dnb„, (1.40)
причем существуют пределы
а = lim On, b = lim bn. (1-41)
п-юо n—>oo
15
ТЕОРЕМА 1.7. Предположим, что семейство случайных векторов {УпЛпЛен слабо относительно компактно, центрирующие векторы имеют вид (1.40) и удовлетворяют условию (1.41). Предположим, что суммы S„tk неслучайного числа случайных векторов асимптотически ■ нормальны в смысле (1.39). Тогда распределения центрированных и нормированных случайных сумм сходятся к распределению некоторого случайного вектора Z:
Zn =i> Z (n ~> оо)
тогда и только тогда, когда существует функция распределения G такая, что G(0) = 0, распределение F случайного вектора Z имеет вид F =
Nb+za,zS°Gu
P(i/2 < Х) G(x) (n-*oo).
В качестве следствия Этой теоремы получены условия сходимости распределений сумм случайного числа независимых многомерных случайных величин к обобщенным гиперболическим и обобщенным дисперсионным гамма-распреДелениям.
ТЕОРЕМА 1.8. Предположим, что семейство случайных векторов {yn,)t}n,iteN слабо относительно компактно, центрирующие векторы имеют вид (1.40) и удовлетворяют условию (1.41). Предположим, что суммы Sn,fc неслучайного числа случайных векторов асимптотически нормальны в смысле (1.39).
(a) Распределения центрированных и нормированных случайных сумм сходятся к многомерному обобщенному дисперсионному гамма-распределению F(dx\ а, Ь, v, к, 6) при п —>■ оо тогда и только тогда, когда
P(U„ < х) =» Pgg{x\ v, к, 6) (п оо).
(b) Распределения центрированных и нормированных случайных сумм сходятся к многомерному обобщенному гиперболическому распределению F(d,T, a, b, S, v, fi, А) при п —> оо тогда и только тогда, когда
Р[Ul <х)=> PGig{x\ v, ß, А) (п -> оо).
В разделе 1.3 первой главы предложена простая предельная схема,
основанная на элементарных случайных блужданиях типа обобщенных
процессов Кокса, в рамках которой происходит формирование конкретных
моделей типа подчиненных винеровских процессов - процессов Леви, с
обобщенными дисперсионными гамма конечномерными распределениями.
Рассматривается последовательность обобщенных дважды
стохастических пуассоновских процессов (обобщенных процессов Кокса)
16
вида
где {^(n)(i), t > 0}n?i - последовательность пуассоновских процессов с единичными интенсивностями; при каждом п — 1,2,... случайные величины Хп,иХп<2,... одинаково распределены; при каждом п 1 случайные величины ХпЛ,Хп,2,- и процесс N[n\t), t > 0, независимы; при каждом п = 1,2,... процесс An(f), t Js 0, является неубывающим положительным процессом Леви, независимым от процесса
причем Л„(0) = 0.
Предполагается, что выполнены следующие условия. Пусть 0 = Е\Хп,х\е < оо при некотором 0 б [1,2], существуют 5 е (0,1], ¿1 6 (0,1] и С„ е (0, оо) такие, что для каждого t € (0,1] справедливо неравенство
ЕЛ5n(t) < (Cnt)s\ (1.20)
причем
К = sup < оо. (1.27)
п
В разделе 1.3 показано, что распределения Вейбулла с i> < 1 безгранично делимы и приведены необходимые и достаточные условия сходимости обобщенных процессов Кокса к некоторым процессам Леви с одномерными обобщенными дисперсионными гамматраспределениями, в частности, к подчиненному винеровскому процессу, в котором субординатор является процессом Леви-Вейбулла с v ^ 1.
ТЕОРЕМА 1;4. Пусть обобщенные процессы Кокса Q„(t) (см. (1.18)) управляются неубывающими положительными процессами Леви hn(t), удовлетворяющими условию (1.20) с некоторыми 6,5\ е (0,1]. Предположим, что случайные величины {Xnj}j^i, п = 1,2,..., удовлетворяют условиям
К£{Хп,\ ~ a„)2l(|Xn,i - an| ^ в) —у 0 и Кап —► а, —У v2 (1.28)
с некоторыми k„ € N, а € К. и 0 < сг2 < оо. Также предположим, что условие (1.27) выполнено с 0 = 2. Тогда обобщенные процессы Кокса Qn{t) слабо сходятся в пространстве Скорохода V к подчиненному винеровскому процессу
W{U(t)), в котором субординатор U{t) является процессом Леви-Вейбулла с и < 1 в том и только том случае, когда
P(An{l)<knx) и,1,5)
17
с теми же самыми кп.
Во второй главе предлагается принципиально новый метод разделения дисперсионно-сдвиговых смесей нормальных законов, в частности, на примере исследуемых ранее обобщенных гиперболических и обобщенных дисперсионных гаммаграспределений.
Традиционно для решения задач разделения смесей вероятностных законов используются ЕМ (Expectation Maximization) алгоритмы. Для преодоления недостатков классического ЕМ-алгоритма предложено много модификаций, см., например, [10]. Вместе с тем, в указанной книге предложен и исследован принципиально новый «сеточный» метод приближенного решения задачи разделения смесей. В работе [п] подробно исследованы вопросы сходимости сеточных методов разделения смесей.
На практике приходится решать задачу разделения конечных смесей нормальных законов с произвольно большим числом неизвестных. Хотя в большинстве приложений возникают смеси не более чем с пятью-семью компонентами, даже при использовании таких смесей размерность задачи лежит в пределах от 14 до 20, что существенно увеличивает необходимые ресурсы. Одним из возможных подходов к снижению размерности является априорное сужение классов допустимых смесей. В частности, класс дисперсионно-сдвиговых смесей нормальных законов показал высочайшую адекватность при решении многих практических задач. Среди прочих семейств, входящих в данный класс, отметим упомянутые ранее обобщенные гиперболические распределения и семейство обобщенных дисперсионных гамма-распределений.
В разделе 2.2 описаны основные идеи метода. На первом этапе на положительной полупрямой выделяется основная часть носителя смешивающего распределения: ограниченный интервал, вероятность которого, вычисленная в соответствии со смешивающим распределением, практически равна единице. На этот интервал накидывается конечная сетка, содержащая, возможно, очень много известных узлов щ,...,ик-Считая параметр сдвига /3 равным нулю, приблизим искомое обобщенное гиперболическое распределение конечной смесью нормальных законов:
Пусть ..., р^к-v ~ °Денки параметров рь..., рк-i и а на тп-й
Р<зн{х\ 0,v, it, А) ю { /щ )'
х sR.
(2.2)
,<-ym>
■' (m'L(т), где г = 1,..., Я; j =
1 ,...,гг.
Итерационный процесс определяется следующим образом.
а(т+1) = ____(2.4)
Теорема 2.1. Пусть узлы ии...,ик сетки различны, неотрицательны и известны. Итерационный процесс (2.3) - (2.4) является монотонным, то есть каждая его итерация не уменьшает целевую сеточную функцию правдоподобия
■ тт-п г^д- p¡ /xj-а(т)щ\-]
£(Р1, • • • ,РК, а; , *») = Д.=1 ^Т )\■
На втором этапе применяется какой-либо стандартный метод подгонки обобщенного обратного гауссовского распределения Рсю{%\ V, ц, Л) к эмпирическим данным типа гистограммы («цРг),..., (ик,рк)• Например, параметры и, ц и А можно оценить, минимизируя соответствующую статистику хи-квадр'ат. Или же, например, можно решить задачу наименьших квадратов
Ек АЫ+ы-д ]2
. , Р. - / Раю{щ V, ц, А)йи ,
1=1 I. J
где щ = 0, ик+1 = оо. Также хорошие результаты показал метод поиска наилучшего распределения в смысле минимизации расстояния Кульбака-Лейблера, который в данном случае эквивалентен максимизации правдоподобия полученной гистограммы в выбранных классах распределений.
При применении указанного двухэтапного метода в динамическом режиме крайне важным становится вопрос о выборе наиболее эффективных и быстродействующих численных процедур и их параметров. В частности, исключительную важность приобретает правильный выбор сетки на первом этапе. В разделе 2.3 диссертации получены теоретические оценки для верхней границы сетки, а в разделе 2.7 приведены дополнительные рекомендации.
Предложенный алгоритм был в первую очередь протестирован на большом количестве искуственно сгенерированных выборок с целью оценки качества работы метода на тех данных, природа которых заранее известна.
Для тестирование использовалась задача оценивания параметров обобщенных гиперболических распределений с использованием указанного выше алгоритма выбора сетки с умеренным числом узлов К = 40. Для
19
вычислений использовались выборки объемов п = 1000 и п = 10000 с разными наборами параметров.
В разделе 2.5 приведены результаты численных экспериментов на реальных данных - применения метода к двум известным биржевым индикаторам. Разделение смесей проводилось в режиме скользящего окна с целью изучения динамики данных индикаторов. В качестве семейств подбираемых распределений использовались все те же СН-и СУС-распределения. Из полученных результатов следует, что оба семейства хорошо описывают рассмотренные данные, при этом обобщенные дисперсионные гамма-распределения показывают лучшие результаты по сравнению с обобщенными гиперболическими распределениями при проверке критерия согласия хи-квадрат.
В разделе 2.6 второй главы рассмотрено применение предложенного метода в задаче выявления двигательной активности в головном мозге человека. Формально эта задача сводится к максимально точному определению начала изменения характера слабого полезного сигнала (возникновения ненулевого тренда) на фоне сильного (негауссовского) шума. Для решения этой задачи в разделе 2.6 предложены различные версии комбинированного сеточного алгоритма разделения дисперсионно-сдвиговых смесей, реализуемого в скользящем режиме. Предложенные методы продемонстрировали высокую эффективность и в ряде случаев более высокую точность по сравнению с известными методами.
Третья глава посвящена описанию алгоритма прогнозирования параметров дисперсионно-сдвиговых смесей в общем виде, в частности, для задачи оценки рисков.
У многих специалистов в области практических задач анализа финансовых рынков сложилось вполне обоснованное мнение, что анализировать и прогнозировать нужно не значения наблюдаемых процессов, а их распределения. В частности, одной из важнейших практических задач является проблема оценки и прогнозирования рисков, тесно связанная с изучением поведения хвостов распределений наблюдаемых процессов.
Минимальные требования к любому осмысленному методу прогнозирования заключаются в его быстроте и корректности результатов на случайно выбранных исторических данных. В качестве входных данных для метода прогнозирования будем использовать результат работы модифицированного сеточного метода разделения дисперсионно-сдвиговых смесей нормальных законов, то есть ряд параметров распределений, посчитанных для N известных окон с историческими наблюдениями,
0i,02,--MiW> где каждое 9{ = {ai,ßi,ui,ßi,Xi)T. Задача прогнозирования -получить оценки вп+1, дп+2, • • • для следующих окон.
Рассмотрим соотношение:
$i+1 = FiBt + Faft-i + • • • + Fsßi-вм + e, (3.3)
где R € N - заранее фиксированный параметр, имеющий смысл порядка прогноза, Fj е R5*5 ~ матрицы-регрессоры.
Процедура поиска параметров модели имеет вид:
(Fi,..., Fr) = arg min (Pi+1 " Pi+1) '
По сути рассматривается типичная авторегрессиониая модель, где поиск матриц Fj проводится путем обучения модели с использованием минимизации суммарной остаточной суммы квадратов на N — R предсказаниях модели по известных данных.
В этой главе также предложен подход к определению точности получаемых прогнозов, а также приведены результаты практического применения метода на реальных финансовых данных.
В заключение третьей главы приведено описание применения алгоритма прогнозирования к задаче анализа текстовой информации с целью предотвращения утечек данных - одной из самых актуальных задач информационной безопасности для корпоративного сегмента.
Предложенный в третьей главе метод прогнозирования показал хорошие результаты при его применении для решения задачи способом, описанным в [14]. В рамках предложенной процедуры используется простой и легко интерпретируемый подход к сравнению прогнозов с реальными данными на основе критерия согласия хи-квадрат, который позволяет принять обоснованное решение о возможной утечке данных.
Публикации автора по теме диссертации
1. Корчагин А. Ю. О сходимости случайных сумм независимых случайных векторов к многомерным обобщенным дисперсионным гамматраспределениям. Системы и средства информатики, М.: ИПИ РАН, 2015 г., том 25, №1, С. 131-146.
2. Королев В. Ю., Корчагин А. Ю., Зейфмап А. И. О сходимости распределений статистик, построенных по выборкам случайного объема,
иМашечкин И. В., Петровский М. И., Царев Д. В. Применение методов интеллектуального анализа текстовой информации для предотвращения утечек данных // Программирование, 2015. N. 1. С. 32-43.
21
к многомерным обобщенным дисперсионным гамматраспределениям // Доклады Академии наук, 2015. Т. 462. Вып. 4, с. 10-24.
3. Королев В. Ю., Корчагин А. Ю. Модифицированный сеточный метод разделения дисперсионно-сдвиговых смесей нормальных законов // Информатика и ее применения, 2014 г., том 8, Вып. 4, сс. 11-19.
4. Корчагин А. Ю., Ярошенко И. И. О практическом использовании модифицированного сеточного метода разделения дисперсионно-сдвиговых смесей нормальных законов // Труды первой научно-практической конференции молодых ученых "Задачи современной информатики- М.: ИПИ РАН, С. 34-38.
5. Королев В. Ю., Корчагин А. Ю., Морева О. А. Непараметрическое оценивание функции плотности смесей вероятностных законов с помощью ЕМ-алгоритма. // Системы и средства информатики, М.: ИПИ РАН, 2012г, том 22, Вып. 2, с. 197-227.
6. Королев В. Ю., Черток А. В., Корчагин А. Ю., Горшенин А. К. Вероятностно-статистическое моделирование информационных потоков в сложных финансовых системах на основе высокочастотных данных // Информатика и ее применения, 2013 г., том 7, Вып. 1, с. 12-21.
7. Королев В. Ю., Корчагин А. Ю., Соколов И.А., Черток А. В. О работах в области моделирования информационных потоков в современных высокочастотных финансовых приложениях // Системы и средства информатики, М.: ИПИ РАН, 2014г, том 24, Вып. 4, с. 63-85.
8. Korolev V. Yu., Chertok А. V., Korchagin A. Yu., Zeifman A. I. Modeling high-frequency order flow imbalance by functional limit theorems for two-sided risk processes // Applied Mathematics and Computation (New York), издательство Elsevier BV (Netherlands), 2014 г., том 253, с. 224-241.
9. Chertok A. V., Korolev V. Yu., Korchagin A. Yu. On order flow modeling with Cox processes. // XXXII International Seminar on Stability Problems for Stochastic Models, Book of Abstracts. 2014. Moscow, IPI RAN, p. 23 - 24
10. Gorshenin A. K., Korolev V. Yu, Zeifman A. I., Shorgin S. Ya, Chertok A. V., Evstafyev A. I., Korchagin A. Yu. Modelling stock order flows with non-homogeneous intensities from high-frequency data // AIP Conference Proceedings, 2013 г., International Symposium on Computational Models for Life Sciences, Vol. 1559, P. 2394-2397.
Напечатано с готового оригинал-макета.
Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. Подписано в печать 06.05.2015г.
Формат 60x90 1/16. Усл.печл. 1,0. Тираж 70 экз. Заказ 090. Тел./факс: (495) 939-3890,939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. МЗ. Ломоносова, 2-й учебный корпус, 527 к.