Робастность в байсовском статистическом прогнозировании при искажениях вероятностных распределений тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Харин, Алексей Юрьевич АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Минск МЕСТО ЗАЩИТЫ
1999 ГОД ЗАЩИТЫ
   
01.01.05 КОД ВАК РФ
Автореферат по математике на тему «Робастность в байсовском статистическом прогнозировании при искажениях вероятностных распределений»
 
Автореферат диссертации на тему "Робастность в байсовском статистическом прогнозировании при искажениях вероятностных распределений"

рг ь ид

1 5 НОЯ ¡333

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УДК 519.2

Харин Алексей Юрьевич

РОБАСТНОСТЬ В БАЙЕСОВСКОМ СТАТИСТИЧЕСКОМ ПРОГНОЗИРОВАНИИ ПРИ ИСКАЖЕНИЯХ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ

01.01.05 — Теория вероятностей и математическая статистика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

Минск — 1999

Работа выполнена на кафедре математического моделирования и анализа данных Белорусского государственного университета.

Научный руководитель — кандидат физико-математических наук

Галинский Виктор Антонович

Официальные оппоненты: доктор физико-математических наук

Залесский Борис Андреевич

кандидат физико-математических наук, доцент Демеш Николай Николаевич

Оппонирующая

организация — Институт математики Национальной Академии наук Беларуси

Защита состоится_!_декабря 1999 г. в 10:00 на заседании совета

по защите диссертаций Д. 02.01.08 при Белорусском государственном университете по адресу: 220050, г. Минск, пр. Ф. Скорины, 4, главный корпус, ауд. 206, тел. (017) 2265541.

С диссертацией можно ознакомиться в библиотеке Белорусского государственного университета.

Автореферат разослан - 199д г_

Ученый секретарь

совета по защите диссертаций

. э, аз

нМ

/

Н.Н. Труш

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. В современной математической статистике одним из активно развиваемых направлений становится направление, разрабатывающее робастные* (устойчивые) процедуры анализа данных, имеющие важное прикладное значение. При решении практических задач гипотетические модельные предположения описывают анализируемые статистические данные неточно, с некоторыми искажениями. Например, гипотетические распределения вероятностей случайных параметров модели и наблюдений могут отличаться от истинных, в наблюдениях могут присутствовать "выбросы", наблюдения могут оказаться статистически зависимыми и т.д. В подобных случаях статистические процедуры, оптимальные в рамках гипотетических вероятностных моделей, при появлении искажений утрачивают это свойство, могут приводить к неудовлетворительным результатам и, как следствие, не могут использоваться на практике. Поэтому возникает необходимость синтеза новых ро-бастных статистических процедур. Над решением таких задач работают многие известные в области математической статистики учёные: П. Хью-бер, Ф. Хампель, П. Бикел, X. Ридер, С.А. Айвазян, Ю.Н. Благовещенский, Л.Д. Мешалкин, Б.П. Титаренко, Р. Рудзкис, Г.Л. Шевляков, A.M. Шуры-гин и многие другие.

В практических задачах часто возникают ситуации, когда экспериментальных данных недостаточно для получения удовлетворительных статистических выводов. В таких ситуациях эффективно применяется байесовский подход, позволяющий использовать при построении статистических процедур наряду с наблюдениями также и априорную информацию. На практике такой подход стал активно использоваться лишь с 80-х годов в связи с появлением ЭВМ с производительностью, достаточной для осуществления вычислений по алгоритмам, реализующим байесовские статистические процедуры, и в настоящее время наблюдается дефицит статистических программных средств, способных учитывать априорную информацию об анализируемом явлении.

Априорная информация, повышая качество статистических процедур, одновременно может служить дополнительным источником искажений модельных предположений, что приводит к особой актуальности проблем робастности статистических выводов, использующих байесовский подход. Исследования по робастной байесовской статистике связаны с именами

"От английского robust — крепкий, стойкий; данный термин означает малую чувствительность статистических процедур к искажениям гипотетической модели и используется из-за перегруженности в математической литературе понятия "устойчивость".

Дж. Бергера, М. Веста, С. Гейссера, Дж. Харрисона, М. Лавине, P.A. Абу-сева, И.Н. Володина, Ш. Раудиса и других учёных. Их усилия привели к получению теоретических и прикладных результатов в разведочном анализе данных, оценивании параметров моделей, оптимальном планировании экспериментов, проверке статистических гипотез.

В статистическом прогнозировании байесовский подход избавляет от необходимости решать сложную задачу идентификации системы. Благодаря использованию адекватной априорной информации, повышающей точность прогнозирования, в рамках гипотетических вероятностных моделей байесовский прогноз оказывается оптимальным по критерию минимума риска (среднего квадрата ошибки) прогнозирования. Тем не менее, широкое практическое использование байесовских методов прогнозирования, требующих больших вычислительных затрат, началось сравнительно недавно. Необходимость повышения точности прогнозирования, существующая в в различных областях — технике, медицине, экономике, археологии, экологии, метеорологии — при создании и использовании компьютерных систем прогнозирования, а также тот факт, что гипотетические предположения, формулируемые в виде вероятностных распределений, на практике зачастую нарушаются, обусловили актуальность исследования робастности в байесовском статистическом прогнозировании при искажениях гипотетических вероятностных распределений, являющегося темой данной работы.

Связь работы с крупными научными программами, темами. Результаты диссертационного исследования использованы при выполнении в Белгосуниверситете следующих научно-исследовательских работ: 1) г/б НИР 19972532 "Разработать систему проблемно-ориентированных пакетов прикладных программ в области статистического анализа данных и моделирования" (1997 — 1998 гг.) по Государственной научно-технической программе "Информатика"; 2) г/б НИР 19963454 "Разработка методов и алгоритмов робастного (устойчивого) статистического анализа многомерных и динамических данных при наличии функциональных искажений" (1996 — 2000 гг.) по Государственной программе фундаментальных исследований Республики Беларусь "Алгоритм"; 3) г/б НИР 19982771 "Разработка и исследование статистических методов, алгоритмов и программных средств устойчивого прогнозирования и восстановления зависимостей" (1998 г.) по гранту поддержки молодых учёных Белгосуниверситета; 4) г/б НИР "Разработка методов робастного прогнозирования процессов, описываемых параметрическими стохастическими уравнениями" (1999 г.) по гранту поддержки молодых учёных Белгосуниверситета. При выполнении двух последних НИР автор диссертации являлся научным руководителем.

Цель и задачи исследования. Целью данного диссертационного исследования является вычисление характеристик робастности известных статистик байесовсокого прогнозирования и построение новых, робастных байесовских прогнозирующих статистик, устойчивых к функциональным искажениям гипотетической вероятностной модели. Достижение указанной цели предполагает решение следующих основных задач:

1) Оценивание гарантированного верхнего риска, характеризующего робастность байесовского прогнозирования при искажениях гипотетической вероятностной модели, когда а) искажения априорной плотности распределения вероятностей вектора параметров и условной плотности распределения вероятностей вектора наблюдений описываются моделью "выбросов" типа Тьюки-Хьюбера; б) искажения задаются семейством допустимых окрестностей гипотетических центров в функциональных пространствах плотностей распределения вероятностей в равномерной метрике с гипотетической весовой функцией, в х2-метрпке и в Ц-метрике.

2) Синтез новых байесовских прогнозирующих статистик, робастных по отношению к исследуемым типам искажений.

3) Оценивание выигрыша в риске для робастных прогнозирующих статистик по сравнению с байесовской прогнозирующей статистикой.

4) Построение робастных прогнозирующих статистик для двух широко используемых на практике параметрических моделей временных рядов: трендовой и авторегрессионной.

5) Разработка вычислительных алгоритмов, реализующих робастные байесовские прогнозирующие статистики, и внедрение построенных алгоритмов в программные продукты по статистическому прогнозированию.

Объект и предмет исследования. Объектом исследования являются традиционно используемые и новые статистики байесовского прогнозирования. Предмет исследования — свойства робастности прогнозирующих статистик по отношению к искажениям гипотетической вероятностной модели, задаваемым посредством смесей Тьюки-Хьюбера и окрестностей в функциональных пространствах плотностей распределения вероятностей.

Методика исследования. Используемая в данной работе методика анализа робастности и синтеза новых, робастных к искажениям гипотетической вероятностной модели, статистик байесовского прогнозирования основана на аналитическом вычислении, построении асимптотических разложений функционалов верхнего риска и гарантированного верхнего риска, а также на решении оптимизационных задач построения робастных байесовских прогнозирующих статистик по критерию минимакса. При этом используются: аппарат теории вероятностей и математической статистики;

модели и методы статистического анализа временных рядов; асимптотические методы статистики; аппарат методов оптимизации в функциональных пространствах. Также интенсивно используется аппарат функционального анализа, теории обобщённых функций и теории матриц.

Научная новизна полученных результатов. Результаты, изложенные в диссертации, являются новыми и получены автором впервые. Среди них выделим следующие основные результаты:

1) Предложены новые, не исследовавшиеся ранее в байесовском статистическом прогнозировании, модели искажений М\ — М7 гипотетических вероятностных распределений: х2_искажения априорной (Мз) и совместной (М7) гипотетических плотностей распределения вероятностей, искажения М4 априорной гипотетической плотности в Li-метрике, искажения априорной (Mi), совместной и условной (Мб) гипотетических плотностей в С-метрике с весом, а также модификации известных искажений Тьюки-Хьюбера (Мг и М5) для модели байесовского прогнозирования, позволившие охватить широкий класс допустимых искажений (глава 1).

2) Впервые получены аналитические выражения (для искажений М\ — М5, М7 гипотетической вероятностной модели), асимптотические разложения (для Мз, М,i и Мт) и оценки (для искажений Mi, М2, М4, Me) функционала гарантированного верхнего риска (главы 2, 3).

3) Впервые доказано свойство г+- робастности традиционно используемой байесовской прогнозирующей статистики при искажениях Mi, Мб в С-метрике с весом, а также получены точные выражения (при искажениях М2, М5) г+-робастных прогнозирующих статистик, приближённые выражения (в случае М3, М7) и асимптотическое разложение (для М4) робастной прогнозирующей статистики (главы 2, 3).

4) При искажениях Мз, М- построены асимптотические разложения выигрыша в риске построенных устойчивых прогнозирующих статистик по сравнению с байесовской прогнозирующей статистикой (главы 2, 3).

5) Для временных рядов с трендом и авторегрессионных временных рядов при искажениях в С-метрике с весом впервые построены г+-робастные байесовские прогнозирующие статистики (глава 4), две из которых реализованы в пакете прикладных программ (ППП) по статистическому прогнозированию СТАТПРО.

Практическая и экономическая значимость полученных результатов. На основе построенных в диссертации г+-робастных прогнозирующих статистик автором разработаны два устойчивых алгоритма байесовского прогнозирования, реализованные в виде вычислительных процедур в составе ППП по статистическому прогнозированию СТАТПРО. Этот

программный продукт внедрён в Белорусском научно-внедренческом центре по землеустройству и НИИ онкологии и медрадиологии. Автором разработана библиотека компьютерных процедур "РБАР", зарегистрированная Фондом программных средств Белгосуниверситета. Эта библиотека предназначена для проведения вычислительных экспериментов по робаст-ности байесовского прогнозирования авторегрессионных временных рядов.

Экономическая значимость полученных в диссертации результатов обусловлена тем, что ППП СТАТПРО, в котором реализованы разработанные автором алгоритмы робастного прогнозирования, может рассматриваться как коммерческий программный продукт, на который имеется спрос в различных организациях, занимающихся прогнозированием в условиях нарушений традиционных модельных предположений.

Основные положения диссертации, выносимые на защиту.

1. Новые для байесовского статистического прогнозирования модели искажений гипотетических вероятностных распределений, задаваемые с помощью окрестностей в функциональных пространствах априорной, условной и совметной плотностей распределения вероятностей в С-метрике с весом, ^-метрике и х2"метрике.

2. Аналитические выражения, асимптотические разложения и оценки для функционала гарантированного верхнего риска при функциональных искажениях гипотетических распределении вероятностей параметров модели и наблюдаемых значений, дающие количественную оценку робастно-сти прогнозирующих статистик.

3. Точные и приближённые выражения, а также асимптотические разложения для робастных (по критерию минимакса риска прогнозирования) и г+-робастных байесовских прогнозирующих статистик при искажениях априорного распределения вероятностей вектора параметров, условного распределения наблюдений при заданном векторе параметров и совместного распределения параметров и наблюдений, а также доказательство свойства г+-робастности байесовской прогнозирующей статистики, определяемой как апостериорное среднее.

4. Оценки выигрыша в риске прогнозирования при использовании робастных байесовских статистик по сравнению с байесовской прогнозирующей статистикой при наличии х2-искажепий распределения вероятностей параметров и наблюдений.

5. Аналитические выражения г+-робастных байесовских прогнозирующих статистик по отношению к искажениям типа Тьюки-Хыобера и к искажениям в С-метрике для двух гипотетических моделей временных рядов: трендовой и авторегрессионной.

6. Алгоритмы и программы г+-робас.тного байесовского прогнозирования временных рядов с трендом и авторегрессионных временных рядов при равномерных искажениях гипотетического совместного распределения параметров модели и наблюдений.

Личный вклад соискателя. Все результаты, приведённые в диссертации, получены автором лично. Соавторам в совместных работах принадлежат предметные постановки задач, выбор направления исследований и обсуждение результатов. При ссылке на совместные публикации соискателя подразумеваются результаты, полученные лично автором.

Апробация результатов диссертации. Основные результаты диссертационного исследования были представлены и обсуждались на

• VI 1-й Международной Вильнюсской конференции по теории вероятностей и математической статистике и 22-м Европейском совещании статистиков (Вильнюс, 1998);

• 52-й Сессии Международного статистического института (Хельсинки, 1999);

• Ш-й Скандинавско-Украинской конференции по теории вероятностей и математической статистике (Киев, 1999);

• 6-й Международной Тартусской конференции по многомерной статистике (Тарту, 1999);

• 23-й ежегодной Международной конференции по классификации "Классификация и обработка информации" (Билефельд, 1999);

• У-й Международной конференции "Компьютерный анализ данных и моделирование" (Минск, 1998);

• 1У-Й и У-й Международных конференциях "Распознавание образов и обработка информации" (Минск, 1997, 1999);

• У-й Международной научной конференции "Актуальные проблемы информатики: математическое и программное обеспечение" (Минск, 1996);

• Международной конференции молодых учёных " Ломоносов-97" (Москва, 1997);

• 1-й Международной школе-семинаре молодых учёных по искусственному интеллекту (Браславские озёра, 1997);

• Межрегиональной конференции молодых учёных "Математика и ЭВМ-98" (Брест, 1998).

Кроме того, результаты докладывались на заседаниях Республиканского научного семинара "Математическое моделирование сложных систем и анализ данных", проводимого Белорусской Статистической Ассоциацией, а также на Республиканских и университетских научных конференциях аспирантов и студентов.

Опубликованность результатов. Основные результаты, приведённые в диссертационной работе, опубликованы в 18 научных работах, из них 2 статьи в научных журналах, 8 статей в рецензируемых тематических сборниках и рецензируемых сборниках научных трудов Международных конференций и 8 тезисов докладов на Международных и Республиканских научных конференциях. Общее число страниц в публикациях — 77.

В число публикаций не включены 4 статьи в сборниках трудов конференций аспирантов и студентоп и 3 заключительных отчёта по НИР, в которых также публиковались результаты диссертации.

Структура и объём диссертации. Диссертация состоит из введения, общей характеристики работы, четырёх глав, заключения, двух приложений и списка использованных источников. Общий объём диссертации — 125 страниц машинописного текста, включая 11 рисунков на 5 страницах, список использованных источников на 10 страницах, включающий 116 наименований, и два приложения, совместно занимающих 10 страниц.

ОСНОВНОЕ СОДЕРЖАНИЕ

Во введении обоснована актуальность выбранной тематики диссертационного исследования, сделан обзор имеющихся в литературе к настоящему моменту результатов по теме работы и выделены классы актуальных задач в рамках исследуемого направления.

В главе 1 сформулирована общая гипотетическая модель байесовского статистического прогнозирования (раздел 1.1). Пусть на заданном вероятностном пространстве (П, Т, Р) определены три случайных элемента: 1) ненаблюдаемый вектор параметров в — (#;) £ 0 С истинное значение которого не известно и является случайным вектором с гипотетической априорной плотностью распределения вероятностей (п.р.в.) 7г°(0); 2) стохастически зависящий от в вектор наблюдений х = (хг) С X £ с гипотетической условной п.р.в. р°(х | 0); 3) неизвестная, подлежащая прогнозированию величина у £ У С К:, стохастически зависящая от 9, х. п распределённая согласно гипотетической условной п.р.в. д°(у \ х, в). Задача заключается в построении прогноза у = /(х) для величины у по наблюдениям х, где у £ У — значение прогноза для у £ У, а /(•): X —> У — некоторая статистика (борелевская функция Т переменных). Для упрощения обозначений будем полагать X = {х : р°(х) > 0}, гдер0(:Е) = 1хР°{х | #)7Г°(6>)Л9 — гипотетическая п.р.в. вектора наблюдений. Для удобства применения теории экстремумов предполагается также, что X и 0 компактны. При оптимизации по пространству Е* условимся пополнять его бесконечно удалёнными

точками, то есть заменять множеством Й*, где Й = [—оо, +оо] гомеоморфно

ИД]-

Точность прогнозирования с помощью прогнозирующей статистики (п.с.) /(•) характеризуется функционалом гипотетического риска (сред-неквадратической ошибки прогнозирования): 1"0(/(-)) = Ео{(/(а') — у)2}; через Ео {•}, Во {■} здесь и далее обозначены математическое ожидание и дисперсия, вычисленные по гипотетическому распределению вероятностей. Минимум этого функционала обеспечивает байесовская п.е.:

/о(х) = Е0 {у | х} = ¡у уЧ\у | х)йу, хеХ, (1)

где д°(у | х) — гипотетическая байесовская прогнозная п.р.в.

В разделах 1.2, 1.3 рассматриваются два часто используемых на практике частных случая общей гипотетической вероятностной модели — временной ряд (ВР) с трендом и ВР авторегрессии порядка т (АР(т)). Построены байесовские прогнозирующие статистики в предположении о гауссовости априорного распределения вероятностей вектора параметров (теоремы 1.1, 1.2). Кроме того, удалось получить аналитическое выражение байесовской прогнозирующей статистики (теорема П.2.1) для ВР АР (т.) с коррелированными остатками; данное выражение позволяет судить о том, что байесовский прогноз, построенный с помощью (1), не всегда совпадает с "подстановочным" байесовским прогнозом, и, как следствие, — о различии задач байесовского оценивания параметров и прогнозирования.

В разделе 1.4 обосновывается необходимость исследования робаст-ности (устойчивости) в байесовском прогнозировании и предлагаются типовые модели искажений гипотетических вероятностных распределений. Пусть п.р.в. Ьх(и), /12(и) определены на множестве II. Рассматриваются следующие три функционала (метрики):

Рс(и) (Ч-), МО) = зириеи (14«) - Ч«)1М«)) - (2)

расстояние между плотностями распределения вероятностей Л1 (-) и /¿2(-) в пространстве С(11) непрерывных на множестве {7 функций с весом 1 /ги(и), и>(и) > 0, и 6 II, характеризующее наибольшее значение относительного точечного взаимного уклонения плотностей;

РХ> (40, л2(-)) = ¡0 ((Мы) - («)) ¿и - (з)

псевдометрика, называемая в математической статистике х2-метрикой;

= (4)

интегральная метрика в нормированном векторном пространстве Ьь Пусть гипотетические п.р.в. тг°(0), р°(х | в), у°(х,0) = р°(х \ в)к°(в), х 6 X,

в £ О известны с искажениями: прогнозируемое явление характеризуется соответственно п.р.в. п£{в) 6 П, р£(х \ 0) G Р, vs(x,9) £ F; П, Р, F — семейства допустимых искажений. В данной работе исследованы следующие типы искажений, определяемые заданием семейств П, Р, V при заданном наибольшем уровне искажений е+ > 0:

Mi) П — £+-окрестность гипотетического центра тг°(-) в метрике (2):

П = {Пе: 0<<T<<4.}, Пе = {тг*(.): Р^в) {Л), **(•)) = ! (5)

П£ — гиперсфера радиуса г, а П — гипершар радиуса s+; Ah) П — семейство смесей Тьюки-Хыобера:

П = {Пг : 0 < е < е+} , Пг = {тге(-) : тг£(0) = (1 - е)п\в) + , (6)

где е £ [0,1) — вероятность появления "выброса" ("засорения"), я(9) — произвольная "засоряющая" п.р.в.;

Мз) П — е+-окрестность гипотетического центра 7Г°(-) в х2-метрике (3):

П = {П£: 0 <£<£+}, П£ = {тг£(.): /уИ'), тг£(-)) = е2} ; (7) Mi) П — е+-окрестность 7г°(-) в метрике (4) пространства Li:

П = {П, : 0 < ¿г < е+} , Пе = {тг£(-) : Рф°(-)У(-)) = е},е+<2; (8) М-й) Р — семейство смесей Тьюки-Хьюбера:

Р = {РЦ- | •) : р'{х | в) = (1 - е)р\х | в) + ер(х | в), £ е [0,<г+]}, (9) где р(х | в) — произвольная "засоряющая" п.р.в.;

Мб) V — г+-окрестность гипотетического центра г;°(-, •) в С-метрике (2):

V = {Ve: Ve = {«e(v): Рс(Ххе)И-Л«Ъ'))=г}; (10)

My) V — £+-окрестность v°(-, ■) в х2-метрике (3):

V = {VS: 0<е<е+}, Vs = (■, ■) : /у(Л",-)У(; ")) = 4 ■ (П)

В разделе 1.5 при наличии искажений гипотетической модели исследованы свойства функционала риска прогнозирования

r(/(-);/(-)) = E{(/(x)-y)2}, se(x,y)=JQ90(y\x,eW(x,6)d9. (12)

Вводятся следующие характеристики робастности прогнозирования с помощью произвольной п.с. /(•): функционал верхнего риска г+(/(-)):

г(/(0; *'(•)) <»■+(/(■)), Vi'(-)6S, - (13)

верхняя граница множества значений, функционала (12), где S — семейство допустимых искажённых совместных п.р.в. наблюдений и прогнозируемой величины, однозначно определяемое по искажениям М\ — М?; функционал гарантированного верхнего риска:

r^/(0) = suP,(.)eSr(/(.);se(-)); (14)

г+-робастная п.с. /*(•), минимизирующая функционал верхнего риска:

r+(/*(.)) = inf/(.jr+(/(.)); (15)

робастная (по минимаксу) прогнозирующая статистика /*(•):

^(A(0) = jnfr, (/(•))• (16)

Во второй главе для моделей искажений М\ — М\ априорной п.р.в. 7г°(-) решаются задачи анализа робастности байесовского прогнозирования и строятся новые робастные п.с. Кроме того, оценивается выигрыш в устойчивости построенных п.с. по сравнению с байесовской п.с. (1).

В теореме 2.1 построено выражение для функционала верхнего риска (13) при искажениях (5) априорной п.р.в. в С-метрике с весом (2). Следствие 2.2 утверждает, что байесовская п.с. (1) является г+-робастной п.с. относительно построенного функционала верхнего риска: /о (я) = /* (ж), х G X. Для получения аналитического выражения функционала гарантированного верхнего риска (14) класс (5) погружается в более широкий класс допустимых искажений гипотетической вероятностной модели. Обозначим:

П(/(•);= JJy^V I 0){f{x)-y?dydx, в G 0,

s°(x,y | 9) = д°(у | x,9)p°{x | в), х G X, у G У, 9 G ©; ©, = {06 0: n(f(-y,9)>z},

z* — min jz G IR+ : JQ ^ тг°(0)<Ю = min (1/(1 +£+), 1/2) J .

Теорема 2.2. Если искажения модели заданы (5), и при этом 7ге(-) может иметь разрывы лишь первого рода, то для произвольной п.с. /(■): X —> Y, для которой го(/(-)) < оо, функционал гарантированного верхнего риска (Ц) допускает представление:

»•♦(/(•)) = М/(-))+е+ / / n(f{-y,9)v\-)d9.

е.. е\е,.

В разделе 2.2 при искажениях (6) Тьюки-Хыобера априорной п.р.в. 7г°(-) получено выражение функционала гарантированного верхнего риска.

Обозначим: Ф(х,у) = 5ирйе0 5°(:г, у | 9), х е X, у Е У, з°(х,у \ 9) = д°(у | х,в)р°{х | в), р°(х) = ¡вР°(х | в)тг°(в)ёв.

Теорема 2.3. Пусть семейство п.р.в П задано (6). Тогда функционал г+(/(')) = С1 ~ £+)го(/{■))+£+ ¡х 1у^{х,у)(/(х) - у^йуйх является функционалом верхнего риска, и г+-робастной по отношению к этому функционалу является п. с.

В разделе 2.3 исследована модель (7) искажений в \'2-метрике (3). Получено аналитическое выражение функционала гарантированного верхнего риска(хеорема 2.4), и согласно следствию 2.6, г*(/(-)) — го(/(-)) = е+УБо {г1 (/(•); 0)}. Построено интегральное уравнение относительно ро-бастной к х2-искажениям п.с. (теорема 2.5), а в следствии 2.8 получен явный вид одношагового приближения /(!)(■) робастной п.с. /*(•). В теореме 2.6 доказано, что абсолютное уклонение п.с. /]_(■) от /о(-) имеет по е+ первый порядок малости. Доказано также (теорема 2.7), что выигрыш в гарантированном верхнем риске при использовании п.с. ¡\{-) по сравнению с /„(■) имеет по £+ второй порядок малости.

В разделе 2.4 анализируется модель искажений (8) априорной п.р.в. в Ьх-метрике (4). Дополнительно предполагается, что тг°(-) не имеет разрывов второго рода и может иметь разрывы лишь первого рода на множестве нулевой меры Лебега. В теореме 2.8 для такого типа искажений получено выражение функционала верхнего риска, а в теореме 2.9 — для функционала гарантированного верхнего риска. При фиксированных искажениях гипотетической вероятностной модели построена п.е., минимизирующая риск прогнозирования, и её асимптотическое по е+ разложение (теорема 2.10, следствие 2.10). Лемма 2.1 и теорема 2.11 при фиксированных искажениях модели дают асимптотические разложения для функционалов условного и безусловного рисков прогнозирования. Введём обозначения:

ф, 9) = /у у'д°{у | аг, 9)<1у, г = 1,2, (я, в) = /Ы*,9) ~ /*?(*. ^

А(х, в) = р\х | 9) (Д2 (х, 9) + Ых, 9) - /0(х))2) , С(х,9)=р°{х\9)Ых,9-/0(х))), хеХ, 9 ев. Теорема 2.12. Если искажения п.р.в. 7Г°(-) удовлетворяют (8), то ро-бастная п.с. (16) допускает асимптотическое разложение:

/,(х) = /о{х) + + 0{е\), 9+ = агВшахйее А(х,9), х е X.

В главе 3 рассматривается случай, когда искажениям (9) — (11) подвержено гипотетическое распределение вероятностей вектора наблюдений. В разделе 3.1 предполагается, что п.р.в. р°(х | в) подвержена искажениям (9) типа "выбросов" Тьюки-Хьюбера. Обозначим функционал условного риска при фиксированных х, в:

r2(/(.);i,fl) = g°(y I х,^)(/(х) - y)2dy > 0, хех,в£в.

Теорема 3.1. Если семейство смесей Тьюки-Хьюбера (9) является семейством допустимых искажённых п.р.в. Р, то функционал (Ц) гарантированного верхнего риска прогнозирования с помощью п.с. /(•) допускает представление:

'.(/(О) ^ (1 - е+МД-)) + £+ JeAeMf(-YAx+)d9,

где х+ = aigmaxx€X r2(f (•); 9, х).

Построена новая п.е., основанная на усечении байесовской прогнозной плотности, устойчивая к искажениям (9) (в смысле конечности риска прогнозирования), и исследованы её свойства (теорема 3.2).

Случай искажений (10) совместной п.р.в. v°(x,d) в С-метрике с весом (2) исследован в разделе 3.2. В теореме 3.3 построен функционал верхнего риска прогнозирования; по отношению к этому функционалу байесовская п.с. (1) является г+-робастной: fo(x) = f*(x), х G X (следствие 3.3).

Далее рассмотрен случай, когда искажения п.р.в. v°(x,û) порождены искажениями тг°(0), р°(х | б).

Теорема 3.4. Пусть семейства П, Р для некоторых £j+ > 0, еi+ > 0 являются окрестностями гипотетических центров в С-метрике с весом (2):

П={Пе1: 0<е1<е1+}, П., = {**(•) : рЙе,(т0(-),'г£(-)) = ^}>

Р = {Ре>: 0 <Ъ< ^2+}, Ре> = {ре(- I ') ^ $(Х)(Р°(- I ■),**(■ I •)) = £2} ■

Тогда функционал r+(/(-)) = (1 + ei+)(l + £2+)го(Я')) является функционалом верхнего риска (13).

Из теоремы 3.4. следует г+-робастность байесовской п.с. и в этом случае.

Раздел 3.3 посвящён робастности байесовского прогнозирования при ^-искажениях (11) совместной п.р.в. v0(x,6). Обозначим уклонение условного риска:

Г2 (Я-);М) = г2(Я-);М) - Ео ЫП-);х,в)}, х е X, 0 е 6.

Введём условное критическое значение параметра искажений (11): V(/(-)) = Vko{r2(/(-);M)}/ sup I r°2 (/(■);.-г,0)|.

хех,вев

Теорема 3.5. Если гипотетическая модель подвержена х2-искажениям (11), уровень искажений € [0, (/(■))], а п.с. /(•) такова, что го(/(')) < то функционал гарантированного верхнего риска (Ц) допускает представление: г*(/(-)) = ?"о(/(-)) + e+^Do {r-z{f{-); х, $)} и достигается на экстремальной п.р. в. v*(x, 9) — v°(x, ö) (1 -j—^pUh'iBÄL—

В теореме 3.6 получено интегральное уравнение для робастной к искажениям в х2-метрике (3) п.с. (16), позволяющее строить итерационные процедуры для вычисления /»(•)• Одношаговое приближение к /„(•) приведено в следствии 3.6. Примем следующие обозначения:

h\y,9 I х) = s°{x,y I в)тг\в)/р\х), y&Y,e ев, хех,

R{x) = /0/у^°М I (/(•); х,в) - /0 h I x)d§yydo,

е** — inf £*(/(•)) — безусловный критический уровень искажений. Теорема 3.7. Пусть допустимые искажения модели заданы (11) для некоторого уровня искажений е+ £ [0,е**]. Тогда справедливо следующее асимпототическое разложение:

fx{x) - f0(x) = £+ • , 1 ===Д(а;)-

\/E>o{ri(f0(-y,x,6)}

' D7ымш1h I x)d9R(x) + 0(4), x € X.

Теорема 3.7 фактически утверждает, что если

МТ{хеХ: Щх)ф0}>0, (18)

то абсолютное уклонение п.с. Д(-) и /о(-) имеет первый порядок малости по е+ (через Мт{А} обозначена мера Лебега множества А в Мт).

С помощью лемм 3.1, 3.2 доказано следующее утверждение. Теорема 3.8. Если гипотетическая модель подвержена х2-искажениям (И) при е+ £ [0, г**], то выигрыш в функционале гарантированного верхнего риска (Ц) для одношагового приближения Д(-) к робастной п.с. в сравнении с байесовской п.с. (1) удовлетворяет разложению:

Г*(/1(0) - г.(/о(-)) = -4 • Ео {Д2(*)} / Во {г2(/о(-); х, 0)} +0(4),

то есть при выполнении (18) имеет, по е+ второй порядок малости.

Приводится связь е** с коэффициентом вариации условного риска, а также графическая иллюстрация х2-искажений гауссовских п.р.в.

Четвёртая глава посвящена робастному байесовскому прогнозированию временных рядов для двух гипотетических моделей, широко используемых на практике, — трендовой и авторегрессионной. В разделе 4.1 рассматривается модель ВР с трендом:

= t £ S = {I,... ,Т,Т + т}, {6} - i.i.d., £{6}=M(0,cr2),

где т — длина интервала прогнозирования, тг°(0) = пт(в | а, А), 0 = Rm, X — Rr, Y — R] у ~ Х'г+т- С учётом следствия 2.2 построена г+-робастная байесовская п.с. при искажениях (5). В теореме 4.1 получено явное выражение г+-робастной байесовской п.с. (17) при искажениях (6) типа Тьюки-Хьюбера в виде: f*(x) = (fa{x) + / (l + yrt^/W), гДе Для

статистик f{x), f(x) получены аналитические выражения, а байесовская п.с. /„(■) построена в теореме 1.1.

В разделе 4.2 построены г+-робастные байесовские п.с. для гипотетической модели BP АР (т):

т

= {6} = er2), ¿е{1,2,...,Т+1}, (19)

1=1

в предположении, что тг°(0) = пт(в \ а,А), Q = Ш.т, X = Мг, Y — R; у — хт+1- Через х% обозначим вектор т-"предыстории": xt — (xt,xt~i,... ,xt-m+i)', t € {0,1,...,T}; щ — известный вектор начальных значений. Предположим, что Обозначим:

= С(х) = EL^^-i; Fix) = -s-1(«)C(®),

G(x) = -E-'^xr, Ft(x) = F'(x)xu Gt(x) = G'(x)xt, £ e {0,1,... ,T}; a(x) = +

b(x) = (2FT{x){l - GT(x)) - Eh Gt-1(x)(xt+2Ft-1(x))) / (2a2(x)) ,

1 iX

Ф) = (£ (*) + + 2^^.1(3;)) - а\х)Ъ\х)J , х е X.

Теорема 4.2. Если искажения гипотетической модели (19) принадлежат семейству смесей Тъюки-Хъюбера (6), Т > тп, то г+-робастный байесовский прогноз определяется статистикой:

= (1-е+)/о {х)+е+ЬЩх) =_е^)_

В разделе 4.3 приводятся результаты вычислительных экспериментов, проведённых с помощью разработанной автором библиотеки компьютерных процедур "РБАР". На примере гипотетической модели ВР АР был проведён сравнительный анализ устойчивости трёх прогнозирующих статистик: 1) п.е., основанной на априорном среднем векторе а случайных коэффициентов: у = }\{х) = —а'хт; 2) "подстановочной" п.е., основанной на МНК-оценке вектора коэффициентов АР: у = /2(х) = —в'хт,

в = (Е^о1^;^) Е ^¡¿г-ь 3) байесовской п.е., построенной в теореме 1.2 (эта п.с. является г+-робастной к искажениям (5), (10) в С-метрике с весом), при этом п.с. Д(-), /2(-) представляют собой два крайних случая в смысле использования априорной информации. Исследовались два типа искажений: а) искажения априорной п.р.в. заданные в С-метрике

с весом и с помощью модели "выбросов" Тыоки-Хыобера; б) искажения совместного распределения вероятностей параметров и наблюдений, описываемые моделью "выбросов" Тьюки-Хьюбера в распределении вероятностей вектора параметров и в наблюдаемых значениях. В обоих случаях при использовании байесовская п.с. функционал риска принимал наименьшее значение, п.с. ¡\(-) и /%(■) показали неудовлетворительные результаты в случаях а) и б) соответственно.

В разделе 4.4 приводятся результаты применения алгоритмов г+-робастного байесовского прогнозирования ВР, реализованных автором в пакете прикладных программ по статистическому прогнозированию СТАТ-ПРО (разработка НИЛ статистического анализа и моделирования Белгос-университета) при решении двух практических задач.

В приложении 1 приводится описание ППП СТАТПРО и его разделов, в которых реализованы разработанные автором алгоритмы робаст-ного байесовского прогнозирования временных рядов. Приведено также описание библиотеки компьютерных процедур "РБАР", предназначенной для проведения вычислительных экспериментов по анализу устойчивости алгоритмов прогнозирования ВР. Прилагаются документы, подтверждающие внедрение результатов.

В приложении 2 доказана теорема П.2.1, в которой при искажениях (5), (10) построена г+-робастная байесовская п.с. для гипотетической модели, представляющей собой ВР АР(т) с коррелированным обновляющим процессом.

ЗАКЛЮЧЕНИЕ

В результате проведённых диссертационных исследований получены

следующие основные результаты:

1. Предложены новые для байесовского статистического прогнозирования модели искажений гипотетических вероятностных распределений наблюдений и случайных параметров, задаваемые в виде е-окрестностей в функциональных пространствах априорных, условных и совместных плотностей распределения вероятностей в С-метрике с весом, Ц- и метриках [3] - [5], [9] - [12].

2. Доказаны теоремы, дающие новые аналитические выражения, асимптотические разложения и оценки для функционала гарантированного верхнего риска при искажениях гипотетических распределений вероятностей параметров модели и наблюдений [2], [4], [5], [7], [12], [14], [16] — [18].

3. Впервые построены точные выражения и асимптотические разложения для робастных и г+-робастных байесовских прогнозирующих статистик при искажениях априорного распределения вероятностей вектора параметров, условного распределения вероятностей наблюдений при заданном векторе параметров и совместного распределения вероятностей параметров и наблюдений, а так лее доказано свойство г+-робастности традиционно используемой байесовской прогнозирующей статистики, определяемой как апостериорное среднее по гипотетической байесовской прогнозной плотности [2], [5], [7], [12], [14], [17].

4. Вычислены оценки выигрыша в риске прогнозирования при использовании новых робастных байесовских статистик по сравнению с традиционно используемой статистикой, построенной по гипотетической байесовской прогнозной плотности [2], [10], [17].

5. Получены новые аналитические выражения г+-робастных байесовских прогнозирующих статистик при искажениях типа Тьюки-Хьюбера и искажениях в С-метрике гипотетических распределений вероятностей для двух широко используемых на практике гипотетических моделей временных рядов: трендовой и авторегрессионной [1], [6], [7], [13] — [15].

6. Алгоритмы и программы г+-робастного байесовского прогнозирования временных рядов при равномерных искажениях гипотетического совместного распределения вероятностей параметров модели и наблюдений реализованы в виде компьютерных процедур в в ППП по статистическому прогнозированию СТАТПРО [8].

Таким образом, в совокупности указанные выше результаты позволили решить в теории байесовского статистического прогнозирования важную научную задачу анализа робастности известных прогнозирующих статистик и построения новых, робастных к функциональным искажениям гипотетической вероятностной модели, прогнозирующих статистик.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ

[1] Харин А.Ю. О робастности байесовского прогнозирования временных рядов // Вестник БГУ. Сер. 1. Физ., мат., инф. 1999. № 2. С. 57 — 62.

[2] Харин А.Ю. О робастности байесовского прогнозирования при х2 — искажениях совместного распределения параметров и наблюдений // Весщ Нацыянальнай Акадэмн навук Беларусь Серыя ф1з.-мат. на-вук. — 1999. — № 3. — С. 35 — 37.

[3] Соколик И.Ю., Харин А.Ю. Статистический метод диагностики спортивной одарённости юных спортсменов // Ежегодник "Экологическая антропология". — Минск: Изд-во Белорусского комитета "Дети Чернобыля", 1996. — С. 340 — 344.

[4] Харин А.Ю. Об устойчивости прогнозирования с использованием байесовской прогнозной плотности // Pattern Recognition and Information Processing: Proceedings of the IV International Conference / Ed. by J. Sol-dek et al. — Szczecin: Informa, 1997. — T. 2. — C. 170 — 174.

[5] Харин А.Ю. Риск байесовского прогнозирования и априорная информация // Сборник трудов Международной летней школы-семинара по искусственному интеллекту для студентов, аспирантов и молодых учёных. — Минск: Б ГУ ИР, 1997. — С. 243 — 250.

[6] Kharin A. Robustness of Bayesian Prediction for Two Models of Time Series // Computer Data Analysis and Modelling / Ed. by S. Aivazyan. — Minsk: BSU, 1998. — Vol. 1. — P. 112 — 119. (Прореферирована в международном журнале "Statistical Theory and Method Abstracts", Dordrecht: IMS, 1999, Vol. 40, No 1. P. 1203).

[7] Galinskij V., Kharin A. On Minimax Robustness of Bayesian Statistical Prediction // Probab. Theory and Mathemat. Statistics / Ed. by B. Grige-lionis et al. — Vilnius/Utrecht/Tokio: VSP/TEV, 1998. — P. 259 — 266.

[8] Абрамович M.C., Галинский B.A., Харин А.Ю. и др. Пакет программ по статистическому прогнозированию // Компьютерный анализ данных и моделирование / Под ред. С.А. Айвазяна. — Минск: Изд-во БГУ, 1998. — Ч. 3. — С. 13 — 17.

[9] Kharin A. Robust Algorithms of Bayesian Forecasting // Pattern Recognition and Information Processing: Proceedings of the V-th International Conference, National Academy of Sciences, Minsk, 1999 / Ed. by R. Sadykhov et al. — Szczecin: Informa, 1999. P. 73 — 77.

[10] Харин А.Ю. Робастное байесовское прогнозирование при искажениях априорных и условных распределений // Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. — Вып. 13. — Пермь: Изд-во Пермского госуниверситета, 1999. — 11 с. (Публикуется также на англ. языке изд-вом "Plenum Publishing Corp.", New York.)

[11] Харин А.Ю. Об одном методе статистического прогнозирования с использованием расстояния Махаланобиса // Актуальные проблемы информатики: математическое и программное обеспечение: Материалы V Межд. научной конференции / БГУ. — Минск, 1996. — С. 122.

[12] Харин А.Ю. Робастное байесовское прогнозирование и его применения // Тезисы докладов III Респ. науч. конференции аспирантов и студентов Беларуси. — Минск: БГУ, 1997. — Ч. 56. — С. 114 — 116.

[13] Харин А.Ю. Метод робастного прогнозирования авторегрессионных временных рядов // Математика и ЭВМ'98: Материалы Брестской региональной научно-практической конференции молодых учёных. — Брест: БрГУ, 1998. — С. 18 — 19.

[14] Galinskij V., Kharin A. On Minimax Robustness of Bayesian Prediction // 7th International Vilnius Conference on Probability Theory and Mathematical Statistics & 22nd European Meeting of Statisticians / Ed. by E. Zalys. — Vilnius: TEV, 1998. — P. 209 — 210.

[15] Kharin A. On Robust Bayesian Forecasting of Autoregressive Time Series // Classification and Information Processing at the Turn of the Millennium: Abstracts volume of the 23th Conference. — Bielefeld: University of Bielefeld, 1999. — P. 37.

[16] Kharin A.Yu. On Robust Bayesian Forecasting under Distortions in x2 — metric // III Skandinavian-Ukrainian Conference on Probability Theory and Statistics: Abstracts of Lectures / Institute of Mathematics of National Academy of Sciences of Ukraine. — Kyiv, 1999. — P. 56.

[17] Kharin A. Robustness of Bayesian forecasting under distortions of likelihood and prior in x2-metric // Bulletin of the International Statistical Institute, Helsinki, 1999. — Tome LVIII. — P. 129 —130. (http://www.stat.fi/isi99/proceedings.html)

[18] Kharin A. On Asymptotically Robust Bayesian Forecasting of Time Series with a trend // Abstracts of the 6th Tartu Conference on Multivariate Statistics. — Tartu: Tartu University, 1999. — P. 28.

19

РЭЗЮМЭ

Харын Аляксей Юр'евш

Рабаснасць у баесаусюм статыстычным прагназавашп пры скажэнпях 1мавернасных размеркаванняу

Ключавыя словы: баесаускае прагназаванне, рабаснасць (устой-Л1ва,сць), гшатэтычная ¡мавернасная мадэль, скажэнш, рызыка.

У дысертацьп даследуецца рабаснасць статыстычнага прагназавання на падставе баесаускага падыхода пры наяунасш скажэнняу гшатэтычных ¡мавернасных размеркаванняу. Сфармуляваны новыя для баесаускага статыстычнага прагназавання мадэл1 скажэнняу гшатэтычных 1мавернасных размеркаванняу, што задагоцца праз е-суседствы у функциональных прас-торах шчыльнасцяу размеркавання ¡мавернасцяу пры дапамозе С-метрьш з вагой, х2-1 Ь1- метрык. Упершыню атрыманы дакладпыя выразы, ацэнй 1 аамптатычныя разлажэнш для функцыянала гарантаванай верхняй ры-зык1 пры скажэннях апрыёрнага, сумеснага 1 умоунага размеркаванняу ¡мавернасцяу. Пабудаваны новыя рабасныя (устойл1выя) па крытэрьй м1шмакса прагназуючыя статыстыю I ацэнены выйгрыш, што яны да-юць у рызыцы прагназавання у параунанш з гшатэтычнай баесаускай статыстыкай. Для двух шырока выкарыстоуваемых на практыцы асоб-ных выпадкау гшатэтычнай мадэл1 — часавых паслядоунасцяу з трэндам I аутарэгрэсшных часавых паслядоунасцяу — знойдзепы яуныя выразы рабасных баесаусюх прагназуючых статыстык. Уласщвасщ устошпвасщ пабудаваных рабасных прагназуючых статыстык падцверджаны вышкам1 статыстычнага мадэл!равання. Алгарытмы рабаснага баесаускага прагназавання часавых паслядоунасцяу рэал1заваны у ППП па статыстычнаму прагназаванню СТАТПРО.

20

РЕЗЮМЕ

Харин Алексей Юрьевич

Робастность в байесовском статистическом прогнозировании при искажениях вероятностных распределений

Ключевые слова: байесовское прогнозирование, робастность (устойчивость), гипотетическая вероятностная модель, риск.

В диссертации исследуется робастность статистического прогнозирования с использованием байесовского подхода при наличии искажений гипотетических вероятностных распределений. Сформулированы новые для байесовского прогнозирования модели искажений гипотетических вероятностных распределений, задаваемые посредством ¿-окрестностей в функциональных пространствах плотностей распределения вероятностей с помощью С-метрики с весом, х2- и Li-метрик. Впервые получены точные выражения, оценки и асимптотические разложения для функционала гарантированного верхнего риска при искажениях априорного, совместного и условного распределений вероятностей. Построены новые робастные (устойчивые) по критерию минимакса прогнозирующие статистики и оценен даваемый ими выигрыш по сравнению с гипотетической байесовской статистикой. Для двух широко используемых на практике частных случаев гипотетической вероятностной модели — временных рядов с трендом и авторегрессионных временных рядов — впервые найдены явные выражения робастных байесовских прогнозирующих статистик. Свойства устойчивости построенных робастных прогнозирующих статистик подтверждены результатами статистического моделирования. Алгоритмы робастного байесовского прогнозирования временных рядов реализованы в ППП по статистическому прогнозированию СТАТПРО.

SUMMARY

Kharin Alexey Yurievitch

Robustness in Bayesian statistical forecasting under distortions of probability distributions

Key words: Bayesian forecasting, robustness, hypothetical probability model, distortions, risk.

Robustness of statistical forecasting based on the Bayesian approach is considered in the dissertation under distortions of hypothetical probability distributions. The distortion models new for the Bayesian prediction are formulated via ^-neighbourhoods in the spaces of probability density functions using C-weighted metric, and Li-metrics. Exact expressions, estimates and asymptotic expansions for the guaranteed upper risk functional are discovered under distortions of prior, joint and conditional probability distributions. The new robust (by the minimax criterion) prediction statistics are built and also the gain in the prediction risk, caused by them, is estimated in comparison with the hypothetical Bayesian prediction statistic. For the two widespread in practice specifications of the hypothetical model (time series with a trend and autoregressive time series) analytical expressions for the robust Bayesian prediction statistics are found out. The robust properties of prediction statistics constructed in the research are illustrated through the statistical modelling. Algorithms of robust Bayesian time series forecasting are incorporated into the software package STATFOR for statistical forecasting.