Некоторые стохастические дифференциальные игры при нескольких целевых множествах тема автореферата и диссертации по математике, 01.01.02 ВАК РФ

Степарян, Ваграм Калантарович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Ереван МЕСТО ЗАЩИТЫ
1994 ГОД ЗАЩИТЫ
   
01.01.02 КОД ВАК РФ
Автореферат по математике на тему «Некоторые стохастические дифференциальные игры при нескольких целевых множествах»
 
Автореферат диссертации на тему "Некоторые стохастические дифференциальные игры при нескольких целевых множествах"

р Г Б ОЛ

1 6 пнп

ьгьаиъг» ь б и ч и ъ гиииьиигиъ

УДК 517.977

озьфаъзаъ чачгист еашъ»агь

Сшт 11ЦШ1ПШ1{Ш]]1'Ь ршч^шр/шЪ'иЪрт} 11)1 рш1ф шлп}ишшл{11| 1)[1фЬрЫ1д|1Ш[ [ииицЬр

ЦшиЪшч^тт^шЪр' 01. 01. 02 - ТффЬрЬид^ш; Ьш^шатрппШЬр

ЗДс^^т-^шрЪишт^^ш^ш'Ь финирртЛЛЛр!! рЫ^шйпф |}{)шт1{шЬ шит^Йш!1(1 Ьш;д11шТ1 ттЬЪш^птиррлЪ

1) Ь 1 И и Ч Г1 Р

Ы1 Ь 4 II 1, 1994 р.

ЕРЕВАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи УДК 517.977

СТЕПАНЯН БАГРАМ КАЛАНТАРОВИЧ

Некоторые стохастические дифференциальные игры при нескольких целевых множествах

Специальность - 01.01.02 - дифференциальные уравнения

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-иатематических наук

ЕРЕВАН 1994г.

Работа выполнена на кафедре теоретической меха? «я Ереванского Государственного Университета.

Официальные оппоненты: - доктор физико-математических наук,

профессор Енгибарян Н.Б.

Ведущая организация - Санкт-Петербургский государственный

университет

Научный руководитель - доктор физико-математических наук,

профессор Габриелян М.С.

часов на заседании специализированного Совета К 055.13 при Ереванском государственном университете по адресу г.Ереван-49, ул Ал.Манукяна I

С диссертацией можно * познакомиться в библиотеке Ереванского государственного университета.

доктор физико-математических наук, доцент Оганесян А. А.

Защита диссертации состоится

Учёный секретарь специализированного Совета кандидат физико-математических наук, доцент

Арутюнян

Т

- 3 -

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы Теория диффэренциалных игр является сравнительно новым разделом математической теории оптимального управления, связанным с функционированием в условиях конфликта или неопределённости. Первые игровые задачи динамики были исследованы Р.Айзексом с помощью метода динамического программирования. На основе этого метода им было выведено уравнение, которое в дальнейшем подучило название уравнения Аязекса-Беллмана.

Существенный прогресс теории детерминированных дифференциальных игр связан прежде всего с именами советских математиков. Крупные результаты в этой области этой теории были получены Л.С.Понт-рягиным, Н.Н.Красовским, Е.Ф.Мшценко, Б.Н.Пшеничным, Ю.С. Осипо-вым, А.И.Субботиным,П. Б.Гусятниковым, Л.А.Петросяном, М.С.Никольским, Н.Ю.Сатимовым, Ф.Л.Черяоусько, А.А.Чикрией, А.Б.Куржанским, А.В.Кряжимским, А.Г.Ченцовым и др.

Позиционный подход к дифференциальным играм, разработаный Н.Н.Красовским и его школой, позволяет с помощью принципа экстремального прицеливания решать игровые задачи с точки зрения игрока-союзника без дискриминации противника, в частности, доказать ряд утверждений (в форме альтернатив) о существовании ситуаций равновесия <е-равновесия) в позиционных дифференциальных играх, описываемых системами обыкновенных дифференциальных уравнений, системами с памятью, эволюционными системами, системами уравнений в частных производных и дифференциально-функциональных уравнений.

Новое направление в теории детерминированных дифференциальных игр изучен в работах М.С.Габриелям, В этих работах решена

задача сближения-уклонения с несколькими целевыми множествами в различных классах стратегий, имеющие "конечную" память о складовав-

шихся до текущего момента ситуаций в отдельные моменты времени, когда порядок встреч с целевыми множествами не фиксирован.

При исследовании стохастических дифференциальных игр возникают сложности, обусловленые трудностями создания конструктивных математических постановок и развития эффективных вспомогательных конструкций в общем случае присутствующего в игре вероятностного процесса с независимыми приращениями.

В последние годы ученными свердловской школы дана новая математическая постановка стохастической позиционной дифференциальной игры, доказано существование цены и седловой точки игры, указана структура оптимальных стратегий, разработан метод стохастического программного синтеза, установлена связь этого метода с другими известными подходами в теории дифференциальных игр.

В настоящей работе рассмотрены стохастические и детерминированные дифференциальные игры с поводырём при нескольких целевых множествах для линейных, собственно-линейных и нелинейных систем в классе стратегий с "конечной" памятью о складовавшихся до текущего момента ситуаций в отдельные моменты времени.

Целью работы является доказательство существования ситуаций равновесия <е-равновесия) и оптимальных стратегий в рассматриваемых дифференциальных играх, а также построение функции цены игры и оптимальных стратегий для линейных и собственно-линейных систем.

Методша исследования состоит б использовании способа управления с поводырем для доказательства альтернативного утверждения

<УГ

при стохастических процедур управлений, в использовании метода стохастического программного синтеза для построения функции цены игры и оптимальных стратегий.

Научная новизна Поставлены и решены новые задачи теории даф-

ференциальных игр при нескольких целевых множествах. Определены новые классы позиционных и программных стратегий с "конечной" памятью о складовавшихся до текущего момента ситуаций в отдельные моменты времени. Введены вспомогательные конструкции, позволяющие построить функцию цены игры и оптимальные стратегии достаточно эффективно для широкого класса детерминированных и стохастических дифференциальных игр.

Апробация работ. Основные результаты работы докладывались и обсуждались на ежегодных конференциях профессорско-преподавательского состава и аспирантов Ереванского госуниверситета в 1988-1992 гг., на семинарах кафедры теоретической механики в 1988-1992 гг., на семинаре кафедры дифференциальных уравнений и функционального анализа Ереванского госуниверситета в 1993г. на семинаре профессора Н.Б.Енгибаряна при центре математической физики Бюраканской абсерватории.

Публикации. Основные результаты диссертации опубликованы в работах г1-5э.

Структура и объем работы. Настоящая диссертационная работа содержит 163 страницы машинописного текста, включающих введение, три главы состоящих из 14 параграфов, заключение и библтографичес-кий список, содержащий 80 наименований.

Краткое содержание работы

Во введении обсуждается актуальность темы, дается краткий обзор работ, относящихся к задачам детерминированных дифференциальных игр с одним и несколькими целевыми множествами, к задачам стохастических дифференциальных игр, приводится краткое содержание разделов диссертации.

Первая глава посвящена дифференциальной игре сближения-уклонения с поводырем при ш целевых множествах, когда игроки свои стратегии выбирают из класса кусочно-позиционных, при формировании которых учитываются случайные величины, появляющихся в ходе измерений.

В §1.1. дается постановка задачи дифференциальной игры сближения с целевыми множествами мк ск=1,... ,пО внутри м, где «к и N заданные компактные множества из к"*1 и уклонения хотя бы от одного из них для систем нелинейных дифференциальных уравнений

(I)

где функция г удовлетворяет стандартным условиям существования, роста и Липшицевости а также условию седловой точки маленькой игры:

пи птах< 5 ■ ТС Ъ , х, и, уЗ> =тахпи п< 5-ГС , х, и, уЭ> (2)

иеруец уейиер

где &=гсг', а Рскр и ос®4- компактные множества, характеризующие возможности игроков. Платой игры является полунепрерывный снизу функционал

7<хе о )=о(а(х[ •]),... ,хт(хс • ])) (3)

где т:к (х[ -первый момент встречи движения х[ ■ з с целевым

множеством «. . 1

к

Предполагается, что реализующиеся в процессе игры фазовый вектор системы (I) измеряется каждым из игроков неточно, причем

л-* <л>

результаты этого измерения суть случайные величины хд[ы , равномерно распределенные в сфере радиуса ^ сч^.гэ с центром в точке где реализовавшееся на деле значение фазового вектора

системы (I).

Определяются стохастические процедуры управления с поводырем для первого и второго игроков, где управления игроков выбираются

из соответствующих экстремальных задач в ввде измеримых по Борелью функция по фазовым переменным.

Аппроксимационные задачи сближения и уклонения определяются следующим образом.

Определение I. Скажем, что выбранное первым игроком стохастическое управление с поводарем доставляет аппроксимационное решение задачи сближения с п> целевыми множествами к моменту если для любых чисел р<1 и е>о можно указать числа £се,рз>о и бее, р2>о такие, что рассматриваемое стохастическое управление с поводырем первого игрока, реализованное при выборе параметров

^г^се.рэ, б1=зирсги1-'с1э<бсе.рз <4)

для случайных движений хдс(,]=хдс • ^ ,хо,и°] гарантирует с вероятностью, не меньшей числа р, встречи внутри мс

Ct.it ГЪ1ЭеЫС, СЬ <Ь<Ъ,, ке1Э (5)

Д О к

и выполнение неравенства для любого числа с

■ х ,и°:э<с+е (6)

' Д о о

если только оно выполняется в начальный момент времени.

Определение 1.1.2. Скажем, что рассматриваемое стохастическое управление с поводырем второго игрока доставляет аппроксимационное решение задачи уклонения хотя бы от одного из целевых множеств мк внутри n. если при любом выборе чисел е>о и р<1 можно подобрать числа £се.рэ>о и бсе.рз>о такие, что рассматриваемое стохастическое управление с поводырем при

£2<£се,рЭ, бг=5ирС Т^-ЪЭ 2бс Е, рЭ (7)

гарантирует для случайных движений х с 1 ] =хдс -; , хо, ] выполнение с вероятностью не меньшей числа р, неравенства

тсхд -.ъ ,х ,у°зэ>с+е (8)

1 Д о о 1 '

- 8 -

Здесь г. узлы разбиения полуоси сьо,а£>.

В §1.2 сформулируется и доказывается следующая теорема об альтернативе для стохастических процедур управления с поводырем.

Теорема Т.Дяя любой начальной позиции с1о.хоэ и для любого числа с либо существует стохастическое управление с поводырем первого игрока, которое доставляет аппроксимационное решение задачи сближения с т целевыми множествами, либо существует стохастичес кое управление с поводырем второго игрока, которое доставляет аппроксимационное решение задачи уклонения.

Вторая глава посвящена дифференциальным играм для линейных систем, когда платой игры является функционал от траектории в заданные моменты времени.

В §2.1 дается постановка задачи дифференциальной игры для линейной системы

х « АСОх + ВСОи + ССО* (9)

с показателем качества

т 1/2 е п тп -

Т*'(ЕИ*'12) =12 ЕС*1®'Л <10>

>.=1 1|=и=»

где 1о=&о<©1<®2<... <»^=8 - заданные моменты времени.

Определяются кусочно-позиционные стратегии

и=иСЪ,ха>; 1=1.....ш.ез, 1=1 , . . . , т, е> (II)

и гарантированные результаты р'1>си(.*»-ь<1>.....ь<1>:,

р([у(-. . ,ь'1'] для первого и второго игроков соответственно .

Сформулируется следующая теорема

Теорема 2. Рассматриваемая позиционная дифференциальная игра имеет цену р° <ъж ,хж ,ьш,.., ьаЪ =ш! п Р'и [ис ■ э; сж ,ь'\\ . , ь'1>]

= шах ^[уС О^.х^.ь'1',. . . , Ь(1>] И СбДЛОВуЮ ТОЧКУ <и° ( ■ ),х°< - )>.

V < - >

Вводятся вспомогательные конструкции для г-модели и доказывается близость движений системы (9) и г-модели, выбирая управление для системы <9) и г-модели из соответствующих экстремалйных задач.

В §2.2. оцениваются гарантированные результаты первого и второго игроков с помощью функции р(11,1г,2<1>.....2<т>), которая задаётся априори с известными свойствами.

Доказывается, что функция р^.^.г'11.....г'™') является ценой игры, а оптимальные стратегии определяются соответственно из условий экстремальных сдвигов на совокупность сопутствующих точек первого и второго игроков соответственно, при этом сопутствующие точки определяются из соответствующих экстремальных задач для функции рО^.г'11,.. .

В §2.3. доказывается существование функции р^.^.г'".....

21т>), обладающей заданными свойствами.

В §2.4. рассматривается стохастическая дифференциальная игра для »-модели, которая описывается аналогично системы <9). Определяются стохастические частично-программные стратегии и(а.ш, м'11, ...,*<т>), ^(а.ш, «(1>.....«<т>), где ш=<£1.. • ■ . есть элементарное событие из вероятностного пространства <П.зз, ф> , а £ <^=1.....

кэ независимые в совокупности случайные величины, равномерно распределённые на полуинтервале о=$£ <1.

Затем определяется стохастический частично-программный макси-мин и экстремум, и доказываются две леммы о равенстве и липшице-вости по фазовым переменным этих величин.

В §2.5. исследуются свойства максимизирующих последовательностей, на которых достигается стохастический частично-программный экстремум.

В §2.6 доказывается свойство и-стабильности стохастического частично-программного экстремума на детерминированных движениях »-модели.

В §2.7. доказывается, что стохастический частично-программный максимин является ценой для соответствующей позиционной дифференциальной игры, рассмотренной в §2.1.

Третья глава посвящена позиционным дифференциальным играм в классе кусочно-смешанных стратегий для собственно-линейных систем, когда показатель качества является функционалом от траектории в заданные моменты времени.

В §3.1. дается постановка задачи дифференциальной игры для собственно-линейных систем

х=АСЪЭх+ГСЪ,и,*5 , I (12)

с показателем качества (9).

Определяются кусочно-смешанные стратегии ,х<1>;1=1.....

т.е> и г<сс1у|<..ха>,1=1.... ,т,вз для первого и второго игроков соответственно, где слабо измеримые по Лебегу по I и по Борелью по

переменным х"'.....х'т> функции цс • з, г*: о являются вероятностными

мерами, нормированными на, характеризующих возможности игроков, компактах р и й соответственно.

Определяются гарантированные результаты р'1' [|лс ■ з; , , ьш,

. . . , ь'1;] и р^гк - з 'Л^.х^.ь'11.....ь'1>] первого и второго игроков

и сформулируется следующая теорема:

Теорема 3.Рассматриваемая дифференциальная игра имеет цену

Р1 [ *'х»* .....Ь ° • • • ■•Ь ] =

=1пГра>01С 0-Лж,хв.Ь11>.....ъ'1>] и седловую точку <(1°С О,/сО>,

Вводятся поводыри для игроков и доказывается подходящая

близость движений системы (12) и движения поводарей при выборе управлений из соответствующих экстремальных задач.

В §3.2.для доказательства теоремы 3 вводятся вспомогательные конструкции для »-модели и доказывается подходящая близость движений »-модели и поводырей первого и второго игроков при выборе управлений из соответствующих экстремальных задач.

Затем оцениваются гарантированные результаты игроков с помощью функции р(<-1.»-2.»<1>.....с заданными свойствами, существование которой доказана в §2.3.

Доказывается, что функция р^,^.»'1',... ,*'"") является ценой рассматриваемой дифференциальной игры, а оптимальные кусочно-смешанные стратегии строятся с помощью экстремальных сдвигов первого и второго игроков на соответствующей совокупности сопутствующих точек.

В §3.3. рассматривается стохастическая дифференциальная игра для »-модели в классе стохастических кусочно-смешанных программных

стратегий (лсаиЦ.ш.»'1'.....и .....где

ш=с41.....- есть элементарное собитие из вероятностного пространства <П,в, ч» , построенного в §2.4 а неупреждающие функции цс о и "рс о являются вероятностными мерами нормированными на компактах р и о соответственно.

Определяются стохастический кусочно-смешанный программный максимин и экстремум, доказывается их равенство.

Затем вводится дополнительная фазовая координата и строится

дифференцируемая по фазовым переменным у'1'.....у<т> функция

р£(\,1.у'1'.....у<т>). Доказывается, что эта функция обладает

свойством и-стабильности.

В §3.4 получается оценка гарантированного результата первого

- 12 -

игрока сверху с помощью функции рес о.

В §3.5. доказывается свойство у-стабильности функции тц О-«'4"

.....которая определяется через стохастический кусочно-

смешанный программный экстремум. Получается оценка гарантированного результата второго игрока с помощью функции ту: •э.

Затем доказывается, что функции р£со и г)сс о стремятся к одному и тому же пределу р*с о при е-»о, причем функция р*(ъ^.их'1', .... х<т>) является ценой позиционной дифференциальной игры, рассмотренной в §3.1.

Заключение

В диссертационной работе получены следующие результаты:

1. Доказано альтернативное утвервдение для стохастических процедур управления, аппроксимирующее решение задачи о существовании е-равновесия в дифференциальной игре сближения-уклонения при т целевых множествах с платой, являющееся полунепрерывным снизу функционалом на движениях системы, когда первый игрок стремится сблизить позицию со всеми целевыми множествами внутри заданного фазового ограничения, а второй игрок стремится уклонить ее хотя бы от одного из них. При этом используемый класс кусочно-позиционных стратегий зависит от равномерно распределеннвх в сфере достаточного маленького радиуса случайных величин, появляющихся в ходе измерений фозового вектора игроками.

2. Доказана существование цены и седловой точки дифференциальной игры для линейных систем в классе кусочно-позиционных стратегий, когда плата игры является функционалом от троектории в заданные моменты времени. Оптимальные стратегии построены методом стохастического программного синтеза с помощью экстремального сдвига на сопутствующие точки, определяемые стохастическим чатично-прог-

раммным максимшом, который является ценой рассматриваемой игры

3. Доказана существование цены и седловой точки дифференциальной игры для собственно-линенаных систем в классе кусочно-смешанных ных стратегий, когда показатель качества является функционалом от троектории в заданные моменты времени. Методом стохастического программного синтеза показано, что введение дополнительной фазовой координаты позволяет построить функцию, которая является дифференцируемой по фазовым координатам и' аппроксимирует цену игры. При этом экстремальный сдвиг на сопутствующие точки сводится к экстремальному сдвигу против градиента аппроксимирующей функции.

Основные результаты диссертации опубликованы в следующих работах

1.Габриелян М.С., Степанян В.К. О стохастическом программном синтезе. Ученные записки ЕГУ, 1990, №1, с.11-21.

2.Степанян В.К. О существовании цены в одной диференциальной игре. в кн. "Механика деформируемого твёрдого тела", Изд-во АН Арм.ССР, Ереван,1990,с.239-245.

3.Степанян В.К. Об одной диференциальной игре в классе кусочно-смешанных стратегий. Межвузовский сборник научных трудов, Механика, Ереван, изд-во ЕГУ, 1990, вып.8.

4.Габриелян М.С.,Степанян В.К. Альтернативное утверждение для сто* хаотического позиционного управления при т целевых множествах.

Ученные записки ЕГУ, 1991, №2, с.3-11.

5.Степанян В.К. О задаче синтеза кусочно-смешанных стратегий. Ученные записки ЕГУ, 1991, №2, с.28-39.

- 14 -a F Ф D Ф Di а

Umhlmifunnnipjmbnui тпшд<1ш& tb hbmlijun mprijniíipübpp:

1. Uuluignigiluiö t tplfliUiapinhpiiijlib щТщпиГр qblpinluipituib uuin(umuui¡il| iqpn-ghipiipuibtp[i haiilaip, npp ifnuiuiplpinf l; m toiqu¡muiljui]|iti puiqtlnipjmlibbpm| ilnintg-iimli-2hi\itok i|]i^hptbgt>mi fura until S-hmi}muuipuilj2D'>4JJUI'1 qnjnqajinh Juhrjpfi [mà-nufp, tpp (umrifi qjib t hírjli.iJiünrtoiiíT hcuiimljujpqfi ¡mpihinlbtpl) 1{рш umhilmVnJmfi btppbfig ljjimuinli[i1n)hinui фтЪ^д^пЬшю, pin) npniif uinuijtib Ьющшдшщ ¿quintil t hmJmlimpqt1 ll>PI?ü tfntnhgbU[ pnjnp. bupnuiuilpBjIib paiqilnipjníUbtpJib, illim[ml mpiluifr ¡Jjtuquijfib ишЬйшЬшфш^пиГЬЬр!» iTbj, |ml] bpljpnpi) [ищцшдпцр ¿quimil t 2tqb[ injb qnbh ilblj Itujunnniljuijfili pmqitnipjnilijig: Ujumhri oquiuiqiipbi(nri Ijmnp шп I]innp qfippuijtili ninptutnhqjiuilihpQ bli ршЦш^шЬш^шф ifitipp jumuailp-цш1 qtuifi ЬЬршшГ Ьаз^шишрш^шф prafujijuii njminmhmlpiili iiböni}»jnili1ifcp(ig, npnlij ainui^uilmiif bli {ишцшдпцЬЬр}! Ijnijiítig $>uiquij[ili i}b1pnnp]i ¿шфпиП]Ьр}1 diuiluibuilj:

2. Цшпр шп Ipntip rjfipgiuj)iTj umpuiinhq[iuilihp[i цшипиГ анцшдшд^шй I; Juuiqli qlt(i U puiilpfi l)hin|i qnjmpjnilip qäinjtib himTuil[tiipqbpJi huitltnp i^)i^tpb1ig]im[ tuuiqniil, bpp ripmljji gntgji} J; huibqliumlinnl duiiluibuiljji трфлй tquihtpjib hhminqp-üjig 1)ш[ш1шй ^>nililjg{intiui[p: OtqmJuIaa[ uuipminbqtiuibbpQ 1{mnnigi{ui& hti шпфшп-m{il| öpuiqpuijlib u[>bphq}i ifbpm)n\| nnitljgnq q[ipptp[i nuiqncpjratfp tgainphtTui[ 1пЬг1Ш2<пр^ oqlmtpjaiiíp, npnbp npnjijniif til uinnfumumfilj iluitibuiljfi-ôptiiijpmjfilj iTuiguJitifiUni], npp hmliijjiumliniií t tuauiti qfilip:

3. Цтпр шо Цшпр (ииищ итрилтЬдршйЬрр цшипиХ шщшдшд^шй t qli[i b pmifpji l{bml> qnjnipjniU¡i utufiiiiljiiib-qiniijtiíi htmítulpiipqhpj) hmiímp i)ti¡¡>hptli<j|»ii[ {иищпи!, tpp nptnl^p gnigp^ l; huiUiijiiiuiuniu ашищцшцр üí¡.í¡üíí BjuihtpJiU hbmsiq-&]ig lpu|ui}uiô фшЬЦд^пЬицр: Uinn}uiuumjil} 6puiqpuij[iU u[\liptq[i iTtpnqni{ gmjg t uipilmö, np [pcugnig¡i¿ $mqaij}ili linnpqtitaumfi lihpiTniiniiip pmj[ t шш||га ljumni-gt[ Jmililjgfiia, npp ij|i;}>tpHighi}i 1; риш $cuquijjib tpmpi}¡ibimnbhp|i b ilnuimp-Ipiilt t JuinuJi q[ilqi: Clnj npnnl пщЬ^дпц i)tipfbp[i niquntpjuitJp tpumphiTm[ inhqraîuipdp ptpilnuí t Jnminpljnn 5>nilil¡g[im¡(i qpmi)|itbui|i Ьш!рипш){ nuirinipjiuilp tpuuipbilin[ шЬдшгшрс))!^: