Динамические игры преследования на поверхностях тема автореферата и диссертации по механике, 01.02.01 ВАК РФ
Ахметжанов, Андрей Рауфович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2009
ГОД ЗАЩИТЫ
|
|
01.02.01
КОД ВАК РФ
|
||
|
и*-"" На правах рукописи
Ахметжанов Андрей Рауфович
Динамические игры преследования на поверхностях
01.02.01 - Теоретическая механика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
2 2 ОКТ ?™п
Москва - 2009
003480295
Работа выполнена в Московском физико-техническом институте (Государственном университете) на кафедре механики и процессов управления (базовая кафедра ИПМех РАН).
Научный руководитель: член-корресподент РАН,
доктор физико-математических наук,
профессор Меликян Арик Артаваздович
Официальные оппоненты: доктор физико-математических наук,
профессор Вратусь Александр Сергеевич доктор физико-математических наук, профессор Зеликин Михаил Ильич
Ведущая организация: Институт математики и механики
Уральского отделения РАН
Защита состоится 19 ноября 2009 года в 15 часов на заседании диссертационного совета Д002.240.01 при учреждении Российской академии наук Институте проблем механики им. А.Ю. Ишлинского РАН, расположенном по адресу: 119526, Москва, пр. Вернадского, д. 101, корп. 1
С диссертацией можно ознакомиться в библиотеке ИПМех РАН. . Автореферат разослан 15 октября 2009 г.
Ученый секретарь Диссертационного совета Д 002.240.01 при ИПМех РАН, кандидат физико-математических наук
Лён-
Сысоева Е.Я.
Общая характеристика работы
Диссертация посвящена изучению геометрических свойств фазового пространства дифференциальных игр простого преследования на поверхностях. Платой в игре выступает время преследования одного игрока другим: преследователь пытается поймать убегающего за наименьшее время, а убегающий, наоборот, оттянуть этот момент как можно дальше. Радиус поимки полагается равным нулю. Это означает, что под окончанием игры понимается совпадение координат игроков.
Актуальность работы. Теория дифференциальных игр, как раздел теории управления, изучает задачи принятия решений в условиях конфликта нескольких лиц. Подобные ситуации часто встречаются в экономике, поведенческой экологии и других областях жизнедеятельности человека. Поэтому она имеет важные и многочисленные приложения. Становление теории дифференциальных игр связано с именами H.H. Красовского, JI.C. Понтрягина, А.И. Субботина, J.V. Breakwell, W.H. Fleming, M.G. Cran-dall, P.L. Lions.
Существенное влияние на теорию дифференциальных игр оказали работы А.Б, Куржанского, Е.Ф. Мищенко, Ф.Л. Черноусько, J.P. Aubin, M. Bardi, Т. Basar, L. Berkovitz, P. Bernhard, A. Blaquire, A. Friedman,
G. Leitman, G.J. Olsder. Важные результаты были получены в работах A.A. Азамова, Н.Л. Григоренко, М.И. Зеликина, А.Ф. Клейменова, A.B. Кря-жимского, A.A. Меликяна, B.C. Пацко, H.H. Петрова, Л.А. Петросяна, Г.К. Пожарицкого, Е.С. Половинкина, Б.Н. Пшеничного, Б.Б. Рихсиева,
H.H. Субботиной, В.Н. Ушакова, А.Г. Ченцова, Ф.Л. Черноусько, A.A. Чикрия, P.M. Cardaliaguet, M. Falcone, J. Lewin, A.W. Merz, M. Quin-campoix, J. Shinar и многих других ученых.
В диссертации рассматривается простое движение игроков. Оно нередко
используется для моделирования движения маневрирующих объектов. Простым называется движение безынерционной точки, управляемой по скорости, на которую обычно накладываются симметричные (сферические) ограничения. Решение ряда игровых задач с простыми движениями оказывается технически менее сложным, чем в задачах с более сложной динамикой. Сравнительно элементарным, например, является решение задач сближения и преследования с простым движением в евклидовом пространстве. В этом случае движение игроков происходит вдоль отрезка, соединяющего их, а цена игры вычисляется по известной простой формуле как отношение начального расстояния между игроками к разности максимальных скоростей. Она остается верной в играх на гладких двумерных поверхностях (многообразиях) при достаточно малых значениях начального расстояния. В этом случае оптимальная траектория движения определяется кратчайшей геодезической линией, соединяющей игроков. Однако во многих случаях, например для игры преследования на неограниченной поверхности вращения или на сильно вытянутом эллипсоиде, такое движение игроков не является оптимальным во всем фазовом пространстве. Для некоторой подобласти фазового пространства оптимальным поведением игроков является движение по особым (сингулярным) траекториям. В этом случае оно происходит либо по геодезическим линиям на поверхности, не соединяющим точки игроков, либо вдоль сингулярной гиперповерхности экивокального типа. Появление особых траекторий движения, как части картины оптимального синтеза, связано с тем, что на поверхности может быть две или более кратчайшие геодезические равной длины, соединяющие игроков.
Одной из первых работ, посвященных исследованию дифференциальных игр с простым движением, можно считать работу Н. Steinhaus,
опубликованную в 1925 г. Далее, с начала 50-х годов появляются работы A.C. Безиковича, H.H. Петрова, JT.A. Петросяна, Б.Н. Пшеничного, Ф.Л. Черноусько, R. Isaacs, J.О. Flynn, A. Zieba, проводящие более глубокое исследование. В ходе их решения были получены интересные факты, относящиеся к геометрии. Каждая из приведенных работ дала предпосылки к появлению целого цикла работ по дифференциальным играм с простым движением.
В монографии R. Isaacs1 была рассмотрена игра сближения/преследования двух катеров в море при наличии кругового острова между ними. Ее полное решение и обобщение на случай препятствия произвольной формы было получено позже Г.К. Пожарицким2 и A.A. Меликяном совместно с JI.C. Вишневецким3. Это дало толчок для исследования дифференциальных игр на двумерных многообразиях более сложной формы. В 90-х годах были исследованы свойства дифференциальных игр простого преследования на неограниченных поверхностях и получено полное решение для случая дифференциальной игры простого преследования на конусе45, были изучены особенности дифференциальных игр преследования на плоских двусторонних фигурах6. Обзор по данной проблематике был проведен в работе7. Одним из
1 Isaacs R.P. Games of Pursuit, Paper P-257. - RAND Corporation, Santa Monica, California. - 1951.
2 Пожарицкий Г.К. Задача Айзькса об огибании острова // ПММ. - 1982. - Т. 46, вып. 5. -С. 707-713.
3 Пи-цтееецкий Л.С., Меликян A.A. Оптимальное преследование ,на плоскости при наличии препятствия // ПММ - 19S2. - Т. 46, вып. 4. - с. 613-620.
4 Меликян A.A., Овакимян Н.В. Игровая задача простого преследования на двумерном конусе // ПММ - 1991. - Т. 55, вып. 5. - С. 741-751.
5 Hovakimyan N., Melikyan A.A. Geometry of Pursuit-Evasion on Second Order Rotation Surfaces // Dynamics and Control. - 2000. - № 10. - P. 297-312.
0 Меликян A.A. Первичные стратегии простого преследования в дифференциальных играх на двусторонних плоских фигурах // ПММ. - Т. 68, вып. 4. - С. 611-622.
7 Melikyan A.A. Geometry of Pursuit-Evasion Games on Two-Dimensional Manifolds // S. Jirgensen, M. Quincampoix, T.L. Vincent (eds.) Annals of the International Society of Dynamic Games. -Boston: Birkhäuser, 2007. - Vol. 9.
вкладов автора диссертации является изучение свойств дифференциальных игр простого преследования на ограниченных поверхностях, таких как эллипсоиды вращения, двусторонние плоские эллипсы. Для некоторых значений параметров задачи (например, отношение скоростей игроков или эксцентриситет рассматриваемого эллипса) преследование по кратчайшей геодезической линии, соединяющей игроков, является оптимальным во всем фазовом пространстве. При других значениях параметров задачи это не так, и преследование по особым траекториям движения должно приниматься во внимание.
Цель диссертационной работы состоит в исследовании структуры оптимальных стратегий игроков в дифференциальных играх на ограниченных поверхностях (на эллипсоиде вращения, двустороннем плоском эллипсе) и на неограниченных поверхностях вращения (на гиперболоиде и параболоиде вращения), а также определение разбиения фазового пространства игры на подобласти с тем или иным типом оптимального поведения игроков.
Методы исследования. В основе работы лежат понятия теории вязкостных ' решений и конструктивные способы построения функции цены игры. Используется метод сингулярных характеристик для решения уравнения в частных производных первого порядка.
Научная новизна. Для дифференциальных игр на эллипсоидах (на эллипсоиде вращения, на двустороннем плоском эллипсе) определена область параметров задачи, в которой решение игры имеет простую структуру, и оптимальным поведением является движение игроков вдоль кратчайшей геодезической линии, соединяющей их. В оставшейся части пространства параметров это не является верным, и преследование может происходить по особым траекториям движения.
Для дифференциальных игр на неограниченных поверхностях вращения (гиперболоид вращения, параболоид вращения) получены точные аналитические формулы, задающие разбиение фазового пространства игры.
В каждом из описанных выше случаев, дано описание многообразия пар точек на поверхности, которые соединяются двумя и более геодезическими линиями наименьшей длины; построено пересечение данного многообразия с областью особых траекторий движения игроков.
Проведен сравнительный анализ различных постановок задач оптимального управления и вариационного исчисления, приводящих к двум возможным типам граничных условий для уравнения Гамильтона-Якоби: терминальному или начальному. Построен пример, в котором вязкостное решение для краевой задачи с одними и теми же граничными условиями, но с различным типами их задания (начальным или терминальным), приводит к разным результатам.
Метод сингулярных характеристик применен к задаче восстановления поверхности по двумерному изображению (фотографии).
Основные результаты диссертации являются новыми, получены автором самостоятельно и опубликованы.
Практическая значимость. Доказанные в диссертации теоремы и развиваемая техника могут быть использованы как в общей теории дифференциальных игр преследования-убегания, так и в реальных задачах управления прикладного содержания при преследовании одного объекта другим в условиях наличия препятствия между ними или других ограничений на свободу их движений.
Апробация работы. Результаты диссертации докладывались автором на научной конференции МФТИ, ноябрь, 2004 г.; на весенней математической школе "Понтрягинские чтения", посвященной 100-летию
академика С.М. Николького, май, 2005 г.; на международном семинаре "Теория управления и теория обобщенных уравнений Гамильтона-Якоби", посвященном 60-летию академика А.И. Субботина в Екатеринбурге, июнь, 2005 г.; на американской конференции по теории управления (АСС) в Портленде, США, июнь, 2005 г; на 12-м международном симпозиуме по динамическим играм и их приложениям, София-Антиполис, Франция, в июле, 2006 г.; на международной конференции "Управление динамическими системами" в Институте проблем механики им. А.Ю. Ишлинского РАН, январь, 2009 г.; на международной конференции "Управление и оптимизация динамических систем", Ташкент, Узбекистан, сентябрь, 2009 г. Был сделан доклад на семинаре кафедры высшей математики МФТИ под руководством проф. Е.С. Половинкина в апреле 2009 г.
Публикации. Материалы диссертации опубликованы в 11 печатных работах, из них одна статья в рецензируемом ежегодном сборнике трудов международного сообщества по динамическим играм [1], 2 статьи в реферируемых журналах из перечня ВАК [2, 3] и 8 публикаций в сборниках трудов конференций.
Личный вклад автора. Основные результаты диссертации являются новыми, получены автором самостоятельно и опубликованы.
Структура и объем диссертации. Диссертация состоит из введения, 4 глав и списка литературы. Общий объем диссертации 109 страницы, набранных с помощью пакета LATEX. Библиографический список содержит 74 наименования.
Содержание работы
Во введении формулируется цель работы, обосновывается актуальность рассматриваемой задачи, в сжатом виде излагается содержание всех глав, дан обзор литературы по теме диссертации.
Первая глава диссертации посвящена формулировке дифференциальной игры и описанию различных типов оптимальных стратегий игроков.
Игра происходит на двумерном многообразии М.. В ней участвуют два игрока: преследователь Р (первый игрок) и убегающий Е (второй игрок). Управление осуществляется безынерционным способом, а скорости игроков ограничены сверху заданными величинами. Динамика игры записывается при помощи уравнений
х = и, y = v, z(0) = х°, у(0) =у°, х,уеМ, и вТР(М), v &ТЕ(М)
y/(G(x)u,u) < 1, y/{G{y)v,v)<v< 1,
где х = {х\,хч) v. у = (2/1,2/2) задают локальные координаты точек игроков РкЕш поверхности М, Тр(М) обозначает касательную плоскость к М в точке Р, Те{М) - в точке Е. Матрица G(-) (метрический тензор) определяет риманову метрику на рассматриваемом многообразии М. По определению матрица G(-) является симметричной, положительно определенной, размерности 2. В случае евклидовой плоскости метрический тензор G(-) задается единичной матрицей, и ограничения на управления имеет наиболее простой вид.
Считается, что игра окончена, если имеется совпадение координат игроков в некоторый момент времени Т: х{Т) = у{Т). В качестве функционала выступает время поимки: J = Т —> min max. Преследователь
Р стремится осуществить поимку как можно быстрее, а убегающий Е, наоборот, оттянуть момент окончания игры Т как можно дальше.
Если рассмотреть игру простого преследования на евклидовой плоскости, то легко обнаружить, что оптимальным поведением игроков является движение вдоль кратчайшей линии РЕ, их соединяющей. В этом случае цена игры задается выражением
= (1)
где Ь(х,у) равняется длине отрезка РЕ, Если один из игроков отклоняется от предписанного оптимального поведения, то он получает худший для себя результат по сравнению с :,у).
Определение 1. В дифференциальной игре преследования на поверхности М решение У{х,у) называется первичным, если оно совпадает по структуре с решением игры на евклидовой плоскости (1), где в качестве функции Ь(х,у) выступает длина кратчайшей геодезической линии, соедишкщая точки Р и Е.
Кроме того, время преследования (1) является гарантированным для игрока Р, т.е. оптимальная поимка происходит либо за время (1), либо быстрее.
Фазовым пространством игры является четырехмерное пространство В = М х М. Сделаем разбиение пространства О на два подпространства: первичную область где цена поимки задается формулой (1), и вторичную £>2, где она строго меньше этой величины.
Оптимальным движением в области Бх является движение вдоль геодезической линии, соединяющей игроков. Граница между областями и £>2 состоит из особых траекторий: каждый из игроков движется вдоль огибающей семейства геодезических линий. Область состоит из двух
Рис. 1.
частей £>2 = + Д таких, что в области каждый из двух игроков движется вдоль своей геодезической линии, не совпадающей с линией, их соединяющей. В области Д только преследующий игрок движется вдоль геодезической линии при том, что убегающий может двигаться неоднозначным образом. Цена игры в Д является решением некоторой задачи оптимального управления для игрока Р.
В зависимости от геометрических свойств пространства игры М могут оказаться пустыми множества Д или Д. В последнем случае все пространство игры совпадает с областью £>1, а первичная стратегия преследования является оптимальной во всем фазовом пространстве.
Теперь определим многообразие Г всевозможных положений пар точек Р и Е на поверхности М, которые соединяются двумя или более геодезическими наименьшей длины. Как это выполнено в большинстве рассматриваемых случаев
Ь(х,у) = т1п[Ь+{х,у),Ь~{х,у)], (х, у) е Д
где Ь+(х,у) и Ь~(х,у) - экстремали вариационной задачи на поиск геодезической линии, то многообразие Г определяется через соотношение Ь+(х,у) = Ь~(х,у).
Частью многообразия Г является рассеивающая поверхность Г^, из каждой точки которой начинаются две различные оптимальные траектории, приводящие к одной и той же цене игры - времени поимки Т. Выбор той или иной геодезической линии зависит от игрока Р. Для некоторых классов поверхностей М. многообразие Ti совпадает со всем многообразием Г. В этом случае, первичное преследование является оптимальным во всем пространстве и вторичная область £>2 пуста. Однако в общем случае Ti является собственным подмножеством Г, и существование двух или более геодезических линий равной длины позволяет игроку Р маневрировать таким образом, чтобы цена игры V(x,y) стала меньше V\(x,y). В этом случае первичные стратегии уже не гарантируют наилучший результат для игрока Р, и вторичная область непуста.
А именно, пусть игроки находятся в точках, которые соединяются двумя различными геодезическими равной длины (х, у) € Г. Тогда выбор преследователем первичной стратегии преследователя (движение по одной из геодезических линий Ь+ или Lприводит к скорости уменьшения расстояния между игроками, не превышающей по модулю \L\ < 1 — и. В то же время выбор промежуточной стратегии и = — (а+ + а~)/|а+ + а~| приводит к \L\ < (а+ +а~)/2 - v(b+ + Ь~)/2, см. рис. 1. Отсюда видно, что во втором случае возможно достижение преследователем более быстрого уменьшения расстояния между точками Р и Е, чем в первом. Это происходит при определенном положении игроков на многообразии М и значении и.
Следуя данным рассуждениям, формулируются и доказываются необходимые условия оптимальности первичных стратегий преследования во всем фазовом пространстве, когда маневр преследователя для достижения лучшего результата невозможен.
Теорема 1. Пусть Ti - это часть многообразия Г, где время (1) является
оптимальным, Г2 = дВг ПГ. Это означает, в частности, что для каждой точки (х, у) 6 Гх выполняется неравенство
|а+ + а~! ,
-Г- :----1 <1-1/.
2 2 ~
Для того, чтобы первичное решение было оптимальным во всем пространстве, необходимо, чтобы Гх совпадало с Г или, другими словами, край вторичной области, задаваемый условием
\а+ + а-\ у\Ь+ + Ъ-\_ .
2 2 ~ ' не содержал бы общих точек с многообразием Г.
Обозначим пересечение края вторичной области с многообразием Г через В, т.е. д02 П Г = В.
Далее предположим, что функция цены ]/(■) существует и является непрерывной по своим аргументам. Кроме того, существует производная функции цены по направлению движения дУ/ди) по всем векторам и) — (и, у) возможных пар; управлений игроков. Тогда необходимые условия оптимальности в терминах неравенств А.И. Субботина8 записываются в виде
тпттзхдУ/дги > — 1 > тахттЗУ/Зш, М < 1, Ы < V (2)
и V V и
выполняются во всем фазовом пространстве С.
В точках гладкости функции У(х,у) ее производная по направлению ■ш = (и,у) представима как {Ух,и) + что с учетом соотношений (2)
приводит к записи уравнения Беллмана-Айзекса следующего вида
Р(г,г) = тттах((14,и) + (Уу,ь)) + 1
и v
= -^(0-\х)р,р) + ?) + 1 = О
(г = (х,у), г = (р,д) = 6 К4). (3)
8 Субботин А.И. Обобщенные решения уравнений в частных производных первого порядка: перспективы динамической оптимизации. - Москва-Ижевск: Институт компьютерных исследований, 2003.
Рис. 2. Картина оптимальных траекторий при непустой вторичной области
Если вторичная область непуста, то картина оптимальных траекторий содержит две ветви живокальных поверхностей9 Г^ с началом в точках многообразия В, см. рис. 2. Данные поверхности могут быть построены с помощью решения следующей задачи Коши в терминах сингулярных характеристик
где функция Fi(z,V) описывает условие непрерывности функции цены, а именно: Fi(z, V) = V-Vi(z), Vj(z) = min[Vj+(2),Vj_(z)], V*(z) -две гладкие ветви первичного решения V^(z) = L±(z)/( 1 - v). Их значения совпадают на многообразии Г, однако градиенты отличаются: dV+/dz ^ dV~/dz. Фигурные скобки {••} обозначают скобки Якоби (Пуассона), определяемые следующим образом: {GH} — (Gz + rGy, Hr) - (Hz + г Ну, Gr).
Таким образом, предлагается следующий алгоритм решения задачи преследования в окрестности многообразия В. 1) Найти функции L+{z) и L~(z) и построить первичное поле регулярных характеристик,
9 Айзеке Р. Дифференциальные игры. - М.: Мир, 1967. - 480 с.
{{ЯВД}
которым соответствует движение игроков по кратчайшим геодезическим, их соединяющим. 2) Определить многообразие Г существования двух различных геодезических равной длины L+(z) = L~(z). 3) Определить многообразие В — пересечение края вторичной области с многообразием Г. 4) Построить многообразия Гз с помощью интегрирования соответствующей системы сингулярных характеристик в обратном времени с начальными условиями, заданными в точках многообразия В. 5) Найти функцию цены V(z) для z £ D2 с помощью интегрирования системы классических характеристик в обратном времени с начальными данными, заданными на многообразиях Г^. В этом случае регулярные характеристики покидают многообразия Ff с касанием.
Целью второй главы является определение класса эллипсоидов, при игре на которых множество точек В пусто, и выполнение шагов 3-5 не требуется. В этом случае первичная область совпадает со всем фазовым пространством D и, тем самым, преследование по геодезической линии, соединяющей игроков, оптимально для любых позиций игроков на поверхности М. Многообразие Г совпадает с Ti = dDx п Г и является рассеивающей поверхностью. Находясь на такой поверхности, игрок может использовать одну из двух геодезических линий для дальнейшего движения. Но каждый выбранный путь дает одно и тоже значение Т времени поимки убегающего преследователем.
Пусть игра преследования происходит на трехосном эллипсоиде. Обозначим его полуоси через а, Ь и с. Определим поверхность М. в трехмерном пространстве с координатными осями (zi,z2,z3) при помощи уравнений: Z\ = cos<£cos0/vl — £2, Zi = sin tp cos в и z3 = —¿i2sín#, где е и ц (0 < е < 1, 0 < ¡л < 1) выступают в роли параметров, а полуоси эллипсоида равняются а = 1/ Vi - £2, Ь = 1 и с = y/l - /х2. Легко заметить,
что а> Ь> с.
Устанавливается, что в пространстве параметров задачи (и, е, д) существует поверхность, разделяющая ее на две части А\ и А%. В точках А\ вторичная область пуста и первичные стратегии преследования являются оптимальными во всем фазовом пространстве £>. В точках области Ач это не выполняется и имеются особые траектории преследования. Таким образом, поверхность, отделяющая А\ от Аг, описывает бифуркацию фазового портрета. Построение данной поверхности выполняется в ряде частных случаев трехосного эллипсоида.
В параграфе 2.1 рассматривается случай эллипсоида вращения вокруг большой оси, когда 0 < е < 1, р = 0; в параграфе 2.2 — случай двустороннего плоского эллипса, являющегося предельным случаем трехосного эллипсоида при /л —> 1; в параграфе 2.3 — случай эллипсоида вращения вокруг малой оси, когда е = 0, 0<ц<1. В каждом из них определяется многообразие Г в фазовом пространстве игры О и строится край В вторичной области на пересечении с Г. Значению параметров задачи, при котором множество точек многообразия В становится непустым, соответствует точка бифуркационной поверхности.
В начале второй главы также показывается, что в дифференциальной игре на сфере, когда е = /х = 0, первичная область Д совпадает со всем фазовым пространством. В то же время, в предельном случае сильно вытянутого трехосного эллипсоида, когда £ —> 1, рассмотрение особых траекторий движения игроков необходимо для полного решения задачи.
Пространство параметров задачи {у, в, ¡и) представляет собой куб [О, I]3. Указанные случаи соответствуют пересечению бифуркационной поверхности с гранями этого куба, см. рис. 3.
Результаты второй главы опубликованы в работах [1, 4, 5, 8, 10, 11].
В третьей главе исследуются свойства разбиение фазового пространства для игр преследования на неограниченных поверхностях вращения, таких как параболоид вращения или гиперболоид вращения. Отличительной особенностью от ранее рассмотренного случая эллипсоида, является то, что вторичная область D2 непуста для любых значений параметров задачи.
Целью третьей главы является получение аналитических формул, задающих многообразие Г и край В вторичной области на пересечении с Г, а также построение картины оптимального синтеза для определенных частных случаев. В конце третьей главы, строится поле характеристик (оптимальных траекторий движения) для игры преследования на гиперболоиде вращения и показывается, что структура решения во многом схожа со случаем игры преследования на конусе. Последний был подробно изучен ранее10.
Пусть поверхность вращения задается с помощью уравнения 23 = fW zi+z2)> гДе /(') ~ дважды дифференцируемая функция такая, что
10 Меликян A.A., Оеакимян Н.В. Игровая задача простого преследования на двумерном конусе // ПММ - 1991. - Т. 55, вып. 5. - С. 741-751.
¡'(г) > 0, 0 < 2 < оо. В этом случае удобно ввести полярные координаты г\ = гсоБр, ¿2 = г эту?, тогда г3 = /(г).
Зададим положение точек Р и Е через х = {г\,у\) и у = (гг,</?г) соответственно. ТЪк как поверхность М обладает симметрией вращения, то без потери общности отсчет угла может быть выбран от произвольной образующей, и только разница углов = щ — щ играет роль при решении задачи. Другими словами, можно принять, что <р\ = 0 и у?2 = <р.
Свойство поворотной симметрии поверхности М. приводит к следующему утверждению
Теорема 2. Паре точек Р и Е соответствует две различных геодезических линии минимальной длины тогда и только тогда, когда они лежат на одной и той о/се образующей этой поверхности, и на отрезке образующей, заключенной между ними, имеется сопряженная точка уравнения Якоби.
Отсюда следует, что многообразие Г описывается множеством точек, для которых <р = 7Г. Кроме того, оно является областью с границей <9Г, определяемой соотношением Фо{г\)-фо{-Г2) = 0, где фо(г) = / л/1 + //2(г)^.
Край В вторичной области на пересечении с многообразием Г задается уравнением вида
Возникающая картина схематично показана на рис. 4, где рассматриваются пары точек с <р — тт. В редуцированном пространстве (</?1 = 0) граница ЭГ и многообразие В задаются кривыми. Точка дВ
где переменная Д определяется из уравнения
г
д
Рис. 4. Определение многообразий Г и В.
задается пересечением границы дГ и прямой = \¡vt\. В точке Q многообразие В теряет гладкость. Ее положение определяется пересечением с прямой г2 = yV(2 — и) г\. Отсюда видно, что многообразие В заключено в пределах ~Jvr\ < r2 < - < гь
В случае конуса /(г) = кг (к > 0) граница дТ не существует и область Г занимает все пространство. Это означает что, любую пару точек Р и Е, находящихся на одной и той же образующей, но по разные стороны от вершины конуса (0,0, /(0)), можно соединить двумя различными геодезическими равной длины. Точка дВ находится в начале координат ri = 7*2 — 0. Обозначим через ао угол полной развертки конуса: qq = 7r/Vl + к2. Тогда многообразие В задается прямой: г2 = — ф) eos /(eos ^ -
если v < 1 — sin ао и 0 < ао < |. В противном случае: г2 =
Для случая гиперболоида вращения /(г) = к\/г2 + Ь2 сначала требуется
ввести некоторые понятия теории эллиптических функций11. Интегралы вида
ей
Р(г,к) =
у/Г^&у/! - кЧ2
<И
1 - кЧ2 1-I2
Л,
-кЧ2
и
называются соответственно эллиптическими интегралами первого, второго и третьего рода. Кроме того, введем обозначения Р*(г, ц, к) = —гР(гг, (1, к), Е*(г,(л,к) == —гЕ(гг,^,к) и Т1*(г,^,к) = -Ш(гг,д, к).
Тогда.многообразие <ЭГ задается уравнением: ~ Фо{~г2) = 0, где к2.
, у/к2 +1)
У(А2 + 1)г2 + Ь2 Ь2г
Пересечение вторичной области ©г с многообразием Г определяется с помощью условия: \ф(г{) — тг| = где
¿(г) = 1
П*
ь2 + д2' д2 р
г2-В? Ь2 + Я? ¡(к2 + 1)(62 + Д2) б2 + (¿с2 + 1)Д2
ь2 +
г2 — Д2 Пк2 + 1){Ь2 + Д2)
Д (£г +1)
£>2 + Д2'У Ь2 + (/с2 + 1)Д2 а переменная Д определяется формулой
Д = 2Пг2^и(1-у)^г2-иг2/(т1 - и2г\).
Аналогично получаются уравнения, задающие многообразия ЭГ и В, для параболоида вращения /(г) = кг2/2 (к > 0).
В параграфе 3.4 выполняется построение картины оптимальных траекторий для случаев конуса и гиперболоида вращения. Первый из них
11 Прасолов В.В., Соловьев Ю.П. Эллиптические функции и алгебраические уравнения. - М.: Факториал, 1997. - 290 с.
был исследован ранее, поэтому воспроизводится в краткой форме и лишь для того, чтобы проследить предельный переход от гиперболоида вращения к конусу, когда h —» 0.
Результаты третьей главы опубликованы в работах [6, 10, 11].
В четвертой главе рассматривается краевая задача, описываемая уравнением в частных производных первого порядка
Пт г
f(x,V,—^=Q, xeücW1-, V{x) = W(x), ж € M С Ш. (4)
Если V(x), F(x,V,p) 6 С2, то решение краевой задачи (4) локально сводится к интегрированию системы регулярных характеристик. Однако во многих задачах механики и теории управления одна или обе функции V(x), F(x,V,p) являются негладкими. В этом случае решение краевой задачи (4) должно пониматься в обобщенном смысле. Удобное понятие обобщенного решения доставляет вязкостный подход12, разработанный в последние десятилетия. Определение вязкостного решения зависит от того, какая именно краевая задача рассматривается: начальная или терминальная. В частности (параграфы 4.1-4.6), ставится вопрос: как должны соотноситься условия, заданные на начальной части границы и на терминальной, чтобы они давали одно и то же решение краевой задачи для уравнения Гамильтона-Якоби? Здравый смысл подсказывает естественную гипотезу, изложенную далее. Пусть решение краевой задачи строится с помощью метода характеристик. Выпуская поле характеристик из части границы с начальными условиями, построим решение на части границы с терминальным условиями. Тогда если имеется совпадение между построенным решением начальной краевой задачи на ней и заданными терминальными краевыми условиями, то возможно совпадают решения
12 Ciundall M. G., ïshii H., Lions P.L. User's guide to viscosity solutions of second order partial differential equations // Bull. Amer. Math. Soc. - 1992. - Vol. 27, N. 1. - P. 1-67.
начальной и терминальной краевой задачи и во всей области. Однако, следующий пример показывает, что это вообще говоря неверно.
Рассмотрим краевую задачу с негладкими начальными условиями
F(x, y,p,q)=p+( 1 - х)\/а2 + q2 = 0, ж > 0, (5)
V(0,y) = -\y\ ■{p = 8V/dх, q = dV/dy, a = const). К ней приводит одномерная дифференциальная игра
y = ui + (T-t)vu 0 <t<T, u\ + ul< 1, v\ + vl< 1,
J = -\y(T)\ +
a(u2 + (T - t)v2) dt —► minmax.
Решение начальной краевой задачи. Функция Беллмана записывается в
виде У(х, у) = — \у\+\/а2 + 1(х2/2~х), верное всюду за исключением области х>1, |у| < (х — 1)2/(2\/а2 + 1), в которой решение выражается при помощи гладкой функции: у(х, у) — -\/а2 + 1/2 + а^(х - 1)4/4 - у2.
Решение терминальной краевой задачи. Зафиксируем теперь некоторое значение х, скажем, хт = 3, и запишем решение приведенной выше начальной задачи
3
V(3,y) = -\y\ + -Va2 +1, Ы>
02 , 1 (__о (6)
£ уа +1
Теперь рассмотрим терминальную краевую задачу на полуплоскости
х < 3 для уравнения (5) с терминальными граничными условиями (6).
Можно показать, что в этом случае решение терминальной задачи совпадает
с построенным ранее решением начальной задачи всюду за исключением
области: х < 1, \у\ <(х — 1)2/(2\/а2 + 1), в которой решение терминальной задачи задается функцией у(х,у). Таким образом, условие У(0,у) = ~\у\ оказывается невыполненным. Различие между решениями начальной и терминальной краевой задачи показано на рис. 5.
Рис. 5. Сравнение начальной и терминальной задачи
Таким образом, стартуя с решения начальной задачи с негладкими граничными условиями и "отражая" решение от х ~ 3, мы получили сглаженное решение в начальный момент. Если мы продолжим "отражать" решения, поочередно рассматривая начальную и терминальную краевую задачу, конечное решение будет гладким.
В заключительной части четвертой главы рассматривается одна задача восстановления формы объекта по его изображению. В этом случае его трехмерная форма определяется через свойства отражения света от его поверхности, а также заданные граничные условия. Обычно, восстановление формы оказывается возможным через решение соответствующего уравнения в частных производных типа уравнения Гамильтона-Якоби с краевыми условиями, понимаемом в вязкостном смысле.
Одним из классических примеров в теории восстановления трехмерной формы по ее двумерному изображению является рассмотрение изображения с максимумом яркости в одной точке. В этом случае применяется метод характеристик для решения уравнения в частных производных, и интегрирование системы характеристик производится от этой точки,
либо от части границы с известным на ней решением. Тем не менее, поле характеристик может заполнять не все пространство изображения, и для завершения решения задачи требуется определение условий на части границы, на которой они априори не заданы. К примеру, это происходит, когда на изображении присутствуют видимые контуры. Было установлено13, что часть граничных условий на них может быть получена из т.н. экстремальных точек, содержащих скрытую информацию о решении. Затем граничные условия могут быть продолжены дальше при помощи построения сингулярной характеристики, бегущей вдоль границы контура.
В разделах 4.7.1-4.7.3 рассматривается иллюстративный пример.
Результаты четвертой главы опубликованы в работах [2, 3, 7, 9].
Основные результаты, выносимые на защиту
1. Выделен класс эллипсоидов, для которых решение дифференциальной игры имеет простую структуру, и оптимальным поведением игроков во всем фазовом пространстве является движение вдоль кратчайшей геодезической линии, соединяющей их.
2. Для дифференциальных игр на неограниченных поверхностях вращения (гиперболоид вращения, параболоид вращения) получены точные аналитические формулы, задающие разбиение фазового пространства игры. В случае гиперболоида вращения построена картина оптимальных траекторий движений игроков.
3. Построен пример, в котором вязкостное решение краевой задачи для уравнения Гамильтона-Якоби с одними и теми же граничными условиями, но с различным типами их задания (начальным или терминальным), приводит к разным результатам.
13 Lions P.L., Rouy Е., Tourin A. Shape-from-shadmg, viscosity solutions and edges. // Numer. Math. - 1993. - Vol. 64. - P. 323-353.
Публикации по теме диссертации
[1] Akhmetzkanov A. Some geometrical properties of the phase space structure in games on manifolds //P. Bernhard, V. Gaitsgory, 0. Pourtal-lier (eds.) Annals of the International Society of Dynamic Gaines. -Boston: Birkhauser, 2009. - Vol. 10. - P. 109-122.
[2] Ахметжанов A.P., Меликян А. А. Линейная дифференциальная игра на плоскости с функционалом типа минимума // ПММ - 2007. - Вып. 71, N. 2. - С. 264-276,
[3j Melikyan A., Akhmetzkanov A., Hovakimyan N. On Initial Value and Terminal Value Problems for Hamilton-Jacobi Equation // System & Control Letters - 2007. - Vol. 56, N. 11-12. - P. 714-721.
[4] Ахметжанов A.P., Меликян А.А. Некоторые особенности дифференциальной игры на двустороннем плоском эллипсе // Труды 47-й научной конференции МФТИ. 26 - 27 ноября, 2004 -Долгопрудный-Москва, 2004.
[5] Меликян А,А., Ахметжанов А.Р. Об особенностях дифференциальной игры на поверхности, связанных с неединственностью геодезической // Весенняя математическая школа "Понтрягинские чтения - XVI", посвященная 100-летию С.М. Никольского, 2-9 мая, 2005. - Воронеж, 2005.
[6] Ахметжанов А.Р. Определение границы вторичной области в дифференциальной игре на поверхности вращения / / Труды 48-й научной конференции МФТИ, 27 - 29 ноября, 2005. -Долгопрудный-Москва, 2005.
[7j Melikyan A., Akhmetzhanov A., Hovakimyan N. A remark on IVP and TVP non-smooth viscosity solutions to Hamilton-Jacobi equation // American Control Conference (ACC), Proc. of the 2005. - 2005. - Vol. 2. - P. 864-869.
[8] Akhmetzhanov A. Optimal motion in differential games on bounded surfaces // Proc. 12th International Symposium on Dynamic Games and Applications, Sophia Antipolis, France, July 3 - 5, 2006. - 2006.
[9] Melikyan A., Akhmetzhanov A., Hovakimyan N. Application of Singular Characteristics for Image Processing // Proc. 12th International Symposium on Dynamic Games and Applications, Sophia Antipolis, France, July 3-5, 2006. - 2006.
[10] Ахмегпжанов A.P. Исследование особенностей фазового пространства в дифференциальных играх на поверхностях // Тезисы докладов международной конференции "Управление динамическими системами", 26 - 30 января, 2009. - Москва, 2009. - С. 31.
[11] Melikyan A., Akhmetzhanov A.R., Hovakimyan N. Analytical and numerical constructions in pursuit-evasion games on 2D surfaces // Proc. SIAM Conference on Control and Its Applications, July 6 - 8, 2009. -Denver, USA, 2009. к Труды Международной научной конференции "Управление и оптимизация динамических систем — CODS-2009", Ташкент, Узбекистан, 27 сентября - 1 октября, 2009. - 2009.
Ахметжанов Андрей Рауфович
Динамические игры преследования на поверхностях
Автореферат диссертации на соискание ученой степени . кандидата физико-математических наук
Подписано к печати 06.10.2009. Заказ №22. Тираж 80 экз.
Отпечатано на ризографе, ИПМех РАН 119526 Москва, проспект Вернадского, д. 101, к. 1.
Обозначения
Введение
1 Общие свойства оптимальных стратегий игроков в играх на поверхностях
1.1. Динамика игры и фазовое пространство.
1.2. Первичное решение.
1.3. Другие типы оптимальных траекторий.
1.4. Необходимые условия глобальной оптимальности первичных стратегий игроков.
1.5. Уравнение Беллмана-Айзекса.
1.6. Анализ многообразия Г с точки зрения теории вязкостных решений.
1.7. Алгоритм построения решения.
2 Многообразия с простой структурой стратегий
2.1. Дифференциальная игра на эллипсоиде вращения вокруг большой оси.
2.2. Дифференциальная игра на плоском двустороннем эллипсе
2.3. Дифференциальная игра на эллипсоиде вращения вокруг малой оси.
2.4. Особенности дифференциальной игры преследования в общем случае трехосного эллипсоида
3 Свойства фазового пространства игр на неограниченных поверхностях вращения
3.1. Постановка задачи. Определение многообразия Г
3.2. Определение многообразия В.
3.3. Геометрия дифференциальных игр на различных поверхностях вращения.
3.3.1. Конус.
3.3.2. Гиперболоид вращения
3.3.3. Параболоид вращения.
3.4. Картина оптимальных траекторий игроков на различных поверхностях вращения.
3.4.1. Конус.
3.4.2. Гиперболоид вращения
4 Понятие вязкостного решения уравнения Гамильтона
Якоби в моделях механики и физики
4.1. Математическая постановка задачи.
4.2. Решение начальной и терминальной краевых задач оптимачяьного управления.
4.3. Задачи оптимального управления и вариационного исчисления для автономных систсм.
4.4. Задача вариационного исчисления с однородным лагранжианом
4.5. Замечания по используемой терминологии
4.6. Иллюстративные примеры
4.6.1. Управление автомобилем.
4.6.2. Дифференциальная игра на плоскости.
4.7. Задача восстановления формы по двумерному изображению
4.7.1. Иллюстративный пример.
4.7.2. Сингулярная характеристика, бегущая вдоль границы.
4.7.3. Иллюстративный пример (продолжение)
Актуальность темы. Предметом диссертации является изучение геометрических свойств фазового пространства дифференциальных игр простого преследования на двумерных поверхностях (многообразиях). В исследовании применяется метод сингулярных характеристик, разработанный А А. Меликяном [56]. Платой в игре выступает время преследования одного игрока другим: преследователь пытается поймать убегающего за наименьшее время, а убегающий, наоборот, оттянуть этот момент как можно дальше. Радиус поимки полагается равным нулю. Это означает, что под окончанием игры понимается совпадение координат игроков. Такая постановка задачи описывает игру степени в терминологии [1] в том смысле, что имеется критерий качества, который максимизируется одним игроком и минимизируется другим.
В настоящей работе рассматривается простое движение игроков. Оно нередко используется для моделирования движения маневрирующих объектов. Простым называется движение безынерционной точки, управляемой по скорости, на которую обычно накладываются симметричные (сферические) ограничения. Решение ряда игровых задач с простыми движениями оказывается технически менее сложным, чем в задачах с более сложной динамикой. Сравнительно элементарным, например, является решение задач сближения и преследования с простым движением в евклидовом пространстве. В этом случае движение игроков происходит вдоль отрезка, соединяющего их, а цена игры вычисляется по известной простои формуле: как отношение начального расстояния между игроками к разности максимальных скоростей. Она остается верной в играх на гладких двумерных поверхностях (многообразиях) при достаточно малых значениях начального расстояния. В этом случае оптимальная траектория движения определяется кратчайшей геодезической линией, соединяющей игроков. Однако во многих случаях, например для игры преследования на неограниченной поверхности вращения или на сильно вытянутом эллипсоиде, такое движение игроков не является оптимальным во всем фазовом пространстве. Для некоторой подобласти начальных позиций игроков на поверхности оптимальным поведением игроков является движение по особым (сингулярным) траекториям. В этом случае оно происходит либо по геодезическим линиям на поверхности, не соединяющим точки игроков, либо вдоль сингулярной гиперповерхности экивокального типа. Появление особых траекторий движения, как части картины оптимального синтеза, связано с тем, что на поверхности может быть две или более кратчайшие геодезические равной длины, соединяющие игроков. Исторический очерк. Теория ди фф ер с ч /1 /1 шль пых игр, как раздел теории управления, изучает задачи принятия решений в условиях конфликта нескольких лиц. Подобные ситуации часто встречаются в экономике, поведенческой экологии и других областях жизнедеятельности человека. Поэтому она имеет важные и многочисленные приложения.
Пусть управление игроков осуществляется по обратной связи, а динамика системы описывается обыкновенными дифференциальными уравнениями, в правую часть которых входят управляющие воздействия. Тогда полезное управление первого игрока рассматривается как действие, направленное на минимизацию некоторого функционала на множестве траекторий системы, а целью действий второго игрока является максимизация того же функционала. Управления игроков могут быть стеснены геометрическими ограничениями.
В работах Р. Айзекса [46]-[49], [1] был предложен метод исследования игровых задач и рассмотрено большое число содержательных примеров. Однако строгой математической постановки дифференциальной игры при этом не было. В дальнейшем были разработаны различные варианты формализации дифференциальных игр, среди которых был подход W.H. Fleming [40], основанный на аппроксимации дифференциальной игры многошаговыми играми, подход R.J. Elliott и N.J. Kalton [39], использующий понятие неупреждающих стратегий. В данной диссертации мы придерживаемся позиционной формализации дифференциальных игр, введенной в работах отечественных ученых Н.Н. Красовского и А.И. Субботина [10]. В данном случае подход к решению дифференциальной игры заключается в поиске функции цены, которая каждой точке пространства состояний системы ставит в соответствие оптимальный гарантированный результат в игре, начинающейся из этой точки. Зная функцию цены, можно построить стратегии оптимального управления по принципу обратной связи. Цена позиционной дифференциальной игры для заданной начальной точки совпадает с ценой в смысле W.H. Fleming или с ценой в классе неупреждающих стратегий в случаях, когда обе величины существуют. Также известны несколько иные подходы к формализации дифференциальных игр, разработанные J1.C. Понтрягиным, Б.Н. Пшеничным и представителями созданных ими научных школ. Отметим, что довольно подробно базисная постановка задач обсуждается в монографии A. Friedman [42] но дифференциальным играм.
Была доказана [10] следующая теорема существования функции цены при достаточно общих условиях. Пусть динамика управляемой системы записывается в виде r(t) = f(x(J), «(/), u(t)), t > 0, ж(0) =х0еМ где x(t) € Q С К" - фазовый вектор в момент времени t, М - часть границы множества О, на которой заданы краевые условия, u(t) G U и v(t) € V - управления минимизирующего и максимизирующего игроков; U и V - компакты в конечномерных пространствах. Пусть далее функция / непрерывна по совокупности переменных, удовлетворяет условию подлинейного роста и локальному условию Липшица но переменной х. Кроме того, i(x,p) = minmax(p, f(x,u,v)) = maxmin(p, f(x,u,v)). ueU veV veV ueU
Тогда в рамках позиционной формализации указанные условия обеспечивают существование функции цены V°(-): О, —> [0, оо] дифференциальной игры быстродействия.
Кроме того, были сформулированы и доказаны аналогичные теоремы существования и единственности обобщенного решения уравнения Гамильтона-Якоби на гладких многообразиях [11].
Р. Айзеке первым написал дифференциальное уравнение для функции цены. В случае задачи быстродействия оно имеет вид
ОТ Г
П(х,р) = -1, xett CR" = (!)
V{x) = 0, G M С дП.
В монографии [1] было показано, что классическое решение краевой задачи (1) (если оно существует) совпадает с функцией цены V(x) дифференциальной игры быстродействия. Таким образом, при некоторых дополнительных условиях гладкости для нахождения дифференцируемой функции цены может быть использован классический метод характеристик [31, 12].
В общем случае функция цены дифференциальной игры быстродействия может быть негладкой, разрывной или уходить в бесконечность. Метод построения кусочно-гладкой или разрывной функции цены, предложенный Р. Айзексом, заключается в последовательном нахождении гладких ветвей решения при помощи классических характеристик. Основная трудность применения метода Айзекса состоит в обнаружении поверхностей стыковки (сингулярных поверхностей) гладких ветвей функции цены. Р. Айзексом были рассмотрены различные типы сингулярных поверхностей и некоторые способы их построения.
При развитии теории дифференциальных игр необходимо возникают нелинейные уравнения в частных производных первого порядка, в которые могут входить значения самой функции V(x). Иными словами, уравнения Беллмана-Айзекса имеют вид dV\
F{x,Vyp) = 0, жбПсГ ■)> (2) с краевыми условиями
V{x) = W(x), хеМсдП.
Здесь под функцией V — V(x) понимается неизвестная функция п переменных х — (xi,. ,хп), F - скалярная функция, называемая гамильтонианом.
В случае, когда функция V{x) и гамильтониан F(x,V,p) дважды дифференцируемы по своим аргументам, решение задачи (2) локально сводится к интегрированию системы классических (регулярных) характеристик x = Fpt V = {V,FP) p = -Fx-pFv. (3)
Однако во многих задачах теории оптимального управления и дифференциальных игр одна или обе функции V(x), F(x,V,p) являются негладкими. В этом случае решение задачи (2) (и (1) в частности) понимается в обобщенном смысле.
Одним из наиболее известных подходов к определению обобщенного решения является теория вязкостных решений, разработанная в последние десятилетия M.G. Crandall, Р.Н. Lions [38], [54], а также C.L. Evans [29]. В работах М. Bardi, I. Capuzzo-Dolcetta [34], S. Bottacin, M. Falcone [33], P. Soravia [35] было введено и исследовано понятие разрывного е-решения (envelope solution) краевой задачи (2), определение которого опирается на понятие вязкостного решения.
Известен также несколько иной способ обоснования решения с помощью теории минимаксных решений. разработанной А.И. Субботиным [25]. Было доказано совпадение е-решения с минимаксным решением и разработаны численные схемы построения решения краевой задачи (2) для обоих подходов. Случай совпадения разрывной функции с функцией цены для игры быстродействия (1) исследовался в работах JI.B. Камневой [6, 7].
Приведем определение вязкостного решения в терминах тестовых функций, которое было введено M.G. Crandall, P.L. Lions [38, 54] и C.L. Evans [29]. Обобщенным вязкостным решением краевой задачи (2) с терминальными граничными условиями называется непрерывная функция V(x), удовлетворяющая граничному условию на М:
V(x) = W(x), хеМ. и являющаяся одновременно верхним и нижним вязкостным решением.
В свою очередь верхнее решение определяется так. Для всякой пробной функции <р(х), гладкой в окрестности точки .г'о и такой, что минимум
Жо: min(V(a;) — ^(-0) X достигается в точке хо, верхнее решение удовлетворяет неравенству
F{xо, У(жо), V<p{xо)) >0, х0 е П U М. (4)
Для нижнего решения должно выполняться неравенство
F{xо, КЫ, Чфо)) <0, € П (5) для всякой гладкой пробной функции, такой что максимум xq: тах(У(гг) — ip{x)) х достигается в точке Xq .
Заметим, что условие (5), определяющее нижнее решение, выполнено в открытой области О, в то время как условие (4) для верхнего решения выполняется вплоть до границы <9П на ее подмножестве М. Подобное различие было впервые подчеркнуто в работе [41] для случая уравнения Гамильтона-Якоби, когда левая часть уравнения имеет специальный вид:
F(x, V,p) = рп + Н(х, V,p), р = (pi,. ,pni).
Выделенная переменная хп обычно имеет смысл времени.
Если рассматривается краевая задача (2) с начальными граничными условиями, то неравенства (4) и (5) берутся с обратным знаком. Выбор того, какого именно типа заданы граничные условия на dQ, терминального или начального, зависит от постановки рассматриваемой задачи. В теории оптимального управления и теории дифференциальных игры граничные условия, как правило, имеют терминальный тип, а в задачах физики они - начального типа. При этом вязкостное решение для начальной и терминальной краевой задачи (2) могут быть существенно различными. Данный вопрос исследуется в работах автора, А.А. Меликяна и Н.В. Овакимян [70, 66] и нашел отражение на страницах данной диссертации.
Кроме того заметим, что если построение гладкой тестовой функции <р(х) с достижением максимума или минимума в точке xq невозможно, то проверка соответствующего условия на вязкостное решение (4) или (5) не требуется, и оно считается выполненным автоматически. Легко также проверить, что классическое (т.е. гладкое) решение задачи (2) (если оно существует) удовлетворяет определению вязкостного решения.
Для описания сингулярных решений задачи (2) введем понятие регулярной и сингулярной точки вязкостного решения. Будем говорить, что точка ж о 6 R7l\Q называется регулярной точкой вязкостного решения краевой задачи (2), если существует открытая окрестность D С Шп\0. точки ж о. такая что функция V (.;;) дважды дифференцируема в окрестности D, V(x) 6 C2(D)J и гамильтониан F(x, V, р) также дважды дифференцируем в любой точке расширенного пространства (x,V,p) G N, F <Е C2(N), где iV С R2"+1 - открытая окрестность точки (ж0Л/(гсо),Ро), где ро = dV(xo)/dx, из пространства Ш2п+1 векторов (x,V,p).
Все точки, не удовлетворяющие данным условиям, будем называть сингулярными точками вязкостного решения. Тогда сингулярная кривая, поверхность или многообразие - это такая кривая, поверхность или многообразие, которая состоит из точек сингулярного типа.
Рассмотрим следующую ситуацию. Пусть V{x) является непрерывным вязкостным решением краевой задачи (2) в некоторой открытой окрестности D С 1" точки х0. Кроме того, пусть имеется гладкая гиперповерхность Г такая, что xq £ Г С D, а решение задачи V(x) 6 C(D) представимо в виде V(x) — min[Vo(a;), где
Vi{x) £ С2(A), i — 0,1, -Do и D\ - открытые полуокрестности точки xq, D = Do + Г + D\. Тогда точка Xq называется сингулярной точкой простейшего типа.
Было доказано [56], что для проверки вязкостного условия (5) в случае сингулярности простейшего типа достаточно рассмотреть одиоиараметрическое семейство тестовых функций: <р\(х) = АУЦж) + (1 — A)Vo(z), Л 6 [0,1], и исследовать поведение гамильтониана F(xо, V(xo), Vcp\(xo)) как функции параметра Л на отрезке [0,1]. Было получено обобщение данного утверждения на случай сингулярностей более общего вида.
В теории дифференциальных игр известны различные типы сингулярных поверхностей [1, 36, 56]. Их построение основано на анализе поведения оптимальных траекторий в окрестности сингулярной поверхности и учете возможных особых оптимальных движений, идущих вдоль сингулярной поверхности. Наиболее важными являются рассеивающие и экивокальные сингулярные поверхности. Последние характерны именно для дифференциальных игр и не могут возникать в задачах теории оптимального управления. Одним из эффективных методов построения сингулярных поверхностей является метод сингулярных характеристик [56].
Для его иллюстрации рассмотрим построение сингулярной поверхности (или кривой в случае п = 2), заданной многообразием Г С Q. Сингулярные характеристики возникают, когда в исходной дифференциальной игре появляется естественным образом гиперповерхность W3 коразмерности 3 в расширенном пространстве с точками (x,V,p), где ж G ln, F Е М и р G М7\ которая заключает в себе особенности задачи [15]. Она задается с помощью условий
И/3: Fi(x, V,p) = 0, F0(x,V,p) = 0, F-i(x,V,p) = 0, где выбор функции определяется типом сингулярной поверхности, свойствами вязкостного решения или условиями подхода/выхода регулярных характеристик с многообразия Г. Одной из функций F{ может быть правая часть исходного уравнения F(x,V,p) = 0. Для записи системы уравнений сингулярных характеристик, подобной (3), требуется полное определение W3.
Необходимые условия существования сингулярной поверхности экивокального типа имеют вид
F0 = F(x, V,p) = 0, F^x, V) = V — S(x) = 0,
F-1 = {F1F} = (Fp,p-q) = 0 (q = dS/dx).
Последнее равенство описывает условие касания выходящей характеристики к экивокальной поверхности Г, а функция S(x) Е С2 задает известное гладкое решение по одну из ее сторон. Фигурные скобки {••} обозначают скобки Якоби (Пуассона), определяемые следующим образом
GH} = (Gx + pGv, Нр) - (Нх + pHv, Gp). Тогда система сингулярных характеристик записывается в виде = FP, V=(p,Fp), р = —Fx — PFV - (P ~ <?)• (6)
Зная граничные условия для системы (б), можно построить поле сингулярных характеристик и тем самым определить поверхность Г. Данный метод построения экивокальной поверхности, а также проверка вязкостных условий (4)-(5) для решения краевой задачи (2), используются в диссертации.
Одной из первых работ, посвященных исследованию дифференциальных игр с простым движением, можно считать работу Н. Steinhaus [62], опубликованную в 1925 г. Далее, с начала 50-х годов появляются работы Р. Апзекса [1], А.С. Безиковича, Н.Н. Петрова [18], J1.A. Петросяна [19], Б.Н. Пшеничного [22], Ф.Л. Черноусько [27], J.O. Flynn [43], A. Zieba [63], проводящие более глубокое исследование. В ходе их решения были получены интересные факты, относящиеся к геометрии. Каждая из приведенных работ дала предпосылки к появлению целого цикла работ по дифференциальным играм с простым движением. Здесь можно упомянуть работы H.JI. Григоренко [4], А.А. Меликяна, М.С. Никольского [17], Г.К. Пожарицкого, Б.Б. Рихсиева [24], И.И. Шевченко и многих других.
В монографии Р. Айзекса [1] была рассмотрена игра сближеиия/пре-следования двух катеров в море при наличии кругового острова между ними. Ее полное решение и обобщение на случай препятствия произвольной формы было получено позже Г.К. Пожарицким [20] и А.А. Меликяном совместно с J1.C. Вишневецким [2]. Это дало толчок для исследования дифференциальных игр на двумерных многообразиях более сложной формы. В 90-х годах были исследованы свойства дифференциальных игр простого преследования па неограниченных поверхностях и получено полное решение для случая дифференциальной игры простого преследования на конусе [14, 45, 58], были изучены особенности дифференциальных игр преследования на плоских двусторонних фигурах [13]. Обзор по данной проблематике был проведен в работе [59]. Одним из вкладов автора диссертации является изучение свойств дифференциальных игр простого преследования на ограниченных поверхностях, таких как эллипсоиды вращения, двусторонние плоские эллипсы. Для некоторых значений параметров задачи (например, отношение скоростей игроков или эксцентриситет рассматриваемого эллипса) преследование но кратчайшей геодезической линии, соединяющей игроков, является оптимальным во всем фазовом пространстве. При других значениях параметров задачи - это не так, и преследование по особым траекториям движения должно быть рассмотрено. Поэтому переход от первого случая ко второму, когда особые (сингулярные) траектории появляются — вопрос зарождения бифуркации, как перестройки картины оптимального синтеза, является одной из целей настоящего исследования.
Стоит отметить также работы представителей научной школы Н.Ю. Сатимова по схожей тематике. Были рассмотрены задачи простого преследования на евклидовой плоскости с препятствиями [32, 50, 53], на сфере [51], игровые задачи простого преследования на двумерных многообразиях с несколькими преследователями [61, 52].
Цель работы. Исследование структуры оптимальных стратегии игроков в дифференциальных играх на ограниченных поверхностях (на эллипсоиде вращения, двустороннем плоском эллипсе) и на неограниченных поверхностях вращения (на гиперболоиде и параболоиде вращения). Изучение свойств разбиения фазового пространства игры на подобласти с тем или иным типом оптимального поведения игроков.
Исследование некоторых вопросов теории вязкостных решений уравнения Гамильтона-Якоби, лежащей в основе рассматриваемых дифференциальных игр на поверхностях.
Основные положения работы. На защиту выносятся следующие результаты.
1) Для дифференциальных игр на эллипсоидах (на эллипсоиде вращения, на двустороннем плоском эллипсе) определена область параметров задачи, в которой решение игры имеет простую структуру, и оптимальным поведением игроков является движение вдоль кратчайшей геодезической линии, соединяющей их. В оставшейся части пространства параметров это не является верным, и преследование может происходить по особым траекториям движения. В последнем случае задача требует более глубокого анализа и привлечения аппарата метода сингулярных характеристик.
2) Для дифференциальных игр на неограниченных поверхностях вращения (гиперболоид вращения, параболоид вращения) получены точные аналитические формулы, задающие разбиение фазового пространства игры. Одна из них определяет многообразие пар точек на поверхности, которые соединяются двумя и более кратчайшими геодезическими, другая задает край области особых траекторий преследования на пересечении с этим многообразием.
3) Проведен сравнительный анализ различных постановок задач оптимального управления и вариационного исчисления, приводящих к двум возможным типам граничных условий для уравнения Гамильтона-Якоби: терминальному или начальному. Построен пример, в котором вязкостное решение для краевой задачи с одними и теми же граничными условиями, но с различным типами их задания (начальным или терминальным), приводит к разным результатам.
Научная и практическая ценность работы. Доказанные в диссертации теоремы и развиваемая техника могут быть использованы как в общей теории дифференциальных игр преследования-убегания, так и в реальных задачах управления прикладного содержания при преследовании одного объекта другим в условиях наличия препятствия между ними или других ограничений на свободу их движений.
Научная новизна. Все результаты диссертации являются новыми, достоверными и представляют интерес для теории дифференциальных игр, а также практический интерес при разработке алгоритмов преследования-убегания управляемых механических систем. Они получены автором самостоятельно под научным руководством члена-корреспондента РАН А.А. Мелпкяна и опубликованы.
Апробация и публикации. Результаты диссертации докладывались автором на научной конференции МФТИ, ноябрь, 2004 г.; на весенней математической школе "Понтрягинские чтения", посвященной 100-летию академика С.М. Николького, май, 2005 г.; на международном семинаре "Теория управления и теория обобщенных уравнений Гамильтона-Якоби", посвященном 60-летию академика А.И. Субботина, в Екатеринбурге, июнь, 2005 г.; на американской конференции по теории управления (АСС) в Портленде, США, июнь, 2005 г; на 12-м международном симпозиуме но динамическим играм и их приложениям, София-Антиполпс, Франция, в июле, 2006 г.; на международной конференции "Управление динамическими системами" в Институте проблем механики им. А.Ю. Ишлинского РАН, январь, 2009 г. Был сделан доклад на семинаре кафедры высшей математики МФТИ под руководством проф. Е.С. Половинкина в апреле 2009 г. По теме диссертации опубликовано 11 работ, из них 2 публикации в реферируемых журналах из перечня ВАК, одна публикация в рецензируемом ежегодном сборнике трудов международного сообщества по динамическим играм (ISDG).
Структура и объем диссертации. Диссертация состоит из введения и четырех глав. Нумерация формул, теорем, замечаний и т.д. — двойная и раздельная по главам. Первая цифра означает номер главы, вторая -формулы или утверждения. Объем диссертации - 109 страниц. Список цитированной литературы включает [74] наименования.
1. Айзеке Р. Дифференциальные игры. - М.: Мир, 1967. - 480 с.
2. Втиневецкий JI.C., Меликян А.А. Оптимальное преследование на плоскости при наличии препятствия // ПММ 1982. - Т. 46, вып. 4.- с. 613-620.
3. Гельфанд И.М., Фомин С.В. Вариационное исчисление. М., Физматгиз, 1961.
4. Григоренко H.JI. Дифференциальные игры преследования несколькими объектами. М.: Изд-во МГУ, 1983. - 77 с.
5. Демьянов В. Ф. Минимакс: дифференцируемость по направлениям. Л.: Изд-во ЛГУ, 1974.
6. Камнева Л. В. О свойствах разрывной функции цены в игровой задаче быстродействия // Доклады РАН. 2006. - Т. 408, N. 3. -С. 301-304.
7. Камнева Л. В. Об условиях совпадения разрывной функции с функцией цены игры в задаче быстродействия // ПММ. 2006.- Т. 70, вып. 5. С. 739-752.
8. Краеовский Н.Н. Теория управления движением. М.: Наука, 1968.
9. Краеовский Н.Н. Игровые задачи о встрече движений. М.: Наука, 1970.
10. Краеовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974. - 456 с.
11. Кривоносое А. Т. Обобщение решения уравнения Гамильтона-Якоби на гладком многообразии // Труды Института математики и механики УрО РАН. 1992. - Т. 2. - С. 156-165.
12. Курант Р., Гильберт Д. Методы математической физики. Т. 2. — М.; Л.: Гостехиздат, 1945. 620 с.
13. Меликян А.А. Первичные стратегии простого преследования в дифференциальных играх па двусторонних плоских фигурах // ПММ. Т. 68, вып. 4. - С. 611-622.
14. Меликян А.А., Овакимян Н.В. Игровая задача простого преследования на двумерном конусе // ПММ 1991. - Т. 55, вып. 5. - С. 741-751.
15. Меликян А.А., Овсеевич А.И. Гамильтоновы системы с заданным инвариантным многообразием и некоторые их приложения // ПММ- 1984. Т. 48, вып. 2. - С. 205-213.
16. Мищенко А. С., Фоменко А. Т. Курс дифференциальной геометрии и топологии. М., Факториал, 2000.
17. Никольский М. С. О квазилинейной задаче убегания // Доклады АН СССР 1975. - Т. 221, № 3. - С. 539-542.
18. Петров Н.Н. Одна оценка в дифференциальной игре со многими убегающими // Вести. ЛГУ. 1985. - Т. 4, № 22. - С. 107-109.
19. Петросян Л.А. Дифференциальные игры на выталкивание со многими участниками // Доклады АН СССР. 1965. - Т. 161, № 2.- С. 285-287.
20. Пожарицкий Г.К. Задача Айзекса об огибании острова // ПММ. -1982. Т. 46, вып. 5. - С. 707-713.
21. Прасолов В.В., Соловьев Ю.П. Эллиптические функции и алгебраические уравнения. М.: Факториал, 1997. - 290 с.
22. Пшеничный Б.Н. О линейных дифференциальных играх // Кибернетика. 1968. - № I. - С. 47-53.
23. Пшеничный Б.Н., Остапенко В.В. Дифференциальные игры. -Киев: Наукова думка, 1992.
24. Рихсиев Б.Б. Дифференциальные игры с простыми движениями.- Ташкент: Фан, 1990. 232 с.
25. Субботин А.И. Обобщенные решения уравнений в частных производных первого порядка: перспективы динамической оптимизации. Москва-Ижевск: Институт компьютерных исследований, 2003.26 27 [28 [2930 3132