Задача конфликтного управления с наследственной информацией тема автореферата и диссертации по механике, 01.02.01 ВАК РФ
Лукоянов, Николай Юрьевич
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Екатеринбург
МЕСТО ЗАЩИТЫ
|
||||
1996
ГОД ЗАЩИТЫ
|
|
01.02.01
КОД ВАК РФ
|
||
|
На правах рукописи
Л У КОЯ НОЙ Николай Юрьевич
ЗАДАЧА КОНФЛИКТНОГО УПРАВЛЕНИЯ С НАСЛЕДСТВЕННОЙ ИНФОРМАЦИЕЙ
01.02.01 - теоретическая механика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
Екатеринбург - 1996
Работа выполнена в Уральском государственном университете имели Л.М.Горького на кафедре теоретическом механики.
Научный руководитель - академик РАН,
доктор физико-математических наук Н.Н.ГСрасовсхий.
Официальные оппоненты - доктор физико-математических наук,
заседании диссертационного совета Д 002.07.01 по защите диссертаций ва соискание ученой степени доктора паух при Институте
математики и механики Уральского отделения РАН (620219, г.Екатеринбург, ул. С.Ковалевсхой, 16).
С диссертацией можно ознакомятся в библиотеке Ипститута математики и механики УрО РАН.
профессор А.Г.Ченцов,
кандидат физико-математических наук,
доцент М.И.Логинов.
Ведущая организация - Московские Государственный Университет
Зашита состоится
на
Автореферат разослан "_* МЛХ^тЮ. 199бг.
Ученый секретарь
диссертационного совета кандидат фаз.-мат. наук, с.н.с.
М.И.Гусев
ОБШАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Реальные процессы управления протекают
■шо в условиях неконтролируемых помех со стороны окружающей № или же под влиянием сознательного противодействия зторого лица (противника). Целью, как правило, 'является :ижение некоторого качества процесса управления, которое во гих случаях удойно описывать с помощья подходящего показателя, шсаюг задачи конфликтного управления, т.е. задачи об авлении по принципу обратной связи, которое гарантирует шально значение заданного показателя качества. Эти задачи мализуются в рамках теории дифференциальных игр. Стаяозление I теории относится к началу 1960-х годов. Оно было определено витием математической теории оптимального управления и эебностями практики. В настоящее время теория дифференциальных сложилась в самостоятельную дисциплину, имеющую прочные связи многими разделами механики и математики. В то же время для гих задач конфликтного управления, в том числе для задач с эрминальным показателем качества процесса, когда следует тывать информацию об истории этого процесса, остаются не сненными вопросы, прежде всего связанные с построением ективных, реализуемых на ЭВМ, процедур для вычисления имального гарантированного результата Сцены игры) и мирования оптимальных стратегий управления.
Существенный вклад в развитие теории дифференциальных игр ели работы Р.Айзекса, Э.Г.Альбрехта, В.Д.Батухтина, Т.Башара, зллмана, В.Г.Болтянского, А.БраЯсона, Р.Ф.Габасова,
.Гамкрелидзе, В.И.Жуковского, М.И.Зеликина, Н-Калтона,
.Кирилловой, А.Ф.Клейменова, А.Н.Красовского, Н.Н.Красовского, .Крендала, А.В.Кряжимского, А.Б.Куржанского, ДжЛейтмана, Лина, П.Л.Лионса, М.Д.Локшина, А.А.Меликяна, Е.Ф.Мнщенко, .Никольского, Ж.ПОбена, Г.Ольсдера, Ю.С.Осипова, А.Г.Пашкова, .Пацко, ЕНЛетрова, Л.А.Петросяна, Г.КЛожарицкого,
Лоловинкина, Л.С.Понтрягина, Б.Н.Пшеничного, Н.Ю.Сатимова, .Субботина, ЕКСубботиной, А.М.Тарасьева, В.Е.Третьякова, .Ушакова, У.Флеминга, А.Фридмана, Хо Ю-ши, А.Г.Ченцова, .Черноусько, А.А.Чикрия, Р.Эллиотта и многих других ученых.
В диссертации рассматривается задача конфликтного упразления I динамической системы, описываемой обыкновенными £]ференциальными уравнениями, при показателе качества, заданном
как функционал от реализации движения. Исследуется случай, ког для формирования искомого управления надлежит использовать существу информацию об истории движения.
Цель работы. Разработка и обоснование конструкций д
эффективного вычисления цены игры и формирования оптимальн стратегий управления.
Методика исследований. Методы исследования опираются
достижения теории дифференциальных уравнений, теории устойчивое движения, теории оптимального управления, выпуклого гнали; теории случайных процессов. Диссертация выполнена в рамк исследований по теории дифференциальных игр, ведущихся Екатеринбурге. Используются идеи метода стохастическо программного синтеза1^ и связанного с ним метода выпуклых свер: оболочек3^ для вычисления цены игры; метод экстремального сдви: на сопутствующие движения^ ^ для построения оптимальных стратегий
Научная новизна. Дана функциональная интерпретация процес«
управления, которая сводит исходную задачу конфликтного управлеш Сс показателем качества, вообще говоря, нетерминальным) дифференциальной игре с терминальной платой, но уже в многомернс пространстве. Тем самым устанавливается естественная связь оби» теоретических положений в играх с терминальной платой и в играх нетерминальной платой. Это позволяет трансформировать должнь образом терминальные конструкции1^""^ в конструкции (правл многомерные) для исходной задачи и свести ее к построению выпукль сверху оболочек для вспомогательных функций в многомернь пространствах. С другой стороны, предложен метод редукции этих г сути многомерных построений к построениям в пространства значительно меньшей размерности. Это повышает эффективное! решения исходной задачи и соответствующих вычислений на практике.
Теоретическая и практическая ценность. Основные общи
Красовский А.Е, Красовский H.H., Третьяков В.Е.. Стохастически программный синтез для детерминированной позиционной дифференциаль ной игры// Прикл. матем. и мех.. 1981. Т.4-5, вып.4. 0.579-586.
^Красовский ЕН. Управление динамической системой. М.Жаука, 19£
33Krasovskil N.N., Reshetova T.N. On the program synthesis of guarandeed control// Problem of Control and Information Theorj T988.Vol.17, no.6. P.333-343,
^Krasovskli A.N., Krasovskli N.N. Control under Lack о Information. 1995. Blrkhauaer, USA.
верждения о цене игры и оптимальных стратегиях обоснованы по андартам математики. Результаты диссертации носят конструктивный 1рактер и применимы к достаточно широкому кругу задач, «длагаемые конструкции и процедуры могут быть положены в основу ;я разработки эффективных алгоритмов и программ, реализуемых на !М, для решения типичных конкретных задач управления.
Аппробация работы. Материал по теме диссертации докладывался
: следующих научных конференциях: Математическая школа онтрягинские чтения - V" (Воронеж, 1994); III Международный минар "Многокритериальные задачи при неопределенности" рехово-Зуево, 1994); Международная конференция "Нелинейный и оретико-игровой синтез управления" (Международный математический статут Эйлера, Санкт-Петербург , 1995); III Международный минар "Негладкие и разрывные задачи управления и оптимизации" анкт-Петербург, 1995); Восьмой международный семинар "Динамика и равление" (Венгрия,Сопрон,1995).
Работа подробно обсуждалась на научных семинарах кафедры оретической механики Уральского госуниверситета, отдела намических систем Института математики и механики УрО РАН, федры системного анализа Московского государственного иверситета.
Публикации. По теме диссертации опубликовано 3 статьи и 5
зисов докладов на научных конференциях.
Структура и об'ем работы. Диссертация состоит из введения и
ух глав. Нумерация параграфов сквозная. Список литературы лючает 72 наименования. Объем работы составляет 92 страницы шинописного текста.
СОДЕРЖАНИЕ РАБОТЫ.
Первая глава состоит из пяти параграфов. В первых трех даются гтановка рассматриваемой задачи конфликтного управления и нкциональная трактовка процесса управления, на основе которой цача сводится к построению выпуклых сверху оболочек для помогательных функций в многомерных пространствах. В
эдующих двух развиваемый подход иллюстрируется на материале иения конкретной задачи управления. Приводятся результаты купирования процесса управления на ЭВМ.
1. Постановка задачи. Пусть система описывается уравнением
дх/йг = А«)Х + т,и,у), о < < г ^ -в (и:
X € Rn, U « Rr, V e Rs
Здесь x - фазовый вектор, u - вектор управления, v - векто] помехи; И - заданные моменты времени; n, г и s - данньк натуральные числа; A(t) и f(t,u,v) - кусочно-непрерывные по 1 матрица-функция и вектор-функция соответственно, fCt,u,v) нг интервалах непрерывности по t непрерывна по совокупноси аргументов Сточки разрьва по t функции iCt,u,v) не зависят от u j v), в точках разрьва ode функции непрерывны справа; и и v стеснень ограничениями
и е Р, V « Q C1.Z
где Р и Q - заданные компакты; вьшолнено условие седловой точю в маленькой игре2^, т.е. для любых m е Rn и t « [t°/e справедливо равенство
min шах < m , i(t,u,v) > = max min < m , i(t,u,v) > С1Д
UeP V«Q V«Q UeP
где символ <-,-> означает скалярное произведение.
Допустимы измеримые по Борелю реализации t° «S t < Si и v[t°[-]-6) = ivtt] e Q, t° t < -Ö}. Эти реализаци] порождают согласно С1.1) абсолютно непрерывные движения xCt^C-l'fl =' üctt], t° ^ t < ■ö} Сначальное состояние xCt°] задано).
Показатель 7 качества процесса управления возьмем в вид| функционала 7(x[t°[-],6]), который имеет следующее строение
Выбраны натуральное число N, моменты времени t^« Ct°,"ö],
> t^ ^, i=1 ,...Л-1, t^ = -б, постоянные матрицы D^ размерност]
pCi]xn, К pCt3< n, £ = 1.....N. Набор С DC13x[tC1]],...J)[N]x[ttNl] >
образует р-мерный вектор, p = p^+...+p[K1. Выбрана некотора норма цСО в пространстве RP таких наборов. Полагаем
7 = 7(хС1;°[-Ш = |iC ffic1]x[t[1]],...,DCN]x[tCN]]} ) С1.4
Такой показатель качества может быть задан изначально, или таш функционал вводится как аппроксимирующий для исходного показател. 7#Cx[t°C-]'ö]), который учитывает континуум значений xttl.
Задача требует найти управление (или помеху), нацеленно минимизировать (нацеленную максимизировать) показатель 7 С1.4-).
Эти задачи объединяются в антагонистическую дифференциальну] игру двух лиц Си - действие первого игрока, v - действи второго) . Для всякой исходной истории xtt^Mt^l СЪ° ^ t,, < *fi эта игра имеет цену p°Cx[t°[-]tJ(t]). Игра имеет седловую точкз
оторая складывается из оптимальных стратегий {ц0(х[1;°(-Ш,е), °Схи°[-]и,е)}. Здесь хИ°[-Ш = Шт], ^ т < « - история вижения, реализовавшаяся к текущему моменту времени е > О екоторый параметр точности2^. Движения формируются в дискретной о времени схеме . Оптимальные стратегии и°С-) и у°СО строятся ак экстремальные^ к функционалу р°СО.
Таким образом, для формирования оптимального управления и онтроптимальной помехи достаточно уметь эффективно вычислять цену гры для каждой текущей истории хС^ММ, как исходной.
Во многих случаях для построения оптимальных воздействий не бязательно учитывать всю историю движения к текущему моменту ремени Ь, достаточно лишь учитывать какую-то ее часть. Например, ели функционал 7 (1.4) позиционный4^, то достаточно опираться олько на текущую позицию Л,хСШ.
В рассматриваемой дифференциальной игре при условии С 1.3) едловая точка достигается на чистых стратегиях. Если условие 1.3) не выполняется, то решение переносится в класс смешанных тратегий4"'. При этом вспомогательные построения, которые оставляют главное в этой работе, по существу не меняются.
2. Функциональная трактовка. Пусть к моменту I « еализовалась история х[1;°С-Ш. Назовем функциональной позицией,
А
оторая соответствует этой истории, набор Л, где
гШ = (хШ,хШ), хШ = { хтШ.....х™Ш > С2.1)
?„га г««], Х " 1 БС1]Х»С£иЗхШ, t<tCt]
Здесь ХСт^] - фундаментальная матрица решений для уравнения х/йх = АСт)х.
л
Теперь показатель 7 (1.4) можно записать^ виде 7=ц(хГтМ).
Эволюция функциональной позиции = й, СхШ,хШ)>
писывается уравнениями С1.1) и
<ыы/аь = *а,и,у), с г ^ тз сг.гз
де
= { I С^и/Л.....Гсм«,и,У) > С2.3)
гС1]«,и,у) = ( вСйт1й.ша;.илд, 1</а I о, г
'■'Красовский А.Н. 0 позиционном минимаксном управлении// Прикл. [атем. и мех., 1980. Т.44, Вып.4. 0.602-610.
Условие седловой точки в маленькой игре для буде'
вьшолняться в силу С 1.3). Начальное состояние для
системы (1.1),(2.2) однозначно определяется начальным состоянием
о л
системы (1.1). Введем показатель качества 7 для движени!
й^М-в] = ши, г° ^ г тЗ> системы (1.1),(2.2)
7 = 7(г[«) = цСхМ) (2.4
А
где ц(-) - норма из (1.4). Значение показателя 7 С2.4) совпадает со значением 7 (1.4).
Рассмотрим дифференциальную игру (1.13,(2.2)-(2.4) ]
А
пространстве функциональных позиций СЬ.гШ) уже с терминально!
А А- А
платой 7 (2.4). Эта игра имеет цену рСЦ.гС^]) и седловуи точк; {и°(1,2СУ,е), ^Л.гСи.е)}2^. Здесь гС^] - исходное состояние
А
системы (1.1),(2.2), - ее текущее состояние. Оптимальны«
А- А А^. А Ъ
стратегии и (Ъ.гС^.е) и Уч'ЪгС'Ц.е) строятся как экстремальные^
Ал А
к функции цены р Л.гСШ.
Из (1.1)41.4) и С2.1)-(2.4) следует, что цена ¡гО^гШ игры (1.1),(2.2)-(2.4) совпадает с ценой р°(хи£мя) игр! (1.1)-(1.4), а стратегии, оптимальные для игры (1.1),(2.2)-(2.4) при условии (2.1) будут определять воздействия и и V такие же, ка: и оптимальные стратегии для игры (1.1)-(1.4). Это означает, что п сути дела игры (1.1)-(1.4) и (1.1),(2.2)-(2.4) эквивалентна
Поэтому терминальные конструкции1^"^ трансформируйте, естественным образом в конструкции для исходной игры (1.1)-(1.4) При этом следует только учесть, что в отличие от стандартно] дифференциальной системы, в случае (1.1),(2.2),(2.3) в качеств
А
возможных состояний гШ выступают векторы не с любым набора
АГ /"1
компонент { хСУ, х "КЛ, 1=1.....N }, но лишь такие векторь
компоненты которых связаны соотношениями (2.1). .
3. Вычисление цены игры. Пусть реализовалась история хС^М^, ^ "(;,„< -д движения системы (1.1), которая согласи
А
(2.1) однозначно определяет функциональную позицию {Ц.гС'Ь,,,]}
А
{Ц/хСЪ^дСЪ,,,])}. Следуя методу стохастического программног
синтеза1^, введем программный экстремум. Для этого назначи] разбиение
\=\{т/ = W Tj+rTj < ak« .....k- Tk+i=^} Ш)
отрезка времени [Ц/М, в которое включим все моменты времени t^ « [t^.ti], i = 1.....N из (1.4) и все точки разрыва функций ACt) и f(t,u,v). С разбиением Д^ (3.1) свяжем независимые в совокупности случайные величины распределенные равномерно на
отрезке 0 < ^ 1, J=1,...,k. Набор i^,...,^} трактуется как элементарное событие со из вероятностного пространства (П.В^.Р}, где П = {ш> есть единичный куб в k-мерном пространстве, В^ -борелевская о-алгебра для этого куба, Р = Р(В) - лебегова мера на
гп п^
этом кубе, В е В^. Пусть Ксо) = { lLU(u) « R^ , (=1.....N },и«11
есть векторная р-мерная случайная величина, определенная на ШЗ^.Р). Программный экстремум е(0 определяется равенством
k TJ+1 C3'2)
= sup Г< , x[tJ > + M( E Г max min < l*(T„w) , i(T,u,v) Мт>] ПК-ЖН * JHTjVeQueP J -I
где
Ц1СОП = vraimax ц*(1(ш)), 1ае=МС1СсЛ>. l*(Tf,oi)=MC КшЩ,.....5, >, J=1,...Дс
(ü « П J > J
Здесь ц*(0 - норма, сопряженная к норме (iCO из (1.4). Символ MC-} означает математическое ожидание, символ МС-|-> - условное математическое ожидание.
При учете эквивалентности игр (1.D-0.4) и (1.13,(2.2)-(2.4) справедливо равенство^
lim e(xtt°Mt J Д,)= lim eCt^zttJAJ = p°(t:(t.zCtJl(])=p0(x[t°[-]t:|(]) k-»oo,6k-»0 k-»to,6j^-»0
Программный экстремум e(-) (3.2) может быть вычислен следующим образом^. Определим область
Ъ = { 1: ц*(ЗЭ < 1 > (3.3) ГП n[i]
где 1 = { 1 е Rb1 , (=1.....N } - уже детерминированная
векторная р-мерная переменная. Обозначим
TJ+1
ДфЛ^Д) = Г max min < 1 , 1Ct,u,v3 > dx, 1 е L, J= 1.....k (3.4).
j * Ij VeQ U«P
Построим рекуррентную последовательность функций
cp^Ct^D = 0, ф/t^.l) = i$/t#,0>L C3.5) $jCt#,l) = Atpj(tvD + cp^Ct^l), 1 6 L, J=к.....1
Здесь символ cpCID = означает выпуклую сверху оболочку
функции ф(-) в области L, т.е. минимальную вогнутую функцию, мажорирующую i|)CD, 1 с L
Справедливо равенство
eMt^-rt*]^) = eCt^ztyAJ = max Г< 1 , ktj > + ^Ct^.l)]
leb ^ J
Таким образом, задача свелась к построению последовательности функций ФуСО (3.5).
4. Одна задача конфликтного управления с интегральными оценками управляющих воздействий. Проиллюстрируем подход, предлагаемый в п.п. 2 и ' 3, на примере следующей задачи. Пусть система теперь описывается уравнением
dx/dt = ACttx + BCttu + CCttv, t^ -ft (4.1)
где A(t), BCt) и C(t) - непрерывные матрицы-функции. Пусть как и
выше заданы чивсло N, моменты времени t^ и матрицы D^,
i=1,...,N. Требуется найти управление (и) и помеху (v), ' которые
наделены соответственно на минимизацию и максимизацию показателя качества
7Ж = | { DC1 W1]],....DCN]x[t[N]] > | + ■О
+ „Г [< Ulli , ®«МтЗ > - < vtT) , tBOOvW >Мт С4.2)
где | • | - евклидова норма; ФСЬ) и ffi(t) - симметричные непрерьшные матрицы-функции. Квадратичные формы < и , ФСИи > и < v , ffi(t)v > - определенно-положительные для любого t « tt°,"6].
В данной задаче мгновенные значения воздействий и и v априори не стеснены ни какими ограничениями, но в показателе (4.2) имеются интегральные добавки, которые играют роль штрафа, накладываемого на реализации управления и помехи. Эти штрафующие_ оценки обеспечивают^ ограниченность оптимальных воздействий и0 и v°. -Наряду с фазовым вектором х удобно ввести дополнительную скалярную переменную у, динамика которой описывается уравнением
dy/dt = < U , ФСШ > - < V , 45(t)v >, ytt°] = 0, < t < fl (4.3) Далее, в соответствии с материалом из п.2, введем вектор
функционального состояния xCtl, который связан с историей xCt°Ht) движения системы (4.1) соотношением (2.1), и рассмотрим
Л
тройку (t.xCtl.y). Получаем вспомогательную дифференциальную игру с системой
dxCtl/dt = B(t)U + C(t)v (4.4)
dy/dt = < u , axtDu > - < v , ®(t)v >, t° ^ t < «
л
которая описьшает эволюцию тройки Ct.xCtJ.y}, и с показателем качества
= |хМ]| + у["Э] (4.5)
который оценивает движения { x[t°[-ЗтЭЗ, ytt°C• 3*03 > системы (4.4).
Л А
В (4.4) матрицы-функции B(t) и C(t) определяются через B(t) и C(t)
Л
подобно тому как в (2.3) вектор-функция I(t,u,v) определялась через i(t,u,v).
В игре (4.5),(4.6) существуют25 цена p°(t,x[t],y) и
оптимальные стратегии { u°(t,x(t],s), v°(t,x[t],E) >. Следуя
Ло А
конструкциям из п.З вычислим функцию p^Ct.xCt] ,у). Пусть
АЛ
реализовалась позиция = (t^xlt^.ylt^)}, t, $ < "6 .
Назначим разбиение
\=W = £v T1 = V 1 > V v 1 - TJ ^ ak' Tkfi = ®
отрезка Ct^I, в которое включим все точки t^ « из (4.2).
А
Область Ьи функции Дф^СЪ^Д), 1 « Ь, J=1,...,k здесь определяются следующим образом
L = С 1: |1| $ Г >, 1 = { 1Ш « RP , £=1.....N > « RP
V+t
Дф/Vl) = < 1 , NCtfl >dTT (4.6)
где
N(t) = -4- t С(т)Ш~1 (т)СТ(т) - В(т)Ф"1(т)ВТ(тг) ]
Здесь верхний индекс "Т" означает транспонирование; Ф 1(т) и Ф ^т) - обратные матрицы для Ф(х) и Ф(т) соответственно. Опираясь на
А А
функции Дфу/Ь^Д) С4.6) построим функции сру^Д) (3.5). Поскольку
А
здесь область Ь - евклидов шар, а функции Дф^И^Д) (4.6) суть квадратичные формы, то проведя построения получаем, что
Ф^Д) = < 1 , РСт^И > - Я}|1|2 + X}. ,/=1,...,к
где
FCO = Г NCOdT, X*. = шах шах
т J d—Дс+1 q=1.....р 4
Здесь действительные числа q = 1,...,р суть собственны
числа матрицы FCt^), d=1,...,k+1.
Величина программного экстремума для игры (4.45,(4.5 определяется равенством
= шм [< 1 . > + Ф^Д)] + у* =
= шах Г< 1 , IL > + < 1 , FCtJl > - Xf|l|2l 4 \f + у. |1|*1 L * * 1 J 1
Откуда, осуществляя предельный переход при шаге б^ разбиений
стремящемся к нулю (к.-»со), вьводим
* м4- *
= тах^ ХГт],
Здесь Мт] - максимальное собственное число матрицы Р(т).
Равенство (4.7) определяет функцию цены игры (4.4) ,(4.5)
Оптимальные стратегии и°(Ъ,хС1;],еЗ и \^(1д[£),е) строятся
эффективно как экстремальные^ к функции р^.хШ.уСМ) (4.7),
При условии (2.1), (4.3), величина р°(0 С4.7) дает цену р°С-), г
стратегии и°(-) и - оптимальные стратегии и°(0 и ^(0, для
исходной игры (4.1),(4.2).
Первую главу завершают результаты симулирования на ЭВМ процесса управления для модельной задачи типа (4.1),(4.2).
Итак, в первой главе рассматриваемая задача конфликтного управления C1.1D-C1.43 сведена к построению выпуклых сверху
оболочек ФуС13 функций ф^(13 (3.53 в области Ь (3.33 многомерного
пространства цР, р = Интерес представляют задачи, в
которых число N. следовательно, число р большие. Поэтому, если не удается, как например в задаче из п.4, найти какой-либо эффективный способ конструирования указанных оболочек, то вычисления становятся трудно реализуемыми, даже в случае небольшой размерности п фазового вектора х.
Валено, что вычисление е(*) С3.2) через построения (3.3)-(3.5)
в многомерном пространстве можно свертывать к подобным построениям . в пространствах значительно меньших размерностей. Это показывается во второй главе. Вторая глава состоит из четырех параграфов. В первом параграфе дается общая схема упомянутой редукции. В последующих трех эта схема проясняется на материале задач с типичными оценивающими показателями.
5. Свертка процедуры вычисления цены игры. Равенство (3.2) можно трансформировать к равенству
eCxCtSt-ltJA.) = sup Г l£i] . DCl]xCt[il] > + * * к 11(-)K1L t=1
k XJ+1 -1
+ < m, , XC-O.tJxCtJ > + MC E Г шах min < m(x„co) , ХСт!),хШх,и,у) >dx} * * * J=Hj v*Q ueP J J
где (5.1)
h(t) = max i, t[£] t, i=1.....N
(если нет ни одного I ( t=1.....N ) такого, что t^^ t, то h(t) = 0)
l[u = Mtl[£1Сах», 1=1.....hCtJ, m* = Mi EN XT[t[t].-e]DItlTltt](oa) }
* * * t=h(t#)+1
(5.2)
m(Xj,uD = Mi
L XT[t[ l].«D1 i]rlc t]CuO t >, J=1 ,...,k
l«hOCj)+1 1 J
В С5.1) учтено (2.1) и (2.3). Это позволяет вместо работы с
А Л Г41 Г«Л
функциями и Фу(1) от многомерного вектора 1 = { 1....Д >
N ф Г Г 11ф Г
работать с подходящими функциями от вектора т = Е X [V ,т5]В 1 ,
i=h(Tj)+1
т « Rn и векторов 1 , (=1 ,...,h(Xj), которые составляют лишь
часть компонент вектора 1. Именно, обозначим 1
¿ij>/(t*,nö = Г шах min < m , XC-&,x]i(x,u,v) >dT, m « ff1, J=1,...,k (5.3) j XJ VeQ U«P
Определим области
GjCtp = m) = (( Iе t], t=1.....hCfj) > , nO:
N
m
= E XT[t[iWilTlCi], 1 - i lm.....1™ } « L), /=1.....k+1
i=h(x^)+l ■>
Здесь суммирование по убывающему индексу полагается равным нулю. Множество Ь определено в (3.3). Построим последовательность
функций сруц, 1^,111), « б^*). /=к+1,...,1.
При /=к+1 полагаем
^с+1"».1(к+13'п0 = С1(к+1)'т) е °к+1а*} Далее по индукции. Пусть для 1 < ^ к+1 уже построена
функция е Заметим, чтс
поскольку все моменты ^^ « Н^/М, 1=1,из (1.4) включены е разбиение Л^ С3.1), то при переходе от ^+1 к j возможен лишь один из двух вариантов: 1) т.е. момент т^ не совпадает
ни с одним из моментов г"; 2) Мт^^МтуМ, т.е. =
Ь=ЬСт^+1). Для текущего J определяем
где в случае 11Ст^+1Э=11(ту> полагаем
= АФ/а*,га) + Ь^*'1^
а в случае определяем
где максимум берется при условии
т, + ХТ[г[Ы,13]ВСЫТ1[Ы - т, С(1с>Г)Дсы>,тр « в«„р
Продолжая индукцию до /=1 построим функцию ф^^Д^.т), « Можно проверить, что справедливо равенство
еСхПЙ-И^АР = шах [ е"*3< 1С{3 . ЮшхИ;СП] > +
* * к С1С1),т)«01а„}1- 1=1
[11 "мр] 1
+ < т , ХМ.ух«*] > + ф^Л1,...,! },т)|
Таким образом дело сводится к построению оболочек Ф^ЪзД^.т), которые конструируются овыпуклением функций фв областях б^СЪр по составному аргументу размерность которого убывает вместе с индексом / и становится значительно меньше чем размерность р вектора 1 « Ь.
Более того, во многих типичных случаях, когда известна структура нормы из (1.4), дело сводится к работе лишь с функциями от вектора ш. Правда при этом, подчас возникает потребность в некоторых дополнительных параметрах. Это, кратко сформулированное
здесь общее утверждение, поясняется в следующих параграфах на конкретном материале.
6. Позиционные функционалы. Рассмотрим дифференциальные игры (1.1М1.4) со следующими показателями качества (1.4):
7Ш= n(1)(fl>t1]x[tm].....DC№xttCN]]}) ={E^[il(DCi]x[tCi]i) (6.1)
7(23= ^(2)i®C1]xCt[1]],...,DtN]x[tCN1]}) ={max i](DCi]x[tti]])} (6.2)
7C3)= ^(3)((D[1]x[tn]],..,D[ii]xCt[N]]}) =((E(nC£](DC£]Xtttt]]))2]1/2 (6.3)
til DCl]
Здесь ц (О - некоторые нормы s№ , i = 1.....N.
функционалы y^y 7(3) являются позиционными®4',
поэтому достаточным информационным образом® для оптимальных стратегий в играх (1.1М1.3) для (6.1), (6.2), (6.3) служит текущая позиция йдСШ.
Редуцированные процедуры построения функций <|>jC-) и .их выпуклых оболочек cpj(-) в подходящих областях Gj для случаев с функционалами 7^ и 7^ описаны подробно и обоснованы в монографии Krasovakll АЛ., Krasovskii ПЛ. "Control voider Lack oi Information"4'. Дадим здесь построения для случая функционала следуя общей схеме свертывания из п.5. Это свертывание с одной стороны учитывает отличия функционала 7^ от 7^ и 7^. а с другой - сохраняет общие черты соответствующих построений.
Итак, рассмотрим игру (1.1М1.4) с показателем 7^ (6.3). Норма Ц*з)СО, сопряженная к норме (i^iO, имеет вид
МЙдШ =[Дсци1*(1С£Ь)2]1/2, 1 = £ lCil в RPC", i=1.....N >
где ¿l]*CO, t=1 - нормы, сопряженные к нормам ц^СО. Поэтому при вычислении верхней грани (5.1) случайные векторы mCTjjti) С5.2) стеснены ограничениями, которые зависят от скалярных
величин v2(t,,(xO =1 - Е Оказьвается, что
здесь, как и для и 7^). далее можно перейти от случайных величин 1С£1«д), mCTj.ca) и vCtjfa0 к детерминированным 1C£1, m и v. Опираясь на функции ДфjCЬ^лй С5.3) построим последовательность областей G^3)(t#) в пространстве rf1"1"1 пар (т,гО, и
последовательность функций «Pj^Ct^m.iO, (m.v) « Gj^ttJ. J
k+1,k.....1. Строить будем рекуррентно по шагам разбиения Л^(гj> (3.1).
При J=k+1 полагаем
Gk+1ct*3 = { (m,vy- 0<v<1,m = o}-, ^]tt#,m,v) = О, (m,v) е Gj-3](t
С
Пусть для J+1 уже построены область Gj^Ct^) и функция Фу+^^тдО, (m,v) е Gj^] (tp. Построим сначала область Gj^Ct*) и вспомогательную функцию ф^3:| *(Ц,т,и), Cm.v) е GПри переходе от к tj возможны два случая. В первом случае имеем h(Tj)=h(Tj+p. Тогда определяем
G$3)CV = G^jct,), ?$*CVm,v) = t,,m,v)
Во втором случае имеем h(xyi=h(Tj+1 )-1, тогда определяем
G^3)Ctp = { Cm,v): 0<v<1, ш = + ХТ[1СЫ,«]БСЫТ1, 1 « RPCW,
(цШ*Ш)2 < v2--^, v^ v, (m^.vj « Gj+jctp, h=hCTj)+1 } (6.4)
* (3) *
где максимум, определяющий вспомогательную функцию <Pj+f (-),
вычисляется по всем возможным парам (т^.г^), которые согласно
fo-j
(6.4) отвечают заданной паре (m.v) « Gj (t#). Далее полагаем q>j3)(ttjn.v) = ¿фуС%,т) + ф^*(Ъ*,т/и), (m.v) « G^Ct*) Ф^СЦдм) = ( 4)J33(t^,-,i;) G^3^«*). О^Ш
где Gj3^(tp - сечение области Gy3\t#) гиперплоскостью v = const.
Здесь символ СфЛ^.-.гО}^ означает выпуклую сверху оболочку функции 1|>(Ъж,т,10, конструируемую овыпуклением по . ш в области G, при фиксированных значениях остальных аргументов. Продолжая индукцию до /=1 построим область G^it^) и функцию (t^m.v), (m.v) « G^Ctj). Тогда величина
ef41Gtft°t-]tJAJ = max [f(1-i£)hE4|in(Dcax[tcnn)2]1/2 +
* * K ,C33rt J1"1 1=1 J
+ < m , XM.t^xEig > + Ф^и^тло]
будет обладать надлежащими свойствами u-стабильности и v-стабильности^^. Из этих свойств выводится^ что величина аппроксимирует цену p^Cxft^Mt^D игры (1.D-C1.3),
(6.3). Таким образом, дело сводится к построению выпуклых оболочек
cf/pCt^-.-v) функций i|>j3}(%,-,-»)-■ в областях G^Ctp. О ^ v 1,
размерность которых совпадает с размерностью фазового вектора х
системы (1.1) и не зависит от количества N точек t*^. Подчеркнем,
что здесь, как и во многих других случаях, в том числе в играх с показателями 7^ и 7(2)» выпуклые сверху оболочки конструируются
только по переменной m при фиксированных г>«[0,11. Это объясняется
тем, что области GjitJ, J=k+1,...,1 обладают свойством однородности по (in.v), т.е.
если (m,v) «s G^Ct^), то (щ.гр) « tj 2 0, tjv 1 (6.5)
Отсюда выводится, что функции (pj^Ctj.m.v), J=k+1.....1 будут
однородными со степенью единица по совокупности (т,гО. Поэтому
конструирование выпуклых сверху оболочек функций ф^^.т.Ю в
областях Gj®Ctp по паре (m,v), приводит к тем же самым функциям
Г Т) ■
cpj которые строились выше овыпуклением только по m в
сечениях Gj^t^) при фиксированных v « 10,1].
' (31
Итак, дано построение функции ф^ СО, которая согласно
предыдущему определяет цену игры (1.1М1.4) и оптимальные
стратегии для типичного показателя (6.3).
Далее на конкретном материале показывается, что, вообще
говоря, при построении функций <Pj(-) надлежит применять операцию
овыпукления уже по всем аргументам из пространства, которое
пополняет пространство Rn векторов m добавлением вспомогательных
параметров (таких как параметр v). Этот важный факт является одним
из главных результатов в настоящей работе.
7. Непозиционный функционал. Рассмотрим дифференциальную игру
(1.1)41.4) со следующим типичным показателем качества типа (1.4).
Заданы два разбиения отрезка времени
CtJ UJ m [t+1] EtJ \«q - < tq V > Ü tq 4 >tq iq= 1.....Nq-1 >
(7.1)
q = 1, 2
Iit] С 1г1
t-j т^ tg f l-j = ig = 1 «««»»Ng
, ШЛ ШЛ ., шах -1 t1 1 , t2 j = •в
Показатель качества имеет вид
N, Е £н3 [ 1Л ИЛ
7С4Э = 7M)CxttSM'ffl) = С D1 xtt1 П +
M=1
, tt9] ttP] [(,) , + max { Цо ^ С Do xtto 4)1 (7.2)
t2=l.....4
c У 1У
где Dg 4 - известные постоянные матрицы размерности Рд 4 х n, 1 <
1У " С У
Pq 4 < n; |ig 4 СО - некоторые нормы, ig = 1,...,Nq, q = 1,2.
Функционал 7(4) (7.2) есть аддитивная комбинация функционалов 7(13 (6.1) и 7С2) (6.2), но в отличии от 7С)-,, 7(2) и 7(3) (6.3) уже не является позиционным. Для формирования оптимальных стратегий в игре с показателем нужно уже существенно
учитывать информацию не только о текущей позиции tt,xCt]>, но и об истории движения xtt°[-]th Случай игры С1.1)-(1.4) с показателем (7.2) и доставляет тот конкретный материал, на котором удобно показать, что в общем случае при вычислении программного экстремума е(-) (3.2),(5.1) надлежит при построении функций ср^(-) овыпуклять по совокупности всех аргументов, которая складывается из m и дополнительных параметров, и которая определяет соответствующие области Gj Св данном случае - по парам (m,v)).
Возникающие здесь области Gy^Ctp уже не обладают свойством однородности (6.5).
Процедура вычисления величины е(0 С3.2), С5.1) в данном случае такова. Пусть реализовалась история xtt®Mt#] движения системы (1.1), t° < t^ < Q и выбрано разбиение
Дк=Д= { Xj'. т(= t^, Xj+i>ij, J=1,...,k, тк+1= "ft > C7.3)
отрезка ["t^.-ffl, в которое включены все точки разрыва функций A(t) .
[ C-J
и f(t,u,v) из С1.1) и все точки t^ 4 «- Ct^.-ffl, .....Ng, q=1,2
из '(7.1). Определим функции Дфу(1„,т) согласно (5.3). Построим
функции cpy^it^.m.v), Cm,v) « G^Ct^), m е Rn, v « R, J k+1 Дс.....1. При J=k+1 полагаем
Gj$(t„) = { (m,v): m = 0, 0 ^ v < 1 }, ф^а^т.гО = 0, Cm,г») « G^jttp
Пусть для 1 < < к+1 уже построены область С^) и
функция ф^С^тдО. Обозначим
11_(т) = тах (п, Ьп 4 < х, = 1.....Мп
1V«
Сесли нет ни одного такого, что ^ 4 ^ т, то Ьд(т) = О, д = 1,2)
Разбиение (7.3) выбрано так, что для любого ¿=1,...,к может случиться лишь один из трех вариантов:
1) т.е. момент времени не совпадает ни с одной из точек разбиений Д^ Од (7.1), q=\,2\
2) И^М^Ж. т.е. т/+1 = ^^
3) ^Ст^^Ст,), Ь2Ст</+1)=Ь2Ст>/)+1. т.е. т/+1 = ^ ^
Построим сначала область С^^СЪ^Э и вспомогательную функцию Ф^сц.тдо, стло « с^ар. В случае 1) полагаем
В случае 2) определяем
= { Сш,г): ш = т. + Х%!Ы,ш5ЫТ1, 1 « И ,
ц5м*(1) 1, Ь = Ь^т^+п Сп^д» « С^ар } (7.5)
су* су
Здесь Цд 4 (•) - нормы, сопряженные к 4 СО из С7.2), 1^=1.....Ыд,
д = 1,2. Функцию Ф^*СО в этом случае строим следующим образом:
(р$*агт,у) = тах ф^Да^.г», (т,тО « О^«*) (7.6)
В С7.6) максимум вычисляется по всем векторам тж, которые в
согласии с С7.5) отвечают заданной паре (т,гО « В случае 3) определяем
р1Ы
о^ир = { сш,г): о о < I, и = + 1 « и 2 ,
< V, Л = Ь2(Ту)+1, (т^.ир « в^ар } (7.7)
Ф^а^т.Ю = шах Ф^С^.т^), Сш.у) « (7.8)
В (7.8) максимум вычисляется по всем парам (т^.г^), которые
согласно (7.7) отвечают заданной паре (т,г>) е Теперь полагаем
Ф^а^т/и) = { ф^а^-.О С=С^4)аж) (7.9)
' В (7.9) символ (фС^,-,-)}^ означает выпуклую сверху оболочку функции фCt¡(t,m,v), которая конструируется овыпуклением уже по совокупному аргументу (т,г>) в области 0. Продолжая индукцию до
получим область С^а^) и функцию ф^СЦ.тл'), (т^) е й![4)СЦ).
Обозначим
п Ь1а*} [(,] [ЦЗ • [{.]
>0Г.„ « в Е и 1 ( в 1 Х[1 1 ] )
С1,3 С101 [ и
СГ1
Жх^С-Зу) = тах { 2 С Ъг 2 хК2 2 3 ) }
1£=1 , . . Введем величину
еС4)(хи°ЫЦЗ,Дк) = аОсИ^С-зг^Э + тах [ аеМф-И^ЖИЛ +
+ < т , ХШдхСу > + ф^сг^лмо] (7.10)
Устанавливается, что величина е^СО (7.10) обладает нужными свойствами и-стабильности и У-стабильности. Так как справедливо равенство
е(43(х[ф]«,Дк) = 7С4}СхСг°[-]тЗ])
то из этих свойств следует, что величина е^хС^МЦЗ,^)
аппроксимирует цену р^х^С-З^З) игры (1.1)-(1.3), (7.2).
Итак, описанная процедура вычисления величины е^СО на базе
функций ф^(-), которые получаются овыпуклением функций ф^(-) в
областях по паре аргументов (т/и), приводит к цене р^СО
игры (1.1)-(1.4) с показателем 7^ (7.2).
шорую главу завершает пример, который показывает, что овыпукление именно по паре (т.ъО существенно. В этом примере
овыпукление только по ш при каждом фиксированном V не дает цену игры. Приводятся результаты симулирования процесса управления на ЭВМ, подтверждающие теоретические выводы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ
1. Для задачи конфликтного управления динамической системой с нетерминальным показателем качества в виде функционала от реализации движения дана функциональная трактовка, которая сводит исходную задачу к дифференциальной игре с терминальной платой, но уже в многомерном пространстве функциональных состояний процесса управления. Таким образом, установлена естественная связь общих теоретических конструкций в играх с терминальной платой и в играх с нетерминальной платой. На основе этого исходная задача сведена к попятному построению выпуклых сверху оболочек для вспомогательных функций в многомерном пространстве. Данные многомерные построения являются надлежащей трансформацией соответствующих терминальных построений и идейно связаны с методом стохастического программного синтеза.
2. С другой стороны, развит метод свертывания этих в принципе многомерных построений к удобным построениям в пространствах существенно меньшей размерности, в том числе во многих случаях к построениям в пространстве, размерность которого не превосходит размерность фазового вектора системы. В предлагаемой редукции вспомогательные функции и их выпуклые сверху оболочки определяются в подходящих областях в пространстве, которое, вообще говоря, складывается из пространства векторов, двойственных к фазовому вектору системы, и из пространства некоторых вспомогательных параметров.
3. На материале задач с типичными показателями качества установлен следующий важный факт. В случае однородной зависимости областей (возникающих при свертывании) от дополнительных параметров, построение оболочек вспомогательных функций овыпуклением их по совокупному аргументу, включающему и эти параметры, производить не требуется. Достаточно овыпуклять только по аргументам - двойственным векторам. В частности, это характерно для позиционных оценивающих функционалов. Однако, в общем случае, когда нет однородной зависимости от дополнительных параметров, задача сводится к построениям, в которых овыпукление производится уже по совокупному аргументу - элементу пополненного пространства, включающего и эти вспомогательные параметры. Указан пример задачи
с типичным непозиционным оценивающим функционалом, который показьвает, что этот факт является принципиальным, и овыпукление и по дополнительным параметрам существенно.
4. Для ряда задач с конкретными типичными показателям» качества получены и . обоснованы эффективные процедуры для вычисления цены игры и построения оптимальных стратегия управления. Приводятся результаты симулирования процессг управления на ЭВМ.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Лукоянов Н.Ю. Об одной дифференциальной игре с интегральны)* критерием качества// Дифференц. уравнения, 1994. Т.ЗО. N 11 С.1905-1913.
2. Лукоянов H.D. 0 задаче конфликтного управления при смешанны} ограничениях на управляющие воздействия// Дифференц. уравнения 1995. Т.31. N 9. С.
3. Лукоянов Н.Ю. К задаче конфликтного управления при смешанны} ограничениях// Прикладная матем. и мех., 1995. Т.59. Вып.6
. C.955-S64.
4. Лукоянов Н.Ю. Решение одной дифференциальной игры с интегральными оценками// Математическая школа "Понтрягинские чтения - V". Воронеж, 1994г.: Тез. докл. - Воронеж, 1994. - С.86.
5. Lukoyanov N.Yu. A dilierential game with combined constraints// The Third International Workshop "Multiple Criteria Problem: under Uncertainty". Orekhovo-Zuevo, 1994.: Book ol Abstracts, Orekhovo-Zuevo, 1994. - P.53.
6. Лукоянов Н.Ю. К задаче конфликтного управления с интегральным! оценками//Украинскаяй конференция "Моделирование и исследовант устойчивости систем": Тез. докл. (Исследование систем) - Киев 1995. - С.72.
7. Лукоянов ЕЮ. Одна квазипозиционная дифференциальная игра// II! Международный семинар "Негладкие и разрывные задачи управления оптимизации и их приложения". Санкт-Петербург, 1995г.: Тез. докл.
- Санкт-Петербург, 1995. - С.93-96.
8. Lukoyanov IJ.Yul A dlilerentlal game with hereditary iniormatloi // Abstracts The 8th Workshop on "Dynamics and Control" Hungary, Sopron, 1995.