Задача конфликтного управления с наследственной информацией тема автореферата и диссертации по механике, 01.02.01 ВАК РФ

Лукоянов, Николай Юрьевич АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Екатеринбург МЕСТО ЗАЩИТЫ
1996 ГОД ЗАЩИТЫ
   
01.02.01 КОД ВАК РФ
Автореферат по механике на тему «Задача конфликтного управления с наследственной информацией»
 
Автореферат диссертации на тему "Задача конфликтного управления с наследственной информацией"

На правах рукописи

Л У КОЯ НОЙ Николай Юрьевич

ЗАДАЧА КОНФЛИКТНОГО УПРАВЛЕНИЯ С НАСЛЕДСТВЕННОЙ ИНФОРМАЦИЕЙ

01.02.01 - теоретическая механика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

Екатеринбург - 1996

Работа выполнена в Уральском государственном университете имели Л.М.Горького на кафедре теоретическом механики.

Научный руководитель - академик РАН,

доктор физико-математических наук Н.Н.ГСрасовсхий.

Официальные оппоненты - доктор физико-математических наук,

заседании диссертационного совета Д 002.07.01 по защите диссертаций ва соискание ученой степени доктора паух при Институте

математики и механики Уральского отделения РАН (620219, г.Екатеринбург, ул. С.Ковалевсхой, 16).

С диссертацией можно ознакомятся в библиотеке Ипститута математики и механики УрО РАН.

профессор А.Г.Ченцов,

кандидат физико-математических наук,

доцент М.И.Логинов.

Ведущая организация - Московские Государственный Университет

Зашита состоится

на

Автореферат разослан "_* МЛХ^тЮ. 199бг.

Ученый секретарь

диссертационного совета кандидат фаз.-мат. наук, с.н.с.

М.И.Гусев

ОБШАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Реальные процессы управления протекают

■шо в условиях неконтролируемых помех со стороны окружающей № или же под влиянием сознательного противодействия зторого лица (противника). Целью, как правило, 'является :ижение некоторого качества процесса управления, которое во гих случаях удойно описывать с помощья подходящего показателя, шсаюг задачи конфликтного управления, т.е. задачи об авлении по принципу обратной связи, которое гарантирует шально значение заданного показателя качества. Эти задачи мализуются в рамках теории дифференциальных игр. Стаяозление I теории относится к началу 1960-х годов. Оно было определено витием математической теории оптимального управления и эебностями практики. В настоящее время теория дифференциальных сложилась в самостоятельную дисциплину, имеющую прочные связи многими разделами механики и математики. В то же время для гих задач конфликтного управления, в том числе для задач с эрминальным показателем качества процесса, когда следует тывать информацию об истории этого процесса, остаются не сненными вопросы, прежде всего связанные с построением ективных, реализуемых на ЭВМ, процедур для вычисления имального гарантированного результата Сцены игры) и мирования оптимальных стратегий управления.

Существенный вклад в развитие теории дифференциальных игр ели работы Р.Айзекса, Э.Г.Альбрехта, В.Д.Батухтина, Т.Башара, зллмана, В.Г.Болтянского, А.БраЯсона, Р.Ф.Габасова,

.Гамкрелидзе, В.И.Жуковского, М.И.Зеликина, Н-Калтона,

.Кирилловой, А.Ф.Клейменова, А.Н.Красовского, Н.Н.Красовского, .Крендала, А.В.Кряжимского, А.Б.Куржанского, ДжЛейтмана, Лина, П.Л.Лионса, М.Д.Локшина, А.А.Меликяна, Е.Ф.Мнщенко, .Никольского, Ж.ПОбена, Г.Ольсдера, Ю.С.Осипова, А.Г.Пашкова, .Пацко, ЕНЛетрова, Л.А.Петросяна, Г.КЛожарицкого,

Лоловинкина, Л.С.Понтрягина, Б.Н.Пшеничного, Н.Ю.Сатимова, .Субботина, ЕКСубботиной, А.М.Тарасьева, В.Е.Третьякова, .Ушакова, У.Флеминга, А.Фридмана, Хо Ю-ши, А.Г.Ченцова, .Черноусько, А.А.Чикрия, Р.Эллиотта и многих других ученых.

В диссертации рассматривается задача конфликтного упразления I динамической системы, описываемой обыкновенными £]ференциальными уравнениями, при показателе качества, заданном

как функционал от реализации движения. Исследуется случай, ког для формирования искомого управления надлежит использовать существу информацию об истории движения.

Цель работы. Разработка и обоснование конструкций д

эффективного вычисления цены игры и формирования оптимальн стратегий управления.

Методика исследований. Методы исследования опираются

достижения теории дифференциальных уравнений, теории устойчивое движения, теории оптимального управления, выпуклого гнали; теории случайных процессов. Диссертация выполнена в рамк исследований по теории дифференциальных игр, ведущихся Екатеринбурге. Используются идеи метода стохастическо программного синтеза1^ и связанного с ним метода выпуклых свер: оболочек3^ для вычисления цены игры; метод экстремального сдви: на сопутствующие движения^ ^ для построения оптимальных стратегий

Научная новизна. Дана функциональная интерпретация процес«

управления, которая сводит исходную задачу конфликтного управлеш Сс показателем качества, вообще говоря, нетерминальным) дифференциальной игре с терминальной платой, но уже в многомернс пространстве. Тем самым устанавливается естественная связь оби» теоретических положений в играх с терминальной платой и в играх нетерминальной платой. Это позволяет трансформировать должнь образом терминальные конструкции1^""^ в конструкции (правл многомерные) для исходной задачи и свести ее к построению выпукль сверху оболочек для вспомогательных функций в многомернь пространствах. С другой стороны, предложен метод редукции этих г сути многомерных построений к построениям в пространства значительно меньшей размерности. Это повышает эффективное! решения исходной задачи и соответствующих вычислений на практике.

Теоретическая и практическая ценность. Основные общи

Красовский А.Е, Красовский H.H., Третьяков В.Е.. Стохастически программный синтез для детерминированной позиционной дифференциаль ной игры// Прикл. матем. и мех.. 1981. Т.4-5, вып.4. 0.579-586.

^Красовский ЕН. Управление динамической системой. М.Жаука, 19£

33Krasovskil N.N., Reshetova T.N. On the program synthesis of guarandeed control// Problem of Control and Information Theorj T988.Vol.17, no.6. P.333-343,

^Krasovskli A.N., Krasovskli N.N. Control under Lack о Information. 1995. Blrkhauaer, USA.

верждения о цене игры и оптимальных стратегиях обоснованы по андартам математики. Результаты диссертации носят конструктивный 1рактер и применимы к достаточно широкому кругу задач, «длагаемые конструкции и процедуры могут быть положены в основу ;я разработки эффективных алгоритмов и программ, реализуемых на !М, для решения типичных конкретных задач управления.

Аппробация работы. Материал по теме диссертации докладывался

: следующих научных конференциях: Математическая школа онтрягинские чтения - V" (Воронеж, 1994); III Международный минар "Многокритериальные задачи при неопределенности" рехово-Зуево, 1994); Международная конференция "Нелинейный и оретико-игровой синтез управления" (Международный математический статут Эйлера, Санкт-Петербург , 1995); III Международный минар "Негладкие и разрывные задачи управления и оптимизации" анкт-Петербург, 1995); Восьмой международный семинар "Динамика и равление" (Венгрия,Сопрон,1995).

Работа подробно обсуждалась на научных семинарах кафедры оретической механики Уральского госуниверситета, отдела намических систем Института математики и механики УрО РАН, федры системного анализа Московского государственного иверситета.

Публикации. По теме диссертации опубликовано 3 статьи и 5

зисов докладов на научных конференциях.

Структура и об'ем работы. Диссертация состоит из введения и

ух глав. Нумерация параграфов сквозная. Список литературы лючает 72 наименования. Объем работы составляет 92 страницы шинописного текста.

СОДЕРЖАНИЕ РАБОТЫ.

Первая глава состоит из пяти параграфов. В первых трех даются гтановка рассматриваемой задачи конфликтного управления и нкциональная трактовка процесса управления, на основе которой цача сводится к построению выпуклых сверху оболочек для помогательных функций в многомерных пространствах. В

эдующих двух развиваемый подход иллюстрируется на материале иения конкретной задачи управления. Приводятся результаты купирования процесса управления на ЭВМ.

1. Постановка задачи. Пусть система описывается уравнением

дх/йг = А«)Х + т,и,у), о < < г ^ -в (и:

X € Rn, U « Rr, V e Rs

Здесь x - фазовый вектор, u - вектор управления, v - векто] помехи; И - заданные моменты времени; n, г и s - данньк натуральные числа; A(t) и f(t,u,v) - кусочно-непрерывные по 1 матрица-функция и вектор-функция соответственно, fCt,u,v) нг интервалах непрерывности по t непрерывна по совокупноси аргументов Сточки разрьва по t функции iCt,u,v) не зависят от u j v), в точках разрьва ode функции непрерывны справа; и и v стеснень ограничениями

и е Р, V « Q C1.Z

где Р и Q - заданные компакты; вьшолнено условие седловой точю в маленькой игре2^, т.е. для любых m е Rn и t « [t°/e справедливо равенство

min шах < m , i(t,u,v) > = max min < m , i(t,u,v) > С1Д

UeP V«Q V«Q UeP

где символ <-,-> означает скалярное произведение.

Допустимы измеримые по Борелю реализации t° «S t < Si и v[t°[-]-6) = ivtt] e Q, t° t < -Ö}. Эти реализаци] порождают согласно С1.1) абсолютно непрерывные движения xCt^C-l'fl =' üctt], t° ^ t < ■ö} Сначальное состояние xCt°] задано).

Показатель 7 качества процесса управления возьмем в вид| функционала 7(x[t°[-],6]), который имеет следующее строение

Выбраны натуральное число N, моменты времени t^« Ct°,"ö],

> t^ ^, i=1 ,...Л-1, t^ = -б, постоянные матрицы D^ размерност]

pCi]xn, К pCt3< n, £ = 1.....N. Набор С DC13x[tC1]],...J)[N]x[ttNl] >

образует р-мерный вектор, p = p^+...+p[K1. Выбрана некотора норма цСО в пространстве RP таких наборов. Полагаем

7 = 7(хС1;°[-Ш = |iC ffic1]x[t[1]],...,DCN]x[tCN]]} ) С1.4

Такой показатель качества может быть задан изначально, или таш функционал вводится как аппроксимирующий для исходного показател. 7#Cx[t°C-]'ö]), который учитывает континуум значений xttl.

Задача требует найти управление (или помеху), нацеленно минимизировать (нацеленную максимизировать) показатель 7 С1.4-).

Эти задачи объединяются в антагонистическую дифференциальну] игру двух лиц Си - действие первого игрока, v - действи второго) . Для всякой исходной истории xtt^Mt^l СЪ° ^ t,, < *fi эта игра имеет цену p°Cx[t°[-]tJ(t]). Игра имеет седловую точкз

оторая складывается из оптимальных стратегий {ц0(х[1;°(-Ш,е), °Схи°[-]и,е)}. Здесь хИ°[-Ш = Шт], ^ т < « - история вижения, реализовавшаяся к текущему моменту времени е > О екоторый параметр точности2^. Движения формируются в дискретной о времени схеме . Оптимальные стратегии и°С-) и у°СО строятся ак экстремальные^ к функционалу р°СО.

Таким образом, для формирования оптимального управления и онтроптимальной помехи достаточно уметь эффективно вычислять цену гры для каждой текущей истории хС^ММ, как исходной.

Во многих случаях для построения оптимальных воздействий не бязательно учитывать всю историю движения к текущему моменту ремени Ь, достаточно лишь учитывать какую-то ее часть. Например, ели функционал 7 (1.4) позиционный4^, то достаточно опираться олько на текущую позицию Л,хСШ.

В рассматриваемой дифференциальной игре при условии С 1.3) едловая точка достигается на чистых стратегиях. Если условие 1.3) не выполняется, то решение переносится в класс смешанных тратегий4"'. При этом вспомогательные построения, которые оставляют главное в этой работе, по существу не меняются.

2. Функциональная трактовка. Пусть к моменту I « еализовалась история х[1;°С-Ш. Назовем функциональной позицией,

А

оторая соответствует этой истории, набор Л, где

гШ = (хШ,хШ), хШ = { хтШ.....х™Ш > С2.1)

?„га г««], Х " 1 БС1]Х»С£иЗхШ, t<tCt]

Здесь ХСт^] - фундаментальная матрица решений для уравнения х/йх = АСт)х.

л

Теперь показатель 7 (1.4) можно записать^ виде 7=ц(хГтМ).

Эволюция функциональной позиции = й, СхШ,хШ)>

писывается уравнениями С1.1) и

<ыы/аь = *а,и,у), с г ^ тз сг.гз

де

= { I С^и/Л.....Гсм«,и,У) > С2.3)

гС1]«,и,у) = ( вСйт1й.ша;.илд, 1</а I о, г

'■'Красовский А.Н. 0 позиционном минимаксном управлении// Прикл. [атем. и мех., 1980. Т.44, Вып.4. 0.602-610.

Условие седловой точки в маленькой игре для буде'

вьшолняться в силу С 1.3). Начальное состояние для

системы (1.1),(2.2) однозначно определяется начальным состоянием

о л

системы (1.1). Введем показатель качества 7 для движени!

й^М-в] = ши, г° ^ г тЗ> системы (1.1),(2.2)

7 = 7(г[«) = цСхМ) (2.4

А

где ц(-) - норма из (1.4). Значение показателя 7 С2.4) совпадает со значением 7 (1.4).

Рассмотрим дифференциальную игру (1.13,(2.2)-(2.4) ]

А

пространстве функциональных позиций СЬ.гШ) уже с терминально!

А А- А

платой 7 (2.4). Эта игра имеет цену рСЦ.гС^]) и седловуи точк; {и°(1,2СУ,е), ^Л.гСи.е)}2^. Здесь гС^] - исходное состояние

А

системы (1.1),(2.2), - ее текущее состояние. Оптимальны«

А- А А^. А Ъ

стратегии и (Ъ.гС^.е) и Уч'ЪгС'Ц.е) строятся как экстремальные^

Ал А

к функции цены р Л.гСШ.

Из (1.1)41.4) и С2.1)-(2.4) следует, что цена ¡гО^гШ игры (1.1),(2.2)-(2.4) совпадает с ценой р°(хи£мя) игр! (1.1)-(1.4), а стратегии, оптимальные для игры (1.1),(2.2)-(2.4) при условии (2.1) будут определять воздействия и и V такие же, ка: и оптимальные стратегии для игры (1.1)-(1.4). Это означает, что п сути дела игры (1.1)-(1.4) и (1.1),(2.2)-(2.4) эквивалентна

Поэтому терминальные конструкции1^"^ трансформируйте, естественным образом в конструкции для исходной игры (1.1)-(1.4) При этом следует только учесть, что в отличие от стандартно] дифференциальной системы, в случае (1.1),(2.2),(2.3) в качеств

А

возможных состояний гШ выступают векторы не с любым набора

АГ /"1

компонент { хСУ, х "КЛ, 1=1.....N }, но лишь такие векторь

компоненты которых связаны соотношениями (2.1). .

3. Вычисление цены игры. Пусть реализовалась история хС^М^, ^ "(;,„< -д движения системы (1.1), которая согласи

А

(2.1) однозначно определяет функциональную позицию {Ц.гС'Ь,,,]}

А

{Ц/хСЪ^дСЪ,,,])}. Следуя методу стохастического программног

синтеза1^, введем программный экстремум. Для этого назначи] разбиение

\=\{т/ = W Tj+rTj < ak« .....k- Tk+i=^} Ш)

отрезка времени [Ц/М, в которое включим все моменты времени t^ « [t^.ti], i = 1.....N из (1.4) и все точки разрыва функций ACt) и f(t,u,v). С разбиением Д^ (3.1) свяжем независимые в совокупности случайные величины распределенные равномерно на

отрезке 0 < ^ 1, J=1,...,k. Набор i^,...,^} трактуется как элементарное событие со из вероятностного пространства (П.В^.Р}, где П = {ш> есть единичный куб в k-мерном пространстве, В^ -борелевская о-алгебра для этого куба, Р = Р(В) - лебегова мера на

гп п^

этом кубе, В е В^. Пусть Ксо) = { lLU(u) « R^ , (=1.....N },и«11

есть векторная р-мерная случайная величина, определенная на ШЗ^.Р). Программный экстремум е(0 определяется равенством

k TJ+1 C3'2)

= sup Г< , x[tJ > + M( E Г max min < l*(T„w) , i(T,u,v) Мт>] ПК-ЖН * JHTjVeQueP J -I

где

Ц1СОП = vraimax ц*(1(ш)), 1ае=МС1СсЛ>. l*(Tf,oi)=MC КшЩ,.....5, >, J=1,...Дс

(ü « П J > J

Здесь ц*(0 - норма, сопряженная к норме (iCO из (1.4). Символ MC-} означает математическое ожидание, символ МС-|-> - условное математическое ожидание.

При учете эквивалентности игр (1.D-0.4) и (1.13,(2.2)-(2.4) справедливо равенство^

lim e(xtt°Mt J Д,)= lim eCt^zttJAJ = p°(t:(t.zCtJl(])=p0(x[t°[-]t:|(]) k-»oo,6k-»0 k-»to,6j^-»0

Программный экстремум e(-) (3.2) может быть вычислен следующим образом^. Определим область

Ъ = { 1: ц*(ЗЭ < 1 > (3.3) ГП n[i]

где 1 = { 1 е Rb1 , (=1.....N } - уже детерминированная

векторная р-мерная переменная. Обозначим

TJ+1

ДфЛ^Д) = Г max min < 1 , 1Ct,u,v3 > dx, 1 е L, J= 1.....k (3.4).

j * Ij VeQ U«P

Построим рекуррентную последовательность функций

cp^Ct^D = 0, ф/t^.l) = i$/t#,0>L C3.5) $jCt#,l) = Atpj(tvD + cp^Ct^l), 1 6 L, J=к.....1

Здесь символ cpCID = означает выпуклую сверху оболочку

функции ф(-) в области L, т.е. минимальную вогнутую функцию, мажорирующую i|)CD, 1 с L

Справедливо равенство

eMt^-rt*]^) = eCt^ztyAJ = max Г< 1 , ktj > + ^Ct^.l)]

leb ^ J

Таким образом, задача свелась к построению последовательности функций ФуСО (3.5).

4. Одна задача конфликтного управления с интегральными оценками управляющих воздействий. Проиллюстрируем подход, предлагаемый в п.п. 2 и ' 3, на примере следующей задачи. Пусть система теперь описывается уравнением

dx/dt = ACttx + BCttu + CCttv, t^ -ft (4.1)

где A(t), BCt) и C(t) - непрерывные матрицы-функции. Пусть как и

выше заданы чивсло N, моменты времени t^ и матрицы D^,

i=1,...,N. Требуется найти управление (и) и помеху (v), ' которые

наделены соответственно на минимизацию и максимизацию показателя качества

7Ж = | { DC1 W1]],....DCN]x[t[N]] > | + ■О

+ „Г [< Ulli , ®«МтЗ > - < vtT) , tBOOvW >Мт С4.2)

где | • | - евклидова норма; ФСЬ) и ffi(t) - симметричные непрерьшные матрицы-функции. Квадратичные формы < и , ФСИи > и < v , ffi(t)v > - определенно-положительные для любого t « tt°,"6].

В данной задаче мгновенные значения воздействий и и v априори не стеснены ни какими ограничениями, но в показателе (4.2) имеются интегральные добавки, которые играют роль штрафа, накладываемого на реализации управления и помехи. Эти штрафующие_ оценки обеспечивают^ ограниченность оптимальных воздействий и0 и v°. -Наряду с фазовым вектором х удобно ввести дополнительную скалярную переменную у, динамика которой описывается уравнением

dy/dt = < U , ФСШ > - < V , 45(t)v >, ytt°] = 0, < t < fl (4.3) Далее, в соответствии с материалом из п.2, введем вектор

функционального состояния xCtl, который связан с историей xCt°Ht) движения системы (4.1) соотношением (2.1), и рассмотрим

Л

тройку (t.xCtl.y). Получаем вспомогательную дифференциальную игру с системой

dxCtl/dt = B(t)U + C(t)v (4.4)

dy/dt = < u , axtDu > - < v , ®(t)v >, t° ^ t < «

л

которая описьшает эволюцию тройки Ct.xCtJ.y}, и с показателем качества

= |хМ]| + у["Э] (4.5)

который оценивает движения { x[t°[-ЗтЭЗ, ytt°C• 3*03 > системы (4.4).

Л А

В (4.4) матрицы-функции B(t) и C(t) определяются через B(t) и C(t)

Л

подобно тому как в (2.3) вектор-функция I(t,u,v) определялась через i(t,u,v).

В игре (4.5),(4.6) существуют25 цена p°(t,x[t],y) и

оптимальные стратегии { u°(t,x(t],s), v°(t,x[t],E) >. Следуя

Ло А

конструкциям из п.З вычислим функцию p^Ct.xCt] ,у). Пусть

АЛ

реализовалась позиция = (t^xlt^.ylt^)}, t, $ < "6 .

Назначим разбиение

\=W = £v T1 = V 1 > V v 1 - TJ ^ ak' Tkfi = ®

отрезка Ct^I, в которое включим все точки t^ « из (4.2).

А

Область Ьи функции Дф^СЪ^Д), 1 « Ь, J=1,...,k здесь определяются следующим образом

L = С 1: |1| $ Г >, 1 = { 1Ш « RP , £=1.....N > « RP

V+t

Дф/Vl) = < 1 , NCtfl >dTT (4.6)

где

N(t) = -4- t С(т)Ш~1 (т)СТ(т) - В(т)Ф"1(т)ВТ(тг) ]

Здесь верхний индекс "Т" означает транспонирование; Ф 1(т) и Ф ^т) - обратные матрицы для Ф(х) и Ф(т) соответственно. Опираясь на

А А

функции Дфу/Ь^Д) С4.6) построим функции сру^Д) (3.5). Поскольку

А

здесь область Ь - евклидов шар, а функции Дф^И^Д) (4.6) суть квадратичные формы, то проведя построения получаем, что

Ф^Д) = < 1 , РСт^И > - Я}|1|2 + X}. ,/=1,...,к

где

FCO = Г NCOdT, X*. = шах шах

т J d—Дс+1 q=1.....р 4

Здесь действительные числа q = 1,...,р суть собственны

числа матрицы FCt^), d=1,...,k+1.

Величина программного экстремума для игры (4.45,(4.5 определяется равенством

= шм [< 1 . > + Ф^Д)] + у* =

= шах Г< 1 , IL > + < 1 , FCtJl > - Xf|l|2l 4 \f + у. |1|*1 L * * 1 J 1

Откуда, осуществляя предельный переход при шаге б^ разбиений

стремящемся к нулю (к.-»со), вьводим

* м4- *

= тах^ ХГт],

Здесь Мт] - максимальное собственное число матрицы Р(т).

Равенство (4.7) определяет функцию цены игры (4.4) ,(4.5)

Оптимальные стратегии и°(Ъ,хС1;],еЗ и \^(1д[£),е) строятся

эффективно как экстремальные^ к функции р^.хШ.уСМ) (4.7),

При условии (2.1), (4.3), величина р°(0 С4.7) дает цену р°С-), г

стратегии и°(-) и - оптимальные стратегии и°(0 и ^(0, для

исходной игры (4.1),(4.2).

Первую главу завершают результаты симулирования на ЭВМ процесса управления для модельной задачи типа (4.1),(4.2).

Итак, в первой главе рассматриваемая задача конфликтного управления C1.1D-C1.43 сведена к построению выпуклых сверху

оболочек ФуС13 функций ф^(13 (3.53 в области Ь (3.33 многомерного

пространства цР, р = Интерес представляют задачи, в

которых число N. следовательно, число р большие. Поэтому, если не удается, как например в задаче из п.4, найти какой-либо эффективный способ конструирования указанных оболочек, то вычисления становятся трудно реализуемыми, даже в случае небольшой размерности п фазового вектора х.

Валено, что вычисление е(*) С3.2) через построения (3.3)-(3.5)

в многомерном пространстве можно свертывать к подобным построениям . в пространствах значительно меньших размерностей. Это показывается во второй главе. Вторая глава состоит из четырех параграфов. В первом параграфе дается общая схема упомянутой редукции. В последующих трех эта схема проясняется на материале задач с типичными оценивающими показателями.

5. Свертка процедуры вычисления цены игры. Равенство (3.2) можно трансформировать к равенству

eCxCtSt-ltJA.) = sup Г l£i] . DCl]xCt[il] > + * * к 11(-)K1L t=1

k XJ+1 -1

+ < m, , XC-O.tJxCtJ > + MC E Г шах min < m(x„co) , ХСт!),хШх,и,у) >dx} * * * J=Hj v*Q ueP J J

где (5.1)

h(t) = max i, t[£] t, i=1.....N

(если нет ни одного I ( t=1.....N ) такого, что t^^ t, то h(t) = 0)

l[u = Mtl[£1Сах», 1=1.....hCtJ, m* = Mi EN XT[t[t].-e]DItlTltt](oa) }

* * * t=h(t#)+1

(5.2)

m(Xj,uD = Mi

L XT[t[ l].«D1 i]rlc t]CuO t >, J=1 ,...,k

l«hOCj)+1 1 J

В С5.1) учтено (2.1) и (2.3). Это позволяет вместо работы с

А Л Г41 Г«Л

функциями и Фу(1) от многомерного вектора 1 = { 1....Д >

N ф Г Г 11ф Г

работать с подходящими функциями от вектора т = Е X [V ,т5]В 1 ,

i=h(Tj)+1

т « Rn и векторов 1 , (=1 ,...,h(Xj), которые составляют лишь

часть компонент вектора 1. Именно, обозначим 1

¿ij>/(t*,nö = Г шах min < m , XC-&,x]i(x,u,v) >dT, m « ff1, J=1,...,k (5.3) j XJ VeQ U«P

Определим области

GjCtp = m) = (( Iе t], t=1.....hCfj) > , nO:

N

m

= E XT[t[iWilTlCi], 1 - i lm.....1™ } « L), /=1.....k+1

i=h(x^)+l ■>

Здесь суммирование по убывающему индексу полагается равным нулю. Множество Ь определено в (3.3). Построим последовательность

функций сруц, 1^,111), « б^*). /=к+1,...,1.

При /=к+1 полагаем

^с+1"».1(к+13'п0 = С1(к+1)'т) е °к+1а*} Далее по индукции. Пусть для 1 < ^ к+1 уже построена

функция е Заметим, чтс

поскольку все моменты ^^ « Н^/М, 1=1,из (1.4) включены е разбиение Л^ С3.1), то при переходе от ^+1 к j возможен лишь один из двух вариантов: 1) т.е. момент т^ не совпадает

ни с одним из моментов г"; 2) Мт^^МтуМ, т.е. =

Ь=ЬСт^+1). Для текущего J определяем

где в случае 11Ст^+1Э=11(ту> полагаем

= АФ/а*,га) + Ь^*'1^

а в случае определяем

где максимум берется при условии

т, + ХТ[г[Ы,13]ВСЫТ1[Ы - т, С(1с>Г)Дсы>,тр « в«„р

Продолжая индукцию до /=1 построим функцию ф^^Д^.т), « Можно проверить, что справедливо равенство

еСхПЙ-И^АР = шах [ е"*3< 1С{3 . ЮшхИ;СП] > +

* * к С1С1),т)«01а„}1- 1=1

[11 "мр] 1

+ < т , ХМ.ух«*] > + ф^Л1,...,! },т)|

Таким образом дело сводится к построению оболочек Ф^ЪзД^.т), которые конструируются овыпуклением функций фв областях б^СЪр по составному аргументу размерность которого убывает вместе с индексом / и становится значительно меньше чем размерность р вектора 1 « Ь.

Более того, во многих типичных случаях, когда известна структура нормы из (1.4), дело сводится к работе лишь с функциями от вектора ш. Правда при этом, подчас возникает потребность в некоторых дополнительных параметрах. Это, кратко сформулированное

здесь общее утверждение, поясняется в следующих параграфах на конкретном материале.

6. Позиционные функционалы. Рассмотрим дифференциальные игры (1.1М1.4) со следующими показателями качества (1.4):

7Ш= n(1)(fl>t1]x[tm].....DC№xttCN]]}) ={E^[il(DCi]x[tCi]i) (6.1)

7(23= ^(2)i®C1]xCt[1]],...,DtN]x[tCN1]}) ={max i](DCi]x[tti]])} (6.2)

7C3)= ^(3)((D[1]x[tn]],..,D[ii]xCt[N]]}) =((E(nC£](DC£]Xtttt]]))2]1/2 (6.3)

til DCl]

Здесь ц (О - некоторые нормы s№ , i = 1.....N.

функционалы y^y 7(3) являются позиционными®4',

поэтому достаточным информационным образом® для оптимальных стратегий в играх (1.1М1.3) для (6.1), (6.2), (6.3) служит текущая позиция йдСШ.

Редуцированные процедуры построения функций <|>jC-) и .их выпуклых оболочек cpj(-) в подходящих областях Gj для случаев с функционалами 7^ и 7^ описаны подробно и обоснованы в монографии Krasovakll АЛ., Krasovskii ПЛ. "Control voider Lack oi Information"4'. Дадим здесь построения для случая функционала следуя общей схеме свертывания из п.5. Это свертывание с одной стороны учитывает отличия функционала 7^ от 7^ и 7^. а с другой - сохраняет общие черты соответствующих построений.

Итак, рассмотрим игру (1.1М1.4) с показателем 7^ (6.3). Норма Ц*з)СО, сопряженная к норме (i^iO, имеет вид

МЙдШ =[Дсци1*(1С£Ь)2]1/2, 1 = £ lCil в RPC", i=1.....N >

где ¿l]*CO, t=1 - нормы, сопряженные к нормам ц^СО. Поэтому при вычислении верхней грани (5.1) случайные векторы mCTjjti) С5.2) стеснены ограничениями, которые зависят от скалярных

величин v2(t,,(xO =1 - Е Оказьвается, что

здесь, как и для и 7^). далее можно перейти от случайных величин 1С£1«д), mCTj.ca) и vCtjfa0 к детерминированным 1C£1, m и v. Опираясь на функции ДфjCЬ^лй С5.3) построим последовательность областей G^3)(t#) в пространстве rf1"1"1 пар (т,гО, и

последовательность функций «Pj^Ct^m.iO, (m.v) « Gj^ttJ. J

k+1,k.....1. Строить будем рекуррентно по шагам разбиения Л^(гj> (3.1).

При J=k+1 полагаем

Gk+1ct*3 = { (m,vy- 0<v<1,m = o}-, ^]tt#,m,v) = О, (m,v) е Gj-3](t

С

Пусть для J+1 уже построены область Gj^Ct^) и функция Фу+^^тдО, (m,v) е Gj^] (tp. Построим сначала область Gj^Ct*) и вспомогательную функцию ф^3:| *(Ц,т,и), Cm.v) е GПри переходе от к tj возможны два случая. В первом случае имеем h(Tj)=h(Tj+p. Тогда определяем

G$3)CV = G^jct,), ?$*CVm,v) = t,,m,v)

Во втором случае имеем h(xyi=h(Tj+1 )-1, тогда определяем

G^3)Ctp = { Cm,v): 0<v<1, ш = + ХТ[1СЫ,«]БСЫТ1, 1 « RPCW,

(цШ*Ш)2 < v2--^, v^ v, (m^.vj « Gj+jctp, h=hCTj)+1 } (6.4)

* (3) *

где максимум, определяющий вспомогательную функцию <Pj+f (-),

вычисляется по всем возможным парам (т^.г^), которые согласно

fo-j

(6.4) отвечают заданной паре (m.v) « Gj (t#). Далее полагаем q>j3)(ttjn.v) = ¿фуС%,т) + ф^*(Ъ*,т/и), (m.v) « G^Ct*) Ф^СЦдм) = ( 4)J33(t^,-,i;) G^3^«*). О^Ш

где Gj3^(tp - сечение области Gy3\t#) гиперплоскостью v = const.

Здесь символ СфЛ^.-.гО}^ означает выпуклую сверху оболочку функции 1|>(Ъж,т,10, конструируемую овыпуклением по . ш в области G, при фиксированных значениях остальных аргументов. Продолжая индукцию до /=1 построим область G^it^) и функцию (t^m.v), (m.v) « G^Ctj). Тогда величина

ef41Gtft°t-]tJAJ = max [f(1-i£)hE4|in(Dcax[tcnn)2]1/2 +

* * K ,C33rt J1"1 1=1 J

+ < m , XM.t^xEig > + Ф^и^тло]

будет обладать надлежащими свойствами u-стабильности и v-стабильности^^. Из этих свойств выводится^ что величина аппроксимирует цену p^Cxft^Mt^D игры (1.D-C1.3),

(6.3). Таким образом, дело сводится к построению выпуклых оболочек

cf/pCt^-.-v) функций i|>j3}(%,-,-»)-■ в областях G^Ctp. О ^ v 1,

размерность которых совпадает с размерностью фазового вектора х

системы (1.1) и не зависит от количества N точек t*^. Подчеркнем,

что здесь, как и во многих других случаях, в том числе в играх с показателями 7^ и 7(2)» выпуклые сверху оболочки конструируются

только по переменной m при фиксированных г>«[0,11. Это объясняется

тем, что области GjitJ, J=k+1,...,1 обладают свойством однородности по (in.v), т.е.

если (m,v) «s G^Ct^), то (щ.гр) « tj 2 0, tjv 1 (6.5)

Отсюда выводится, что функции (pj^Ctj.m.v), J=k+1.....1 будут

однородными со степенью единица по совокупности (т,гО. Поэтому

конструирование выпуклых сверху оболочек функций ф^^.т.Ю в

областях Gj®Ctp по паре (m,v), приводит к тем же самым функциям

Г Т) ■

cpj которые строились выше овыпуклением только по m в

сечениях Gj^t^) при фиксированных v « 10,1].

' (31

Итак, дано построение функции ф^ СО, которая согласно

предыдущему определяет цену игры (1.1М1.4) и оптимальные

стратегии для типичного показателя (6.3).

Далее на конкретном материале показывается, что, вообще

говоря, при построении функций <Pj(-) надлежит применять операцию

овыпукления уже по всем аргументам из пространства, которое

пополняет пространство Rn векторов m добавлением вспомогательных

параметров (таких как параметр v). Этот важный факт является одним

из главных результатов в настоящей работе.

7. Непозиционный функционал. Рассмотрим дифференциальную игру

(1.1)41.4) со следующим типичным показателем качества типа (1.4).

Заданы два разбиения отрезка времени

CtJ UJ m [t+1] EtJ \«q - < tq V > Ü tq 4 >tq iq= 1.....Nq-1 >

(7.1)

q = 1, 2

Iit] С 1г1

t-j т^ tg f l-j = ig = 1 «««»»Ng

, ШЛ ШЛ ., шах -1 t1 1 , t2 j = •в

Показатель качества имеет вид

N, Е £н3 [ 1Л ИЛ

7С4Э = 7M)CxttSM'ffl) = С D1 xtt1 П +

M=1

, tt9] ttP] [(,) , + max { Цо ^ С Do xtto 4)1 (7.2)

t2=l.....4

c У 1У

где Dg 4 - известные постоянные матрицы размерности Рд 4 х n, 1 <

1У " С У

Pq 4 < n; |ig 4 СО - некоторые нормы, ig = 1,...,Nq, q = 1,2.

Функционал 7(4) (7.2) есть аддитивная комбинация функционалов 7(13 (6.1) и 7С2) (6.2), но в отличии от 7С)-,, 7(2) и 7(3) (6.3) уже не является позиционным. Для формирования оптимальных стратегий в игре с показателем нужно уже существенно

учитывать информацию не только о текущей позиции tt,xCt]>, но и об истории движения xtt°[-]th Случай игры С1.1)-(1.4) с показателем (7.2) и доставляет тот конкретный материал, на котором удобно показать, что в общем случае при вычислении программного экстремума е(-) (3.2),(5.1) надлежит при построении функций ср^(-) овыпуклять по совокупности всех аргументов, которая складывается из m и дополнительных параметров, и которая определяет соответствующие области Gj Св данном случае - по парам (m,v)).

Возникающие здесь области Gy^Ctp уже не обладают свойством однородности (6.5).

Процедура вычисления величины е(0 С3.2), С5.1) в данном случае такова. Пусть реализовалась история xtt®Mt#] движения системы (1.1), t° < t^ < Q и выбрано разбиение

Дк=Д= { Xj'. т(= t^, Xj+i>ij, J=1,...,k, тк+1= "ft > C7.3)

отрезка ["t^.-ffl, в которое включены все точки разрыва функций A(t) .

[ C-J

и f(t,u,v) из С1.1) и все точки t^ 4 «- Ct^.-ffl, .....Ng, q=1,2

из '(7.1). Определим функции Дфу(1„,т) согласно (5.3). Построим

функции cpy^it^.m.v), Cm,v) « G^Ct^), m е Rn, v « R, J k+1 Дс.....1. При J=k+1 полагаем

Gj$(t„) = { (m,v): m = 0, 0 ^ v < 1 }, ф^а^т.гО = 0, Cm,г») « G^jttp

Пусть для 1 < < к+1 уже построены область С^) и

функция ф^С^тдО. Обозначим

11_(т) = тах (п, Ьп 4 < х, = 1.....Мп

1V«

Сесли нет ни одного такого, что ^ 4 ^ т, то Ьд(т) = О, д = 1,2)

Разбиение (7.3) выбрано так, что для любого ¿=1,...,к может случиться лишь один из трех вариантов:

1) т.е. момент времени не совпадает ни с одной из точек разбиений Д^ Од (7.1), q=\,2\

2) И^М^Ж. т.е. т/+1 = ^^

3) ^Ст^^Ст,), Ь2Ст</+1)=Ь2Ст>/)+1. т.е. т/+1 = ^ ^

Построим сначала область С^^СЪ^Э и вспомогательную функцию Ф^сц.тдо, стло « с^ар. В случае 1) полагаем

В случае 2) определяем

= { Сш,г): ш = т. + Х%!Ы,ш5ЫТ1, 1 « И ,

ц5м*(1) 1, Ь = Ь^т^+п Сп^д» « С^ар } (7.5)

су* су

Здесь Цд 4 (•) - нормы, сопряженные к 4 СО из С7.2), 1^=1.....Ыд,

д = 1,2. Функцию Ф^*СО в этом случае строим следующим образом:

(р$*агт,у) = тах ф^Да^.г», (т,тО « О^«*) (7.6)

В С7.6) максимум вычисляется по всем векторам тж, которые в

согласии с С7.5) отвечают заданной паре (т,гО « В случае 3) определяем

р1Ы

о^ир = { сш,г): о о < I, и = + 1 « и 2 ,

< V, Л = Ь2(Ту)+1, (т^.ир « в^ар } (7.7)

Ф^а^т.Ю = шах Ф^С^.т^), Сш.у) « (7.8)

В (7.8) максимум вычисляется по всем парам (т^.г^), которые

согласно (7.7) отвечают заданной паре (т,г>) е Теперь полагаем

Ф^а^т/и) = { ф^а^-.О С=С^4)аж) (7.9)

' В (7.9) символ (фС^,-,-)}^ означает выпуклую сверху оболочку функции фCt¡(t,m,v), которая конструируется овыпуклением уже по совокупному аргументу (т,г>) в области 0. Продолжая индукцию до

получим область С^а^) и функцию ф^СЦ.тл'), (т^) е й![4)СЦ).

Обозначим

п Ь1а*} [(,] [ЦЗ • [{.]

>0Г.„ « в Е и 1 ( в 1 Х[1 1 ] )

С1,3 С101 [ и

СГ1

Жх^С-Зу) = тах { 2 С Ъг 2 хК2 2 3 ) }

1£=1 , . . Введем величину

еС4)(хи°ЫЦЗ,Дк) = аОсИ^С-зг^Э + тах [ аеМф-И^ЖИЛ +

+ < т , ХШдхСу > + ф^сг^лмо] (7.10)

Устанавливается, что величина е^СО (7.10) обладает нужными свойствами и-стабильности и У-стабильности. Так как справедливо равенство

е(43(х[ф]«,Дк) = 7С4}СхСг°[-]тЗ])

то из этих свойств следует, что величина е^хС^МЦЗ,^)

аппроксимирует цену р^х^С-З^З) игры (1.1)-(1.3), (7.2).

Итак, описанная процедура вычисления величины е^СО на базе

функций ф^(-), которые получаются овыпуклением функций ф^(-) в

областях по паре аргументов (т/и), приводит к цене р^СО

игры (1.1)-(1.4) с показателем 7^ (7.2).

шорую главу завершает пример, который показывает, что овыпукление именно по паре (т.ъО существенно. В этом примере

овыпукление только по ш при каждом фиксированном V не дает цену игры. Приводятся результаты симулирования процесса управления на ЭВМ, подтверждающие теоретические выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ

1. Для задачи конфликтного управления динамической системой с нетерминальным показателем качества в виде функционала от реализации движения дана функциональная трактовка, которая сводит исходную задачу к дифференциальной игре с терминальной платой, но уже в многомерном пространстве функциональных состояний процесса управления. Таким образом, установлена естественная связь общих теоретических конструкций в играх с терминальной платой и в играх с нетерминальной платой. На основе этого исходная задача сведена к попятному построению выпуклых сверху оболочек для вспомогательных функций в многомерном пространстве. Данные многомерные построения являются надлежащей трансформацией соответствующих терминальных построений и идейно связаны с методом стохастического программного синтеза.

2. С другой стороны, развит метод свертывания этих в принципе многомерных построений к удобным построениям в пространствах существенно меньшей размерности, в том числе во многих случаях к построениям в пространстве, размерность которого не превосходит размерность фазового вектора системы. В предлагаемой редукции вспомогательные функции и их выпуклые сверху оболочки определяются в подходящих областях в пространстве, которое, вообще говоря, складывается из пространства векторов, двойственных к фазовому вектору системы, и из пространства некоторых вспомогательных параметров.

3. На материале задач с типичными показателями качества установлен следующий важный факт. В случае однородной зависимости областей (возникающих при свертывании) от дополнительных параметров, построение оболочек вспомогательных функций овыпуклением их по совокупному аргументу, включающему и эти параметры, производить не требуется. Достаточно овыпуклять только по аргументам - двойственным векторам. В частности, это характерно для позиционных оценивающих функционалов. Однако, в общем случае, когда нет однородной зависимости от дополнительных параметров, задача сводится к построениям, в которых овыпукление производится уже по совокупному аргументу - элементу пополненного пространства, включающего и эти вспомогательные параметры. Указан пример задачи

с типичным непозиционным оценивающим функционалом, который показьвает, что этот факт является принципиальным, и овыпукление и по дополнительным параметрам существенно.

4. Для ряда задач с конкретными типичными показателям» качества получены и . обоснованы эффективные процедуры для вычисления цены игры и построения оптимальных стратегия управления. Приводятся результаты симулирования процессг управления на ЭВМ.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Лукоянов Н.Ю. Об одной дифференциальной игре с интегральны)* критерием качества// Дифференц. уравнения, 1994. Т.ЗО. N 11 С.1905-1913.

2. Лукоянов H.D. 0 задаче конфликтного управления при смешанны} ограничениях на управляющие воздействия// Дифференц. уравнения 1995. Т.31. N 9. С.

3. Лукоянов Н.Ю. К задаче конфликтного управления при смешанны} ограничениях// Прикладная матем. и мех., 1995. Т.59. Вып.6

. C.955-S64.

4. Лукоянов Н.Ю. Решение одной дифференциальной игры с интегральными оценками// Математическая школа "Понтрягинские чтения - V". Воронеж, 1994г.: Тез. докл. - Воронеж, 1994. - С.86.

5. Lukoyanov N.Yu. A dilierential game with combined constraints// The Third International Workshop "Multiple Criteria Problem: under Uncertainty". Orekhovo-Zuevo, 1994.: Book ol Abstracts, Orekhovo-Zuevo, 1994. - P.53.

6. Лукоянов Н.Ю. К задаче конфликтного управления с интегральным! оценками//Украинскаяй конференция "Моделирование и исследовант устойчивости систем": Тез. докл. (Исследование систем) - Киев 1995. - С.72.

7. Лукоянов ЕЮ. Одна квазипозиционная дифференциальная игра// II! Международный семинар "Негладкие и разрывные задачи управления оптимизации и их приложения". Санкт-Петербург, 1995г.: Тез. докл.

- Санкт-Петербург, 1995. - С.93-96.

8. Lukoyanov IJ.Yul A dlilerentlal game with hereditary iniormatloi // Abstracts The 8th Workshop on "Dynamics and Control" Hungary, Sopron, 1995.