Игровая задача управления при ограниченных ресурсах воздействия тема автореферата и диссертации по механике, 01.02.01 ВАК РФ
Локшин, Михаил Давидович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Свердловск
МЕСТО ЗАЩИТЫ
|
||||
1990
ГОД ЗАЩИТЫ
|
|
01.02.01
КОД ВАК РФ
|
||
|
л
ШДЕШЯ НАУК СССР УРАЛЬСКОЕ ОТДЕЛЕНИЕ ИНСТИТУТ МАТЕМАТИКИ И МЕХАНИКИ
На правах рукописи
ЛОГЛЗШ Михаил Давидович
ИГРОВАЯ ЗАДАЧА УПРАВЛЕНИЯ ПРИ СГРА1ШЧЕШЖ РЕСУРСАХ ВОЗДЕЙСТВИЯ
01.02.01 - теоретическая механика
АВТОРЕФЕРАТ
диссертации ira соискание ученой степени кандидата физико-матемаигаеенвх паук
Свердловск - 1990
с
Работа выполнена В Уральском государственном университете ям, А.М.Горького на кафедре теоретической механики
Научный руководитель - доктор физико-математических наук,
академик АН СССР Н.Н.Красовский
Официальные оппоненты - доктор физико-математич зосях щук
A.В.Кряжимскяй,
кандидат ф и з и ко -ма т е ка V: и з с I нау
B.Г.Пименов
Ведущая организация - Институт кибернетики им. В.М.Глуш-
Вова АН УССР
Защита диссертации состоится 199 /.> г.
в /У час, на заседании специализированного совета Д-002.07 в Институте математики а механики УрО АН СССР по адресу: 620065, г, Свердловск, ул. С,Ковалевской, 16.
С диссертацией можно ознакомиться в библиотеке Института математики и механики УрО АН СССР
Автореферат разослан " " ,<?рЯ.199^ г,
Учзвнй секретарь Специализированного совета щамтх физ.- мат, наук
М.И.Тусев
Г!"" I ■
':
1 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. Теория диф£ере;щплъ:шх игр, лознп-кшзя в конце 1950-х годов в связи с потребностями практики, в настоящее время сформировалась в самостоятельней раздел прикладной' математики со своей внутренней логикой развития и собственным кругом понятий.
Становление и развитие математической теории дифференциальных игр'в нашей стране во многом обусловлено исследованиями научных школ Москвы, Ленинграда, Киева, Минска, Свердлово-ка. Ваяние результаты в этой области били получены и в других научных центрах.
Существенный, вклад а развитие теории дйф$вргнцкалышх игр внесли работы Р.Айзекса, Э.Г.Альбрехта, В.Д.Еатухтина, А.Брай-сона, Р.Габасова, Р.В.Гамкреладзе, Н.Калтона, Ф.И.Кирилловой, Н.Н.Красовского, А.Е.Кряжииского, А. Б. Ку ржа некого, Е.Ф.Мищенко, М.С.Никольского, Г.Ольсдера, Ю.С.Осипова, Л.А.Петросяна, Л.С.Понтрягина, Б,Н.Пшеничного, Н.Сатимова, А.И.Субботша, В.Е.Третьякова, У.Флеманга, А.Фридмана, 1с О-си, А'.ГЛенцова, Ф.ЛЛерноусько, А.А.Чшсрия,. Р.Эллиотта я многих других советских и зарубежных ученых.
Дифференциальные игры представляют интерес для исследований не только как ебстрактный математический объект, но и как инструмент для решения конкретных задач управления в условиях действия т с к стегну неконтролируемой помехи. Хороео известно, что шюгез задачи об управлении динамическими системами, рассматривающимися в теоретической и прикладной механике, формулируются как задачи из области дифференццальшсс игр.
Рассматриваемые в диссертации дифференциальные'лгрн с йн-
тогралькша ограничениями на управления второю игрока возникают в ходе математической формализации ряда практических 'задач: например, при исследовании дшшзешя управляемого объекта, подверженного воздействию помехи, энергия которой ограничена, а мгновенные значения реализаций помехи могут быть сколь угодно болыншш.
Цель работы.. Целью работы является построение оптимальных законов управления.душ обоих игроков и доказательство существования цены игры и седловой точки в задаче игрового управления линейной системой при интегральных ограничениях на управляющие воздействия второго игрока.
Методика исследования. В основе исследований лежат результаты теории позиционных дифференциальных игр Использую- • тся понятия и йакти аз теории оптимального управления, дифференциальных уравнений и функционального анализа.
Научная новизна. Рассматриваемая в диссертации дифференциальная игра отличается от ранее исследованных в литературе позиционных дифференциальных игр тем, что отсутствуют ограничения на величины управляющих воздействий обоих игроков, а на реализации управления второго игрока наложены интегральные ограничения: интеграл по времени от квадратичной формы относительно компонент реализаций управлений второго игрока равномерно ограничен. Б работе проведена модификация общей схемы теории позиционных дифференциальных игр на рассматриваемый класс задач
I) Н.Н'.Красовский. Управление динамической скоте/Лай* )<Ь: Наука, 1935. - 520 с.
игрового управления. При этом потребовались модификация доказательства существования седловой точи;, новое обоснование стохастического програлмюго сянтеза и разработка эффективного метода построения onm/алз ных стратегий и контрстратегий.
Основные результаты работы являются нозыш.
Практическая и теоретическая ценность. Полученные в работе результаты позволяют в ранках кещенш'.л позиционная дифференциальных игр проводить исследования широкого класса игровых задач управления при ограниченных ресурсах воздействия. Описанные в диссертация алгоритмы дают эозмоянооть регать нз практике ряд конкретных задач управления.
Апробация работы. Основные результаты работы рзссматрито-лись на семинарах кафедр теоретачеоко? механики и информатики и процессов управления Уральского гооуийзсрситета, на семинарах отдела динамических систеч J&M УрО АН СССР, на 21 Региональной молодежной школе-конфорзнцаи (Сзордлог.ок, I9S0 г.).
Публикации. Основные результаты диссертации изложены в работах CI - 4 ] .
Структура и объем работы. Диссертация состоят из введения, трех глав и приложения. Объем работы составляет S8 страниц основного текста, 9 страниц - Прилсгение. Библиография содержит 4S наименований.
5
СОДЕРЖАНИЕ РАБОТЫ
Во введении дан краткий обзор литературы по теме диссертации, а также приведены основные результаты работы.
Первая гла&з посзяцеиа математической формализация рассматриваемой в работе позиционной дифференциальном игры. Вводятся понятия оптимальное стратегий и контротратегий, цены игры и седловой точки, послз чего дается постановка задачи. Движение объекта описывается уравнением
иеЯг, с/ей*, (1)
Здесь ОС - И -мерный фазовый вектор, и , 0~ - вектора #Гра-елявдих воздействий перзого и второго игроков соответственно, Л '(•£), В - непрерывные матрицы, - фик-
сированные моменты времени. Каадая: возможная реализация управления второго игрока СГС~Ь0 £']&) 31 ^&У измерима по Борелю и удовлетворяет ограничению
Ч ■ : -
Здесь VС~Ь03 >0 - заданное число, символ озна-
чает скалярное произведение векторов л в £ , СЬ У непрерывная матрица, <(/• - определенно-положите-
льная квадратичная форш. - •
В §1 вводится понятие стратегии, определяемой как функция
и 6> = { и■(4> X, у, о, ¿„^ ¿у X £ яп)
в
Закон управления первого игрока X/ на отрезке времени определяется как совокупность трз:; сированных компонент: стратегии и СО < разбиения
^ отрезка ¿¿^и ь*ко-горого значения параметра £ >£) , гак что
и^ис-ьА^Ье). (2)
Пусть реализовалась позиция *, Х^, V Л }", £ 0— 3 л Бш5раь закон управле-
ния первого игрока XI (£). Тогда движение СС Г^# =
^•[ОССЫопределяется как репение пошагового дифференциального уравнения .
±сы=А с-ьузеса + всш ас; усъ^, о+ + Ссиогеи, ^ии
при этом реализация СГСЬ^ Сш1$0 может .¿сазагься любой измеримой функцией, удовлетворяющей условию -
I <(/сЫ-ЧС-Ь)1ГШ>М ^ У&Л (3)
При всякой допустимой реализаций С'7&) (3) функция
)/[Ц/ £ 1 определяющая оотр.впийся ресурс для управ-
ления второго игрока в момент -£. , изменяется соггаоно уравнению
7
veil =vrt«3-/<сгст1-И/ег)и-стз>с1г, i*
Величина ViiJ может определятся по ходу управления из анализа движения.
В §2 вводится понятие контротратегии (стратегии второго игрока), определяемой как функция
O^v^vi-t^, a>ol
Под законом управления втрого игрока V^ на отрезке времени Cijf ¡"fr J понимается совокупность трех фиксированных компонент: контротратегии U~0) разбиения для отрезка Cbff.j-d'l и некоторого значения ¿>0 • т.е.
V-ic/c^A^leh . I«;.
flycr-ь реализовалась позиция , ЭС,, VLi^H} и выбран закон управления втрого игрока ]/ (4) и пусть на объект действует управление U , являющееся какой-либо из-
меримой ограниченной функцией. В этом случае движение DC D3 аналогично формируется по шагам, определяемым
разбиением A^itj} . Однако теперь в некоторый момент [t ■д'~) может быть уЦ^З-О , т.6. первоначальный ресурс для управления второго игрока истрачивается, полностью. Тогда, полагаем, что закон V на отрезке времени
назначает реализацию СГСЫ s 0 . и движение объекта определяется из уравнения
х нз= л аухоьз -h&cvum,
В качестве показателя задан функционал
f = y(ocCi. [-ЗН utt* t-ПУ) = ¡оссд-j} f
£ (5)
+ J<ис±з- Фшиазыь
Здесь /Х| - какая-либо корда вектора jC , удовлетворяющая
при ОС 6. R. условно fXj^dlOCie fJi>0■ .где символ
I'L здесь и далее означает евклидову норму; определенно-полояительная квадратичная форма, ^ (-L ) -непрерывная матрица. Пусть символ
Дг
, где <Г>0 , означает разбиедае /^{.^■¡У , которое удовлетворяет условию - "t^lkS",
i=it...)U • Для стратегии UC) и исходной позиции <{-fc#f ; ЗУ бУД6М назьшать гарантированным резуль-
татом величину
сОС), =
=: ¿ST ¿¿m ijttf W Kxaj-m tiCtJ-Щ ¿-*о м дг о-аяС'3#)
а для контрстратегии (/С*,) назовем гараятироваплыи разуль- , татой величину
= Um Lnf Ы fCxCiA-J&lUCiC-lV).
• fc-»0 г* о А,, ись.пъ * *
Оптимальнее стратегия í¿"CO л контрстратегая (f°0) определяются условиями
сCií°C-), VU, l)=mlnu^C(uC->Ji„)X,lv¡;-l
С СсгХ-Ъ -Ь, , X,, Yíi41) = С «ГО, ^, Xjt , У1Щ
какова Ci; на была исходная позиция , З^ч, Vl-t^l J-.
Во второй глаза устанавливается существование оптимальных. стратегии п аолг|!схратагла, а сгз;а;е справедлиг-ссгь ^"свттла
ni(l НО) с си (0> ^ >>yci* J) = WftX c/c-j с с ^
для всякой позиции {if f ZLç ) УС'б^зУ ; равенство (6) означает, что рассматриваемая дифференциальная игра имеет цену C°Ct1l¡ jVC'tj, J) И седловув точку { U°C■ (f )}. Для доказательства существования цеш игры и построения седловой точки в начале второй главы (§4) вводятся вспомогательная модель, которая описывается уравнениями
и/- А Сс) иг+ В Ст> и + С (X) U, ш =<ги-Феои>, "¿R?, veR?. (7)
п n+1
Обозначая {Щ,,..., U¡n) } = g £ К . запишем (7) в яаде
к=+ и, а), и é И] ere R. * ш
где Л0 Cr) - (n + l)x(n+d) -матрица. (0 (Т} LL, СГ) = ^1В(г)и + СссЩ <U- Ф(т)и>} • На ДВШениях
10
Z WJ = {in-V¥ C'J&l коделп (0),
порожденных реализациями W£ï~ L'-J-û')J Сf'C Г* .1Ю , рассмт-ринается функционал
ист,г•зю=игс*з1 + иг Î-
«m,*
S-
-s- f < и [ri- ФсоиеспМг, %£CÎ0)iïl}
соответствующий функционалу J" (5). Реализации Cf [T^. [• ] удовлетворяют ограничению (3), где =
Зафиксируем , какие-лийо число д/>0 и число /V! >0 , удовлетворяющее условна
M >/И0 , /М0 = max J ФЬ)ВСОII• А,
^d/zd + паэс иха,т )D, ' 19)
где X tt,T) ' - (дуцдакентальная матрица для уравнения J-X/<Lt- ACt) ОС, Т - знак транспошироЕашш,
¡IXa,-Oil = irtax.y 1Х(-ь,т)у1еt цф~швта)!!= = maoci} l<P~la)Br(+)ylaj \4\e±i, yeR.n
fia реализации UTt^C-JS"), (/ft* 03$) временно накладываем дополнительные ограничения
1иСгз1е^М,Та6Т^д- (10)
и
Пусть реализовалась некоторая позиция f , VFV+J}-модели (8). Зададимся некоторым числом ß . Правило, ставящее каждой кусочно-постоянной реалязации
и гг, от={)и г-гз A4 /Т# £ Т<
в соответствие кусочно-постоянную реализацию i/CT^OJ-d") , удовлетворяпщую (3) при и одновременно условию (II),
назовем CßjVCQ -процедурой, если выполнено условие наупрездеемоств (/ СТ+ С'3&) по U СТ+ [' 3 и дж всякого порозденного этим правилом движения j£ff. ["• 3 справс^и-л неравенство
к0С* ст;сом, исъ гJW)
В §§ 5-6 вводятся функции р ("•), Р СО, PCO следующим С//) JtA ' J ' 1
образом. Значения р^ £•) определявтся для каждой позиции "
{^i Яj V} согласно условию
(лО
Jm =
ß{^2 v}= [ Я.САЮ-Q-процедура].
Устанавливается, что каковы бн ни были позиция -{Х, 2., V}
числа Ms>Mn, и число Л/>0 , справедливо ра-
х • О * 2, О
венотве
СЫ) СЮ
Г CV,г,V)-ß (г,i,у). аг,
&> 21 0 учетом (12) значения функции vv определяются условием"
Ш) ( ct/) ' у)
zed to*v4va0i,M>M0\.
Во второй главе такке доказывается существование для каждой чсзиции {ft',2:,)/} конечного предела
г ) ■ (.Ы)
jHf, 2,У) = Um р ст д у) (13)
/V-* + со J у '
Таким ,образом, из (13) определится функция р СО . В §5 доказано, что оптимальная стратегия u°f •) строится как функция от переменних 0Cf V, 8 У 53 соответствии с условием
<1°-&Ши0> + 1вм1<и°.Фши°> =
= min {<l°B(-t)u>+ С+1<и-Фа)и>1 ueflz
-men. Lj>a,{3C-lJOW~i^i3)
|2 ,Z
ll£+ tnH ^ a + set -te)) ехрСЫ a -t0)J.
В §б устанавливается, что оптимальная .'контрстратегия ¿f° (■) строится как функция льроменнюс ■¿Ь/ jc, V, & ]' следующим образом.
I) Если матрица С С'Ь) при не будеч нулевой,
то С/ °СО определяется соотношениями.
<С-Са)(1°> - С =
ПН
= тСп -
сбК
у*"»«, у-О =
7<Т 1
т! + С - Ч
{15)
где /1/{"•) - любые функции, удовлетворяющие условиям
а(£)>0, А/(£)>0} йт ^(¿)=0, (лт .
£ -*0
2) Если матрица С(Ч) при ¿-т^1 становится нулевой, то тогда существует величина . '
-ь
, и построение контротратегии (/"(•) будет осуществляться также, как и в первой случае, но с той лишь разницей, что теперь роль конечного момента ф в (14)-(15) будет играть величина '¿* (16) (в данном случае воздействие второго игрока на объект (X) происходит только на отрезке времени Ч*3 )..
Во второй главе такке устанавливается, что для любой исходной позиции {Ь}Х.,У} объекта (I) справедливо равенство
с°сь,х,у) = .р(±,<*>0}, V).
В третьей главе рассматривается метод стохастического программного синтеза применительно к поставленной игровой задаче.
3 § 7 описывается стохастическая программная конструкция, даются определения ее составных; частей.
Пусть выбрана позиция {"Г*, , 3 ]* модели (8). Вы-
берем для отрезка СТ*,-^ разбиение }}
- . Свяжем с этим разбиением вероятностное пространство Рг Р} , где элементарное событие
набор значений независимых в совокупности случайных величин
— 1 • , распределенных равномерно и реализующихся в моменты т: .Позиция ^ У£Т„1} разбиение } и какая-либо пара стохастических неупре-ждающих программ (являющихся ограниченными функциями, взмери-мыми по Борелю по всем их аргументам)
и (-)- { и (-С, (X)Г, ^ со в Я};
■ соеЯ}
-С * '
определяет случайное движение 2 [[т Г" За^З, 0)1 как решение стохастического дифференциального уравнения
05оз::зчш через С^С») к U¿0) программы, отвечаю-вде разбиению /Л . Назовем программным ыаксишном р* для разбиения величину
/С^г^уГ-г^^бир Ы { Mflurfycoll}*
Ф (17)
f
4 , + / М{<иСи,Ь))-Фсс)и (х}
программным экстремумом в* для - величину
где величина определяется равенством
(18)
} уст, j,Л, ¿0))= <тв-Х(Ъъ)цг> +
СЛАСО СЛСО г. 1
• Ä7^, г) С В Ст) и Cr, ¿O) + uVr) с/Гт, оО) > -f + cucrav-CpeoueCjCoy^dT}},
Здесь ÍC )={i(Cj)} " П -мерная случайная вели-
чина на вероятностном пространстве Р} ! символ
II {(•)!! обозначает норму ||(0)Ц- (Ла.&ир |¿(w)j* случайной величины tí-) , где ¡-¿¡* - норма вектора . £ , сопряженная к корме | • I , которая фигурирует в (5); IY1 =
= М { te-')}, m cr; , w) = /М {¿C01...Д.w¡^
L = , где символы и м U. J
обозначают математическое озиданлэ и условное математическое ожидание.
В §S доказывается следующая лемма о связи между прогрэмм-мш экстремумом и программным максм.инсм.
Лемма 8.1. Каковы бы ни били позиция {с^ 1 Л*, VCt^U} и разбиение ¿^-{Т.} отрезка СТ*,-М -Т.-, ... ТГ^с-^), имеет место равенство
В §9 проводится исследование свойств программного экстремума в* . С учетом леммы 8.1 установлен следующий результат. Теорема Э.З. Каковы бы nil были исходная позиция {Т^} ,УС.Т41) и последовательность разбиений -{'Г.} = отрезка ["С,.-ft J с шагом <Г = max. fr- —Т. )
к - L1 1+1 (. V
удовлетворяющая условию ccm S" —Q , справедливо равенство
, fc К-^оп
tin е*tun
vet; a, ¿V-г };v/r-3).
В §10 развит конструктивны!-! меюд вдвделенял функция цо-ны игры путем рекуррентного построегшя иогнутюг оболочек для
с\
вспомогательных функций'
Пусть вибряни позиция { Т, ; Z I, V[T01} модели (8) и разбиение Г0, Tkti = -в- отрезка LT*,3 . а
2) Krasbvsfeji tf.bf., Resbe-fova T.tl. On the ¡>rograra syrnlbesis of a gmratiieei control //Problems cf Control and Information Theory. - 1988.- Vol.17, rfo.C.-P. 33J-34i3.
также любая измеримая функция
Введем вспомогательные функции
Т.*
у. (п,0С'1)= } Ш1п ■ 'По.Х [<т.
•Хфг)(ВстЖ+Сег)(/)> + <и- <Р(г)и > J Ыт,
%\гп)0[-])={Ф*О)} . <?.\тгС1[-1) = {Ч>*С0 + к к * ' <- £
+ > ¿=4,..-А
где символам Ц>*(т) ~ обозначена верхняя вогнутая
оболочка функции у*(т.)1 /гп)*^ 1 • Далее введем величину
Он /тГк!
Здесь верхняя грань берется по всем функциям Ос-З . удовлетворяющим С19) -
Теорема 10.1. Каковы бн ни были позиция объекта (I) и последовательность ¡избиений Ск-{, 2,..,) отрезка о шагом ^-Шзг , удовдаг-
ворякиая услсют (¿т. ^ = О справедливо равенство • ¿-»оо
1Р
(1т ел а,,€х,,01 ус^Д А) = с а х, у[11).
¡с-»со * '*' * ' *
В §11 приводится пример симуляции па ЭБМ процесса управления для модельной задачи. Отметим, что к дифференциальным уравнениям, описывающим динамику объекта в модальной задаче, годятся в ряде случаев уравнения управляемых движений двух .
териальных точек переменной массы, движущихся вдоль прямой лри наличии сили трения, пропорциональной скорости и противоположной ей по направлении, и при воздействии помех. В Прило-аенви дано доказательство двух вспомогательных лемм из третьей главы. -
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Для рассматриваемой задачи игрового управления линейным объектом при интегральных ограничениях на управления второго игрока установлено существование цены игры и построены оптимальные стратегия и контрстратёгия, которые в паре образуют седловую точку.
2. Развит метод стохастического программного синтеза для вычисления цены игры в исследуемой игровой задаче. .
3. Эффективный метод построения цены игры и-оптимальных стратегий и конгрстратегий, который известен для позиционных дифференциальных игр с геометрическими ограничениями на управлявшие воздействия. и который' основан на рекуррентном построении вогнутых оболочек для вспомогательных функций, распрост- ' ранен и на исследуемый и работе класс дифференииалпшх игр.
19
ПУБЛИКАЦИИ ПО ТЫЛЕ ДИССЕРТАЦИИ
1. Локшин М.Д. Позиционные дифференциальные игры с интегральными ограничениями на помеху /Урал. гос. ун-т.- Свердловск, 1989. - 42 е.- Деп. в ВИНИТИ 22.12.89, И7586-В89.
2. Локшин М.Д. Об игровом управлении при интегральном ограничении на помеху //Докл. АН СССР. - 1990.- T.3II, № 2. -
С. 276 - 282.
3. Локшин М.Д. О дифференциальных играх с интегральными ограничениями на помеху //Прикл. гатематика и механика.- 1990.-Т.54, Внп.З.- С. 401 - 408.
4. Lokshin Ю. On the optimal control of & Iinaar system un-¿er the condition of the integral disturbance constraint // Problems of Control anI Information Theory.- 1990.^ Vol.19, i/o. 2 P. 1П-127.
Подписано к печати 5.10.90 г. Формат 60x84 I/I6 06"ем 1.0 печ. л. Tupas 100 экз. Заказ 84. Бесплатно
Ротапринт Института математики и механики УрО АН СССР 620219, Свердловск, ул. С.Ковалевской, 16