Игровая задача управления при ограниченных ресурсах воздействия тема автореферата и диссертации по механике, 01.02.01 ВАК РФ

Локшин, Михаил Давидович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Свердловск МЕСТО ЗАЩИТЫ
1990 ГОД ЗАЩИТЫ
   
01.02.01 КОД ВАК РФ
Автореферат по механике на тему «Игровая задача управления при ограниченных ресурсах воздействия»
 
Автореферат диссертации на тему "Игровая задача управления при ограниченных ресурсах воздействия"

л

ШДЕШЯ НАУК СССР УРАЛЬСКОЕ ОТДЕЛЕНИЕ ИНСТИТУТ МАТЕМАТИКИ И МЕХАНИКИ

На правах рукописи

ЛОГЛЗШ Михаил Давидович

ИГРОВАЯ ЗАДАЧА УПРАВЛЕНИЯ ПРИ СГРА1ШЧЕШЖ РЕСУРСАХ ВОЗДЕЙСТВИЯ

01.02.01 - теоретическая механика

АВТОРЕФЕРАТ

диссертации ira соискание ученой степени кандидата физико-матемаигаеенвх паук

Свердловск - 1990

с

Работа выполнена В Уральском государственном университете ям, А.М.Горького на кафедре теоретической механики

Научный руководитель - доктор физико-математических наук,

академик АН СССР Н.Н.Красовский

Официальные оппоненты - доктор физико-математич зосях щук

A.В.Кряжимскяй,

кандидат ф и з и ко -ма т е ка V: и з с I нау

B.Г.Пименов

Ведущая организация - Институт кибернетики им. В.М.Глуш-

Вова АН УССР

Защита диссертации состоится 199 /.> г.

в /У час, на заседании специализированного совета Д-002.07 в Институте математики а механики УрО АН СССР по адресу: 620065, г, Свердловск, ул. С,Ковалевской, 16.

С диссертацией можно ознакомиться в библиотеке Института математики и механики УрО АН СССР

Автореферат разослан " " ,<?рЯ.199^ г,

Учзвнй секретарь Специализированного совета щамтх физ.- мат, наук

М.И.Тусев

Г!"" I ■

':

1 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Теория диф£ере;щплъ:шх игр, лознп-кшзя в конце 1950-х годов в связи с потребностями практики, в настоящее время сформировалась в самостоятельней раздел прикладной' математики со своей внутренней логикой развития и собственным кругом понятий.

Становление и развитие математической теории дифференциальных игр'в нашей стране во многом обусловлено исследованиями научных школ Москвы, Ленинграда, Киева, Минска, Свердлово-ка. Ваяние результаты в этой области били получены и в других научных центрах.

Существенный, вклад а развитие теории дйф$вргнцкалышх игр внесли работы Р.Айзекса, Э.Г.Альбрехта, В.Д.Еатухтина, А.Брай-сона, Р.Габасова, Р.В.Гамкреладзе, Н.Калтона, Ф.И.Кирилловой, Н.Н.Красовского, А.Е.Кряжииского, А. Б. Ку ржа некого, Е.Ф.Мищенко, М.С.Никольского, Г.Ольсдера, Ю.С.Осипова, Л.А.Петросяна, Л.С.Понтрягина, Б,Н.Пшеничного, Н.Сатимова, А.И.Субботша, В.Е.Третьякова, У.Флеманга, А.Фридмана, 1с О-си, А'.ГЛенцова, Ф.ЛЛерноусько, А.А.Чшсрия,. Р.Эллиотта я многих других советских и зарубежных ученых.

Дифференциальные игры представляют интерес для исследований не только как ебстрактный математический объект, но и как инструмент для решения конкретных задач управления в условиях действия т с к стегну неконтролируемой помехи. Хороео известно, что шюгез задачи об управлении динамическими системами, рассматривающимися в теоретической и прикладной механике, формулируются как задачи из области дифференццальшсс игр.

Рассматриваемые в диссертации дифференциальные'лгрн с йн-

тогралькша ограничениями на управления второю игрока возникают в ходе математической формализации ряда практических 'задач: например, при исследовании дшшзешя управляемого объекта, подверженного воздействию помехи, энергия которой ограничена, а мгновенные значения реализаций помехи могут быть сколь угодно болыншш.

Цель работы.. Целью работы является построение оптимальных законов управления.душ обоих игроков и доказательство существования цены игры и седловой точки в задаче игрового управления линейной системой при интегральных ограничениях на управляющие воздействия второго игрока.

Методика исследования. В основе исследований лежат результаты теории позиционных дифференциальных игр Использую- • тся понятия и йакти аз теории оптимального управления, дифференциальных уравнений и функционального анализа.

Научная новизна. Рассматриваемая в диссертации дифференциальная игра отличается от ранее исследованных в литературе позиционных дифференциальных игр тем, что отсутствуют ограничения на величины управляющих воздействий обоих игроков, а на реализации управления второго игрока наложены интегральные ограничения: интеграл по времени от квадратичной формы относительно компонент реализаций управлений второго игрока равномерно ограничен. Б работе проведена модификация общей схемы теории позиционных дифференциальных игр на рассматриваемый класс задач

I) Н.Н'.Красовский. Управление динамической скоте/Лай* )<Ь: Наука, 1935. - 520 с.

игрового управления. При этом потребовались модификация доказательства существования седловой точи;, новое обоснование стохастического програлмюго сянтеза и разработка эффективного метода построения onm/алз ных стратегий и контрстратегий.

Основные результаты работы являются нозыш.

Практическая и теоретическая ценность. Полученные в работе результаты позволяют в ранках кещенш'.л позиционная дифференциальных игр проводить исследования широкого класса игровых задач управления при ограниченных ресурсах воздействия. Описанные в диссертация алгоритмы дают эозмоянооть регать нз практике ряд конкретных задач управления.

Апробация работы. Основные результаты работы рзссматрито-лись на семинарах кафедр теоретачеоко? механики и информатики и процессов управления Уральского гооуийзсрситета, на семинарах отдела динамических систеч J&M УрО АН СССР, на 21 Региональной молодежной школе-конфорзнцаи (Сзордлог.ок, I9S0 г.).

Публикации. Основные результаты диссертации изложены в работах CI - 4 ] .

Структура и объем работы. Диссертация состоят из введения, трех глав и приложения. Объем работы составляет S8 страниц основного текста, 9 страниц - Прилсгение. Библиография содержит 4S наименований.

5

СОДЕРЖАНИЕ РАБОТЫ

Во введении дан краткий обзор литературы по теме диссертации, а также приведены основные результаты работы.

Первая гла&з посзяцеиа математической формализация рассматриваемой в работе позиционной дифференциальном игры. Вводятся понятия оптимальное стратегий и контротратегий, цены игры и седловой точки, послз чего дается постановка задачи. Движение объекта описывается уравнением

иеЯг, с/ей*, (1)

Здесь ОС - И -мерный фазовый вектор, и , 0~ - вектора #Гра-елявдих воздействий перзого и второго игроков соответственно, Л '(•£), В - непрерывные матрицы, - фик-

сированные моменты времени. Каадая: возможная реализация управления второго игрока СГС~Ь0 £']&) 31 ^&У измерима по Борелю и удовлетворяет ограничению

Ч ■ : -

Здесь VС~Ь03 >0 - заданное число, символ озна-

чает скалярное произведение векторов л в £ , СЬ У непрерывная матрица, <(/• - определенно-положите-

льная квадратичная форш. - •

В §1 вводится понятие стратегии, определяемой как функция

и 6> = { и■(4> X, у, о, ¿„^ ¿у X £ яп)

в

Закон управления первого игрока X/ на отрезке времени определяется как совокупность трз:; сированных компонент: стратегии и СО < разбиения

^ отрезка ¿¿^и ь*ко-горого значения параметра £ >£) , гак что

и^ис-ьА^Ье). (2)

Пусть реализовалась позиция *, Х^, V Л }", £ 0— 3 л Бш5раь закон управле-

ния первого игрока XI (£). Тогда движение СС Г^# =

^•[ОССЫопределяется как репение пошагового дифференциального уравнения .

±сы=А с-ьузеса + всш ас; усъ^, о+ + Ссиогеи, ^ии

при этом реализация СГСЬ^ Сш1$0 может .¿сазагься любой измеримой функцией, удовлетворяющей условию -

I <(/сЫ-ЧС-Ь)1ГШ>М ^ У&Л (3)

При всякой допустимой реализаций С'7&) (3) функция

)/[Ц/ £ 1 определяющая оотр.впийся ресурс для управ-

ления второго игрока в момент -£. , изменяется соггаоно уравнению

7

veil =vrt«3-/<сгст1-И/ег)и-стз>с1г, i*

Величина ViiJ может определятся по ходу управления из анализа движения.

В §2 вводится понятие контротратегии (стратегии второго игрока), определяемой как функция

O^v^vi-t^, a>ol

Под законом управления втрого игрока V^ на отрезке времени Cijf ¡"fr J понимается совокупность трех фиксированных компонент: контротратегии U~0) разбиения для отрезка Cbff.j-d'l и некоторого значения ¿>0 • т.е.

V-ic/c^A^leh . I«;.

flycr-ь реализовалась позиция , ЭС,, VLi^H} и выбран закон управления втрого игрока ]/ (4) и пусть на объект действует управление U , являющееся какой-либо из-

меримой ограниченной функцией. В этом случае движение DC D3 аналогично формируется по шагам, определяемым

разбиением A^itj} . Однако теперь в некоторый момент [t ■д'~) может быть уЦ^З-О , т.6. первоначальный ресурс для управления второго игрока истрачивается, полностью. Тогда, полагаем, что закон V на отрезке времени

назначает реализацию СГСЫ s 0 . и движение объекта определяется из уравнения

х нз= л аухоьз -h&cvum,

В качестве показателя задан функционал

f = y(ocCi. [-ЗН utt* t-ПУ) = ¡оссд-j} f

£ (5)

+ J<ис±з- Фшиазыь

Здесь /Х| - какая-либо корда вектора jC , удовлетворяющая

при ОС 6. R. условно fXj^dlOCie fJi>0■ .где символ

I'L здесь и далее означает евклидову норму; определенно-полояительная квадратичная форма, ^ (-L ) -непрерывная матрица. Пусть символ

Дг

, где <Г>0 , означает разбиедае /^{.^■¡У , которое удовлетворяет условию - "t^lkS",

i=it...)U • Для стратегии UC) и исходной позиции <{-fc#f ; ЗУ бУД6М назьшать гарантированным резуль-

татом величину

сОС), =

=: ¿ST ¿¿m ijttf W Kxaj-m tiCtJ-Щ ¿-*о м дг о-аяС'3#)

а для контрстратегии (/С*,) назовем гараятироваплыи разуль- , татой величину

= Um Lnf Ы fCxCiA-J&lUCiC-lV).

• fc-»0 г* о А,, ись.пъ * *

Оптимальнее стратегия í¿"CO л контрстратегая (f°0) определяются условиями

сCií°C-), VU, l)=mlnu^C(uC->Ji„)X,lv¡;-l

С СсгХ-Ъ -Ь, , X,, Yíi41) = С «ГО, ^, Xjt , У1Щ

какова Ci; на была исходная позиция , З^ч, Vl-t^l J-.

Во второй глаза устанавливается существование оптимальных. стратегии п аолг|!схратагла, а сгз;а;е справедлиг-ссгь ^"свттла

ni(l НО) с си (0> ^ >>yci* J) = WftX c/c-j с с ^

для всякой позиции {if f ZLç ) УС'б^зУ ; равенство (6) означает, что рассматриваемая дифференциальная игра имеет цену C°Ct1l¡ jVC'tj, J) И седловув точку { U°C■ (f )}. Для доказательства существования цеш игры и построения седловой точки в начале второй главы (§4) вводятся вспомогательная модель, которая описывается уравнениями

и/- А Сс) иг+ В Ст> и + С (X) U, ш =<ги-Феои>, "¿R?, veR?. (7)

п n+1

Обозначая {Щ,,..., U¡n) } = g £ К . запишем (7) в яаде

к=+ и, а), и é И] ere R. * ш

где Л0 Cr) - (n + l)x(n+d) -матрица. (0 (Т} LL, СГ) = ^1В(г)и + СссЩ <U- Ф(т)и>} • На ДВШениях

10

Z WJ = {in-V¥ C'J&l коделп (0),

порожденных реализациями W£ï~ L'-J-û')J Сf'C Г* .1Ю , рассмт-ринается функционал

ист,г•зю=игс*з1 + иг Î-

«m,*

S-

-s- f < и [ri- ФсоиеспМг, %£CÎ0)iïl}

соответствующий функционалу J" (5). Реализации Cf [T^. [• ] удовлетворяют ограничению (3), где =

Зафиксируем , какие-лийо число д/>0 и число /V! >0 , удовлетворяющее условна

M >/И0 , /М0 = max J ФЬ)ВСОII• А,

^d/zd + паэс иха,т )D, ' 19)

где X tt,T) ' - (дуцдакентальная матрица для уравнения J-X/<Lt- ACt) ОС, Т - знак транспошироЕашш,

¡IXa,-Oil = irtax.y 1Х(-ь,т)у1еt цф~швта)!!= = maoci} l<P~la)Br(+)ylaj \4\e±i, yeR.n

fia реализации UTt^C-JS"), (/ft* 03$) временно накладываем дополнительные ограничения

1иСгз1е^М,Та6Т^д- (10)

и

Пусть реализовалась некоторая позиция f , VFV+J}-модели (8). Зададимся некоторым числом ß . Правило, ставящее каждой кусочно-постоянной реалязации

и гг, от={)и г-гз A4 /Т# £ Т<

в соответствие кусочно-постоянную реализацию i/CT^OJ-d") , удовлетворяпщую (3) при и одновременно условию (II),

назовем CßjVCQ -процедурой, если выполнено условие наупрездеемоств (/ СТ+ С'3&) по U СТ+ [' 3 и дж всякого порозденного этим правилом движения j£ff. ["• 3 справс^и-л неравенство

к0С* ст;сом, исъ гJW)

В §§ 5-6 вводятся функции р ("•), Р СО, PCO следующим С//) JtA ' J ' 1

образом. Значения р^ £•) определявтся для каждой позиции "

{^i Яj V} согласно условию

(лО

Jm =

ß{^2 v}= [ Я.САЮ-Q-процедура].

Устанавливается, что каковы бн ни были позиция -{Х, 2., V}

числа Ms>Mn, и число Л/>0 , справедливо ра-

х • О * 2, О

венотве

СЫ) СЮ

Г CV,г,V)-ß (г,i,у). аг,

&> 21 0 учетом (12) значения функции vv определяются условием"

Ш) ( ct/) ' у)

zed to*v4va0i,M>M0\.

Во второй главе такке доказывается существование для каждой чсзиции {ft',2:,)/} конечного предела

г ) ■ (.Ы)

jHf, 2,У) = Um р ст д у) (13)

/V-* + со J у '

Таким ,образом, из (13) определится функция р СО . В §5 доказано, что оптимальная стратегия u°f •) строится как функция от переменних 0Cf V, 8 У 53 соответствии с условием

<1°-&Ши0> + 1вм1<и°.Фши°> =

= min {<l°B(-t)u>+ С+1<и-Фа)и>1 ueflz

-men. Lj>a,{3C-lJOW~i^i3)

|2 ,Z

ll£+ tnH ^ a + set -te)) ехрСЫ a -t0)J.

В §б устанавливается, что оптимальная .'контрстратегия ¿f° (■) строится как функция льроменнюс ■¿Ь/ jc, V, & ]' следующим образом.

I) Если матрица С С'Ь) при не будеч нулевой,

то С/ °СО определяется соотношениями.

<С-Са)(1°> - С =

ПН

= тСп -

сбК

у*"»«, у-О =

7<Т 1

т! + С - Ч

{15)

где /1/{"•) - любые функции, удовлетворяющие условиям

а(£)>0, А/(£)>0} йт ^(¿)=0, (лт .

£ -*0

2) Если матрица С(Ч) при ¿-т^1 становится нулевой, то тогда существует величина . '

, и построение контротратегии (/"(•) будет осуществляться также, как и в первой случае, но с той лишь разницей, что теперь роль конечного момента ф в (14)-(15) будет играть величина '¿* (16) (в данном случае воздействие второго игрока на объект (X) происходит только на отрезке времени Ч*3 )..

Во второй главе такке устанавливается, что для любой исходной позиции {Ь}Х.,У} объекта (I) справедливо равенство

с°сь,х,у) = .р(±,<*>0}, V).

В третьей главе рассматривается метод стохастического программного синтеза применительно к поставленной игровой задаче.

3 § 7 описывается стохастическая программная конструкция, даются определения ее составных; частей.

Пусть выбрана позиция {"Г*, , 3 ]* модели (8). Вы-

берем для отрезка СТ*,-^ разбиение }}

- . Свяжем с этим разбиением вероятностное пространство Рг Р} , где элементарное событие

набор значений независимых в совокупности случайных величин

— 1 • , распределенных равномерно и реализующихся в моменты т: .Позиция ^ У£Т„1} разбиение } и какая-либо пара стохастических неупре-ждающих программ (являющихся ограниченными функциями, взмери-мыми по Борелю по всем их аргументам)

и (-)- { и (-С, (X)Г, ^ со в Я};

■ соеЯ}

-С * '

определяет случайное движение 2 [[т Г" За^З, 0)1 как решение стохастического дифференциального уравнения

05оз::зчш через С^С») к U¿0) программы, отвечаю-вде разбиению /Л . Назовем программным ыаксишном р* для разбиения величину

/С^г^уГ-г^^бир Ы { Mflurfycoll}*

Ф (17)

f

4 , + / М{<иСи,Ь))-Фсс)и (х}

программным экстремумом в* для - величину

где величина определяется равенством

(18)

} уст, j,Л, ¿0))= <тв-Х(Ъъ)цг> +

СЛАСО СЛСО г. 1

• Ä7^, г) С В Ст) и Cr, ¿O) + uVr) с/Гт, оО) > -f + cucrav-CpeoueCjCoy^dT}},

Здесь ÍC )={i(Cj)} " П -мерная случайная вели-

чина на вероятностном пространстве Р} ! символ

II {(•)!! обозначает норму ||(0)Ц- (Ла.&ир |¿(w)j* случайной величины tí-) , где ¡-¿¡* - норма вектора . £ , сопряженная к корме | • I , которая фигурирует в (5); IY1 =

= М { te-')}, m cr; , w) = /М {¿C01...Д.w¡^

L = , где символы и м U. J

обозначают математическое озиданлэ и условное математическое ожидание.

В §S доказывается следующая лемма о связи между прогрэмм-мш экстремумом и программным максм.инсм.

Лемма 8.1. Каковы бы ни били позиция {с^ 1 Л*, VCt^U} и разбиение ¿^-{Т.} отрезка СТ*,-М -Т.-, ... ТГ^с-^), имеет место равенство

В §9 проводится исследование свойств программного экстремума в* . С учетом леммы 8.1 установлен следующий результат. Теорема Э.З. Каковы бы nil были исходная позиция {Т^} ,УС.Т41) и последовательность разбиений -{'Г.} = отрезка ["С,.-ft J с шагом <Г = max. fr- —Т. )

к - L1 1+1 (. V

удовлетворяющая условию ccm S" —Q , справедливо равенство

, fc К-^оп

tin е*tun

vet; a, ¿V-г };v/r-3).

В §10 развит конструктивны!-! меюд вдвделенял функция цо-ны игры путем рекуррентного построегшя иогнутюг оболочек для

с\

вспомогательных функций'

Пусть вибряни позиция { Т, ; Z I, V[T01} модели (8) и разбиение Г0, Tkti = -в- отрезка LT*,3 . а

2) Krasbvsfeji tf.bf., Resbe-fova T.tl. On the ¡>rograra syrnlbesis of a gmratiieei control //Problems cf Control and Information Theory. - 1988.- Vol.17, rfo.C.-P. 33J-34i3.

также любая измеримая функция

Введем вспомогательные функции

Т.*

у. (п,0С'1)= } Ш1п ■ 'По.Х [<т.

•Хфг)(ВстЖ+Сег)(/)> + <и- <Р(г)и > J Ыт,

%\гп)0[-])={Ф*О)} . <?.\тгС1[-1) = {Ч>*С0 + к к * ' <- £

+ > ¿=4,..-А

где символам Ц>*(т) ~ обозначена верхняя вогнутая

оболочка функции у*(т.)1 /гп)*^ 1 • Далее введем величину

Он /тГк!

Здесь верхняя грань берется по всем функциям Ос-З . удовлетворяющим С19) -

Теорема 10.1. Каковы бн ни были позиция объекта (I) и последовательность ¡избиений Ск-{, 2,..,) отрезка о шагом ^-Шзг , удовдаг-

ворякиая услсют (¿т. ^ = О справедливо равенство • ¿-»оо

(1т ел а,,€х,,01 ус^Д А) = с а х, у[11).

¡с-»со * '*' * ' *

В §11 приводится пример симуляции па ЭБМ процесса управления для модельной задачи. Отметим, что к дифференциальным уравнениям, описывающим динамику объекта в модальной задаче, годятся в ряде случаев уравнения управляемых движений двух .

териальных точек переменной массы, движущихся вдоль прямой лри наличии сили трения, пропорциональной скорости и противоположной ей по направлении, и при воздействии помех. В Прило-аенви дано доказательство двух вспомогательных лемм из третьей главы. -

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Для рассматриваемой задачи игрового управления линейным объектом при интегральных ограничениях на управления второго игрока установлено существование цены игры и построены оптимальные стратегия и контрстратёгия, которые в паре образуют седловую точку.

2. Развит метод стохастического программного синтеза для вычисления цены игры в исследуемой игровой задаче. .

3. Эффективный метод построения цены игры и-оптимальных стратегий и конгрстратегий, который известен для позиционных дифференциальных игр с геометрическими ограничениями на управлявшие воздействия. и который' основан на рекуррентном построении вогнутых оболочек для вспомогательных функций, распрост- ' ранен и на исследуемый и работе класс дифференииалпшх игр.

19

ПУБЛИКАЦИИ ПО ТЫЛЕ ДИССЕРТАЦИИ

1. Локшин М.Д. Позиционные дифференциальные игры с интегральными ограничениями на помеху /Урал. гос. ун-т.- Свердловск, 1989. - 42 е.- Деп. в ВИНИТИ 22.12.89, И7586-В89.

2. Локшин М.Д. Об игровом управлении при интегральном ограничении на помеху //Докл. АН СССР. - 1990.- T.3II, № 2. -

С. 276 - 282.

3. Локшин М.Д. О дифференциальных играх с интегральными ограничениями на помеху //Прикл. гатематика и механика.- 1990.-Т.54, Внп.З.- С. 401 - 408.

4. Lokshin Ю. On the optimal control of & Iinaar system un-¿er the condition of the integral disturbance constraint // Problems of Control anI Information Theory.- 1990.^ Vol.19, i/o. 2 P. 1П-127.

Подписано к печати 5.10.90 г. Формат 60x84 I/I6 06"ем 1.0 печ. л. Tupas 100 экз. Заказ 84. Бесплатно

Ротапринт Института математики и механики УрО АН СССР 620219, Свердловск, ул. С.Ковалевской, 16