Оптимальное управление при функциональных ограничениях на помеху тема автореферата и диссертации по математике, 01.01.09 ВАК РФ
Серков, Дмитрий Александрович
АВТОР
|
||||
доктора физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Екатеринбург
МЕСТО ЗАЩИТЫ
|
||||
2014
ГОД ЗАЩИТЫ
|
|
01.01.09
КОД ВАК РФ
|
||
|
На правах рукописи ■ ^^
СЕРКОВ Дмитрий Александрович
ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ПРИ ФУНКЦИОНАЛЬНЫХ ОГРАНИЧЕНИЯХ НА ПОМЕХУ
Специальность 01.01.09 — Дискретная математика и математическая кибернетика
Автореферат
диссертации на соискание учёной степени доктора физико-математических наук
2 0 НАР 2014
Екатеринбург 2014 005546268
005546268
Работа выполнена в отделе динамических систем ФГБУН Институт математики и механики им. H.H. Красовского Уральского отделения Российской академии наук (ИММ УрО РАН).
Научный консультант: Ченцов Александр Георгиевич, доктор физико-математических наук, член-корресподеит РАН, профессор.
Официальные оппоненты: Петров Николай Никандровнч, доктор физико-математических наук, профессор Кафедры дифференциальных уравнении, декан Математического факультета ФГБОУ ВПО «Удмуртский государственный университет»,
Ухоботов Виктор Иванович, доктор физико-математических наук, профессор, заведующий Кафедрой теории управления и оптимизации ФГБОУ ВПО «Челябинский государственный университет»,
Чистяков Сергей Владимирович, доктор физико-математических наук, профессор, Кафедра математической теории игр и статистических решений ФГБОУ ВПО «Санкт-Петербургский государственный университет».
Ведущая организация: ФГБУН Математический институт им. В.А.Стеклова
Российской академии наук.
Защита состоится «16» апреля 2014 года в 14 часов на заседании диссертационного совета Д 004.006.04 при ИММ УрО РАН, по адресу: г. Екатеринбург, ул. С. Ковалевской, д. 16.
С диссертацией можно ознакомиться в библиотеке ИММ УрО РАН. Автореферат разослан «7» марта 2014 года.
Ученый секретарь диссертационного совета, доктор физико-математических наук, с.н.с.
Общая характеристика работы
Актуальность темы. В теории дифференциальных игр [1, 7-9, 13] рассматривается ситуация активного противодействия помехи намерениям управляющей стороны. В этих условиях естественным образом возникают предположения о наличии стороны, осуществляющей формирование помехи исходя из целей, противоположных целям управления, а также об осведомленности этой стороны о состояния управляемой системы и/или о действиях управляющей стороны. Такая характеристика помехи с необходимостью влечет конструкцию оценки действий управляющей стороны на основе минимаксного критерия. Этот тип задач управления хорошо изучен в рамках указанной теории, для него построены эффективные решения.
Вместе с тем, известны многочисленные задачи управления, в которых помеха заведомо не имеет антагонистического характера, иначе говоря
(а) поведение помехи не связано со значениями рассматриваемого показателя качества и
(б) не зависит от состояния управляемой системы или действий управляющей стороны.
К таким задачам относятся, например,
— управление материальными системами при наличии природных воздействий (управление транспортными средствами, управление ирригационными, гид-ро-энергетическими системами, локализация пожаров, наводнений, техногенных загрязнений и т. п.);
— управление малыми (не имеющими доминирующего положения) экономическими объектами в изменяющихся макроэкономических условиях.
В этих задачах, также можно строить оптимальный гарантированный результат управления, но приписывание помехе возможности противодействовать управляющей стороне, реагируя на состояние объекта управления и/или на управляющие воздействия, может существенно изменить (ухудшить) результат, отвечающий содержанию исходной задачи управления.
Таким образом, задачи управления при неантагонистической помехе имеют самостоятельное значение и содержательные предпосылки.
В качестве формального описания «нейтрального» поведения помехи можно рассматривать те или иные ограничения на ее изменение в зависимости от изменения фазового состояния системы или управления. Эти ограничения, как правило, носят функциональный характер. Простейшим ограничением такого рода является предположение о программном поведении помехи, то есть предположение о том, что помеха описывается некоторой заранее неизвестной, но фиксированной функцией времени. Другой естественный с точки зрения приложений вариант дают помехи, порождаемые некоторой неизвестной функцией Каратеодориевского типа, то есть функцией непрерывной по пространственной переменной и измеримой по временной.
Задачи управления с функционально ограниченной помехой исследовались как вспомогательный инструмент (см. [7,8] и библиографию в этих книгах) для решения задачи в случае помехи общего вида, а также в качестве самостоятельной проблемы [2,3,25].
Так в конструкции программного максимина H.H. Красовского [7, 8, 13] программные помехи используются для нахождения оптимального гарантированного результата и оптимальных позиционных стратегий в задаче с «произвольными» помехами. Для широкого круга задач управления стохастический программный мак-симин [9], в котором действуют неупреждающие стохастические программные помехи, дает цену соответствующей дифференциальной игры.
В работах H.H. Барабановой и А.И. Субботина [2,3] в рамках изучения дифференциальных игр для линейных управляемых систем исследовались множества программного поглощения [5,6] для случаев, когда помеха формируется непрерывной позиционной стратегией, либо посредством полунепрерывного сверху многозначного отображения, определенного на расширенном фазовом пространстве управляемой системы. Было установлено, что указанные множества поглощения совпадают с исходным множеством, формируемым программной помехой.
Другой вид задачи управления с функциональным ограничением на помеху предложен и рассмотрен в работе A.B. Кряжимского [25] в связи с изучением свойств стратегий с полной памятью. Предполагалось, что реализации помехи содержатся в некотором неизвестном ¿р-компактном подмножестве заранее заданного множества допустимых помех. Для этого вида ограничений в указанной работе при весьма общих предположениях об управляемой системе и показателе качества было установлено, в частности, равенство оптимальных результатов, достигаемых в классе стратегий с полной памятью [8, §95] и в классе квазистратегий. Для классов стратегий, обладающих таким свойством, был введен термин «неулучшаемые».
Еще одним направлением в исследовании задач управления с неантагонистической помехой является переход от классического — минимаксного — критерия оценки управления к другой конструкции этой оценки, возможно, в большей степени отвечающим сути рассматриваемой задачи. Минимаксный критерий качества отражает эффективность управления при наиболее неблагоприятных помехах, практически не реагируя на качество управления в случаях, когда действия помехи нейтральны или благоприятны по отношению к целям управления. В этих случаях — случаях нейтрального поведения помехи — управление, оптимальное в смысле минимаксного критерия, может, вообще говоря, «упускать возможности» улучшения результата. В 1948 г. в работе Ю. Ниханса [26] и в 1951 г. — у Л.Дж. Сэвиджа [28] введено новое понятие оптимального решения в игре двух лиц, которое по своей конструкции существенно отличается от минимаксного решения. В литературе этот подход, обычно, именуется критерием Сэвиджа.
Поясним конструкцию этого критерия применительно задаче управления при наличии динамической помехи: пусть имеется управляемая система, выделено мно-
4
жество допустимых помех, выбраны класс стратегий управления и некоторый показатель качества. Для допустимой (реализации) помехи найдем результат в задаче оптимального управления при этой фиксированной помехе. Затем вычислим значение показателя качества для этой же помехи и стратегии управления из выбранного класса стратегий. Превышение второй величины над первой характеризует наш риск при (сожаление о) выборе данной стратегии в случае реализации данной помехи. Стратегия, у которой верхняя граница риска (сожаления) по всем помехам минимальна, называется оптимальной в смысле критерия Сэвиджа.
Оптимальное решение в смысле Ниханса-Сэвиджа, по-существу, также выделяет группу «неблагоприятных» помех, однако делает это иным способом, не связанным непосредственно с влиянием помехи на значение показателя качества. Помехи «благоприятствующие» не менее существенны для этого критерия, чем помехи «препятствующие» достижению цели управления.
Указанные свойства критерия Ниханса-Сэвиджа делают целесообразным его применение в ситуациях, когда помеха заведомо не имеет антагонистического характера и, как следствие, изучение задач управления в формализации, основанной на этом критерии.
Цель работы. Целью работы является построение теории оптимального управления динамическими системами в условиях помех, стесненных функциональными ограничениями, в формализации на основе как (классического) минимаксного критерия, так и критерия минимаксного риска (сожаления) Сэвиджа с дальнейшим приложением к задачам оптимизации при неантагонистической помехе.
Методы исследования. Представленные в диссертации исследования опираются на подходы и методы из качественной теории дифференциальных уравнений, теории позиционных дифференциальных игр и обратных задач динамики. Используются результаты из функционального анализа, дифференциальных включений и негладкого анализа.
Научная новизна. В работе в связи с рассмотрением задач управления при не антагонистической помехе дана формализация и обоснованы методы решения задач оптимизации гарантированного результата при наличии различных видов функциональных ограничений на помеху. В частности, показано, что стратегии с полной памятью неулучшаемы и приведены условия, при которых оптимальные стратегии допускают численную реализацию; формализована и исследована задача управления на основе критерия минимального риска при наличии различных видов функциональных ограничений на помеху. В частности, для этих задач управления указан неулучша-емый класс стратегий, построено представление минимального риска в форме пре-
дела итерационных процедур и приведены условия, при которых риск-оптимальные стратегии допускают численную реализацию.
Теоретическая и практическая ценность. Работа носит теоретический характер. Развитый в ней математический аппарат и полученные результаты открывают возможности исследования новых задач управления. Эти результаты могут послужить основой анализа конкретных задач управления эволюционными системами, а также инструментом для разработки и обоснования эффективных алгоритмов построения управлений, разрешающих эти задачи.
Апробация работы. Результаты диссертации обсуждались на семинарах Отдела динамических систем Института математики и механики УрО РАН (руководитель В.Н. Ушаков), Факультета прикладной математики и процессов управления СПбГУ (руководитель Л.А. Петросян), кафедры Оптимального управления Факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова (руководитель Ю.С. Осипов), докладывались на заседаниях Ученого совета Института математики и механики УрО РАН; представлялись в докладах на всероссийских и международных конференциях по теории дифференциальных уравнений, динамической оптимизации и их приложениям к задачам механики, оптимального управления и дифференциальных игр, в том числе — на Международном семинаре «Теория управления и теория обобщенных решений уравнений Гамильтона-Якоби», посвященного 60-летию академика А.И. Субботина (Екатеринбург, 2005), международной конференции, посвященной 100-летию со дня рождения Л.С. Понтрягина (Москва, 2008), Всероссийской научной конференции «Теория управления и математическое моделирование», посвященной памяти профессора Н.В. Азбелева (Ижевск, 2008), Международной конференции «Актуальные проблемы теории устойчивости и управления» (Екатеринбург, 2009), Всероссийской конференции «Алгоритмический анализ неустойчивых задач» (Екатеринбург, 2011), Международном семинаре IFAC «Control Applications of Optimisation», (Юваскула, Финляндия, 2009), Международном семинаре IFAC «Adaptation and Learning in Control and Signal Processing» (Ацта-лия, Турция, 2010), 18 Всемирном конгрессе IFAC (Милан, Италия, 2011).
Публикации. Основные результаты диссертации опубликованы в работах [29-47], из которых 17 £29—45] — в зарубежных и российских рецензируемых научных журналах, рекомендованных ВАК.
Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, списка обозначений и приложения. Объем диссертации составляет 209 страниц и включает 9 иллюстраций. Список цитируемой литературы содержит 167 наименований.
Краткое содержание диссертации
Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, приводится обзор научной литературы по изучаемой проблеме, формулируется цель научная и новизна представляемой работы.
В первой главе приведены постановки задачи оптимального гарантированного управления при неизвестной помехе связанной различными ограничениями функционального характера (при программных помехах, помехах, порожденных функциями каратеодориевского типа), даются их первоначальные свойства и соотношения, связывающие такие постановки задачи с задачами управления в иных постановках:
— классической [8] (при произвольных помехах),
-— задачей управления при компактных множествах помех [25].
В частности,
— отмечены достаточные условия, при которых введение (рассматриваемых) функциональных ограничений на помеху не приводит к изменению задачи управления, то есть оптимальный гарантированный результат и разрешающие стратегии управления совпадают с соответствующими элементами для задачи управления при помехах общего вида;
— показано, что при при компактных множествах помех (наиболее слабое из рассматриваемых ограничений на помеху) оптимальная гарантия существенно меняется при переходе от позиционных стратегий управления к стратегиям с полной памятью о движении системы и реализации управления, что обосновывает формализацию задачи именно в этом классе стратегий;
— приведены примеры существенного изменения пучков конструктивных движений, порождаемых стратегиями, при переходе от произвольных помех к помехам, удовлетворяющих одному из функциональных ограничений, а также существенного изменения оптимальной гарантии при введении такого ограничения на помехи.
Рассматривается управляемая система, описываемая обыкновенным дифференциальным уравнением
х(т) =/(г,х(т),и(т),у{т)), геГ:=[^^]сК, (1)
и начальным условием ж(£о) = ^ € (?о С К", где «:=» означает «равно по определению». Реализации управления гг(-) и помехи и(-) предполагаются измеримыми по Борелю функциями, удовлетворяющими геометрическим ограничениям и(т) € V С Е!\ г-'(г) € 2 С г € X1. Множества всех таких реализаций управления и помехи обозначим соответственно 14 и V. Множества Со, Р и <2 суть компакты в соответствующих евклидовых пространствах.
В отношении функции /(•) будем предполагать, что она определена и непрерывна по совокупности аргументов в области Кп+1 х Т> х (2; локально липшице-ва по второй переменной ||/(т, хь и, у) - ¡{т,х2,и,у)\\ ^ 1/(5)11x1 - х2\\, где
(т, £1), (г, х2) € 5, и е V, V £ 2,5— любое ограниченное подмножество
7
из Rn+1, Lj(S) — константа Липшица, зависящая от множества S; удовлетворяет условию подлинейного роста: ||/(т, х, и, г>)|| < К{ 1 + ||х||), К > 0 при любых (т, х, и, v) е Т х R" х V х Q.
Для всех (í„ х.) S Т х Rn, и(-) G U, v{-) € V обозначим х(-, £», ы(-), и(-)) решение в смысле Каратеодори (см. [4, II.4]) задачи (1) с начальным условием x(tt) = xt и выделим следующее подмножество пространства состояний системы (1):
G:=cITxRn{(r,x)€[to,t?]xanl
X = x(T,t0,z0,u(-),v(-)),Z0 6 Go,u(0 е £ v|,
где с1л' Z обозначает замыкание множества Z С X в топологии пространства X.
Будем говорить, что для системы (1) выполняется условие седловой точки [8], если для всех (т, х) € G, s 6 R" справедливо равенство
minmax (s, f(r, х, и, v)} = maxram (s,/(r, x, и, v)). (2)
uev nsQ veQ иeV
Для произвольных (£*, zt) € G,v(-) 6 V и «(•) € U введем следующие обозначения
{x(-,tt,zt,u(-),v(-)) | u(-) e U),
X{GQMM-))-=z\C{[t.m U ХЫММ-)),
zaeGo
X(G0):=clc№) y ВД.гь.И.иО),
ti()6v
где G([í», 1?]; R") — множество непрерывных функций из [£,, i)] в К" с нормой равномерной сходимости. В дальнейшем для го G G'o будет также использоваться обозначение X(zq, U, v(-)) :=X(to, zo,U,v(-)).
Пусть Д :==(r¿)¿(Eo..nü. го = t0, г,- < r¿+]) тПд = некоторый конечный набор элементов из Т, называемый далее разбиением отрезка Т и порождающий дизъюнктное покрытие интервала [ich1?) системой интервалов [r¡_i, тг), 7¿_i, r¿ G Д, г € 1..пд. Множество всех разбиений Т обозначим Ат- Для любых Д е ДГ и í 6 Т определим числа
Б(Д) := max r¡ — t¿_i, г'( :=тах{г S 0..ггд I r¿ ^ £}.
¿61..Пд
Таким образом, выполняется включение t 6 [r¡(, r¡1+i).
Для произвольного Д € Др обозначим Ы\ С Ми Уд С V подмножества реализаций, соответственно, управления и помехи непрерывных справа и кусочно постоянных на интервалах, порождаемых разбиением Д и положим
ЫАт~ U Ид. дедг 8
Следуя [25] определим множество стратегий с полной памятью: назовем обратной связью с полной памятью на разбиении А = ("Гг);е0..пд и обозначим ид :=(игЛ(-));е0 (Пд_1) всякое конечный набор операторов вида
и,д(-) : С([г0,т;],Кп) ^ ^Дт|М], г £ 0..(пд - 1);
назовем позиционной стратегией с полной памятью и всякое семейство и:=(ид)дедт обратных связей с полной памятью, определенных на всех разбиениях Д е ДГ. Множество всех позиционных стратегий с полной памятью обозначим Э.
Назовем пошаговым движением из г0 £ К" и реализацией управления, порожденными обратной связью иЛ = (и,А(•))«ео..(пд-1) на разбиении Д при помехе у(-) еУи обозначим, соответственно,
х(-) :=!(-, го, иА, и(.)) «(■))> «(•) :=«(■, ид, «(■)) е КА
функции, удовлетворяющие равенствам
х(1) = х(1,Ь0,г0,«(■),«(■)), = « £ Т.
Пусть имеются г0 € С?0, О 6 Б и V С V. Определим пучок движений Х(г0, О, V) как множества всех элементов х(-) £ С{Т\ К"), для которых найдутся последовательности
{Ооь ук{-), Ак, иАк) е Со X V X Ат X и | к е 14}, (3)
удовлетворяющие условиям
Ит гок = НтО(Дк) = 0, Пт ||г(-) - х{-, гок, иЛ\ «к(-))||с(г;к-) = О,
(4)
а также пучок движений Х+(г0,И, V) — как множество всех элементов х(-) £ С(Т; К"), для которых найдутся последовательности вида
{(-гоь ьк(-), Ак, иА") 6 в0 х V х Ат х и | к £ М}, (5)
удовлетворяющие условиям (4) и условию Пт^^ ||г>(-) - г^ПИ^Г;!«") = 0 при некотором г;(-) £ V.
Введем в рассмотрение следующие пучки конструктивных движений, порожденные стратегией и £ Б при различных функциональных ограничениях на помеху:
Х(г0,и):=Х(г0,и,У), Хс(г0, и) := с1с№) | у Л^и, V) 1 ,
(чУбсотр1р(Г;[,„)(У) )
где compip(T;Rn)(V) — семейство всех подмножеств V компактных в сильной топологии пространства LP(T; R") (измеримых по Лебегу функций из Т в К", интегрируемых на Т с р-ой степенью, р ^ 1).
Множества X(zq, U), Л'с(г0> U), Xv(zo, U) назовем пучками движений, порожденными стратегией U при, соответственно, произвольных помехах, Lp—компактных ограничениях на помеху и при программных ограничениях на помеху.
Замечание 2.1. Пучок движений X(zq, HJ) следует классическому определению [8, §95] пучка конструктивных движений. Пучок Xp(zq, U) естественным образом возникает в постановках реальных задач управления. Определение множества Xc(zo, U) следует работе [25] и соответствует наиболее широкому классу помех, для которого установлена неулучшаемость стратегий с полной памятью.
Качество движения системы (1) будем оценивать функционалом
7(0 : C(T;Rn) н-> R (6)
непрерывным в топологии равномерной сходимости пространства C(T;R"). Сторона, формирующая управление и(-) £ Ы, стремится минимизировать показатель качества (6).
Гарантированным результатом Г(го, U) для стратегии U € S и оптимальным гарантированным результатом Г(го) в классе стратегий S для начального состояния Zo € Go при отсутствии функциональных ограничений на помеху (при произвольных помехах) назовем (см. [8,13]), соответственно, величины:
Г(гь,и):= sup 7(1(0), T(z0) := inf Г(го,и).
х(-)€Д-(г0,и) UeS
Гарантированным результатом Tv(zq, U) для стратегии U G S и оптимальным гарантированным результатом Гр(го) в классе стратегий S для начального состояния zo £ Go при программных ограничениях на помеху назовем величины:
rp(z0,U):= sup 7(at(.)), Гр(г0) := inf Гр(л0,и).
Гарантированным результатом Гс(го, U) для стратегии U 6 S и оптимальным гарантированным результатом Гс(2о) в классе стратегий S для начального состояния Zo 6 Go при Lp—компактных ограничениях на помеху назовем величины:
rc(z0,U):= sup 7(а:(.)), rc(z0):=inf rc(20,U).
x(-)€Xc(zo,V) UeS
Следуя [13, с. 24], назовем квазистратегией всякое отображение а(0 : V >-» U такое, что для любых т € Т, v(-),v'(-) G V таких, что v(-)T — v'(-)r выполняется
а(Ч'))г = а(у'(-))т. Для каждых хо € М" и квазистратегии а(-) элементы множества
Х(г0, «(■)) :=М-, *0, г0> а«)), «(■)) I «(•) 6 V} (7)
представляют собой движения из го € С?о, порожденные квазистратегией а(-). Пусть <3 — множество всех квазистратегий. Значение
Гч(20):= Ы вир 7(ж(')) а(-)бда:(.)еД'(2о,с.(-))
есть оптимальный гарантированный результат в начальном состоянии го 6 Со в классе квазистратегий (при отсутствии функциональных ограничений на помехи).
Назовем стратегию II, Р Я оптимальной в начальной позиции г0 е Со при Ьр-компактных ограничениях на помеху (при программных ограничениях на помеху), если выполнено равенство Гс(г0,и.) = Гс(г0) (Гр(г0,и») = Гр(г0)).
Теорема 5.1. Для каждого го £ Со справедливы соотношения
ГЧЫ < ГРЫ < Гс(г0) < Г(го).
Далее определяется семейство (Ц-)£>о (Ц, б Э, е > 0) стратегий, которые обеспечивают неравенства Гс(г0,Ц.) ^ Гч(г0) + <р(е) для некоторой функции </?(•) : (0,1) ь-> (0,1) такой, что (ф(е) —>• 0). Эти соотношения влекут равенство оптимального гарантированного результата в классе квазистратегий и оптимального гарантированного результата в классе стратегий с полной памятью при Ьр-компактных ограничениях на помеху.
Стратегии (и£)£>0 формируя управление симулируют движение вспомогательной управляемой системы — »/-модели. Для выбора помехи, действующей в у-модели, на малом завершающем участке предыдущего интервала разбиения в управлении исходной системы (1) используется специально выбранная серия тестовых управляющих воздействий. По наблюдениям за соответствующими реакциями управляемой системы решается обратная задача динамики [10,27] — строится аппроксимация помехи, реально действующей в управляемой системе (1). Эта аппроксимация принимается в качестве помехи в у-модели. Управление в у-модели определяется как контруправление (см. [8]), экстремальное к некоторому множеству оптимальных траекторий системы, порожденному квазистратегиями. Выбранное таким образом управление используется и в «реальной» управляемой системе (1) на всем интервале разбиения, за исключением завершающего «тестового» участка. При подходящим образом согласованном уменьшении шага разбиения и меры «тестовых» участков, движения »/-модели будут сходиться в С(Т; К") к оптимальным движениям, а движения исходной системы — к соответствующим движениям ¿/-модели. Такая сходимость обеспечивает близкие к оптимальным значения показателя качества на движениях управляемой системы и, как следствие, искомые свойства семейства стратегий (и£)£>о.
Роль у-модели, по сути, аналогична роли поводыря в известной одноименной процедуре управления для максиминной игры [8, Гл.14]. Отличие состоит в том, что для обеспечения близости движений системы и у-модели используется не механизм взаимного нацеливания этих движений в совокупности с условием седловой точки (2), а повторение управления у-модели в управляемой системе (за исключением малых по мере «тестовых» участков) в совокупности с функциональными ограничениями на помеху.
В построении используются «целевые» множества W(z) С С(Т;КП), полученные из траекторий «почти оптимальных» квазистратегий:
W(*):=p|clc(r;Rn){ U *(*,«(■))}, zeG0, (8)
i>0 Гч(г,а( ))
и проекции и>(-|т, у(•)) £ W(2/(i0))|[i0,r] элементов у(-) е C([i0,r],Rn) на сужение этого множества:
w(-|r,y(-))6 argmin \\w(-) - 2/(-)||с(((0,т]д»)- (9)
™(-)SW(!/(io))l[lo,r]
Выберем и зафиксируем некоторое значение параметра «точности» е из интервала (0,1).
Обозначим (wj)j6i..n£ некоторую е-сеть в компакте V — произвольное конечное подмножество из V такое, что supu€P minJgl щ [|и — Uj\\ ^ е.
Пусть Д :=(7;)г€о..пд —разбиение интервала Т. Обозначим
т-:=т, — sd(A), г G 1..(пд — 1), (10)
зададим дополнительные моменты разбиения интервала Т
r[j:=T[ + 3{Ti~T'), j € 0..?г£, г 6 1..(пд — 1), (11)
пе
(благодаря (10) т¡j € {п-i, Ti\) и для произвольного х(-) € С(Т; R") зададим величины
х(т' ) — х(т' ) diM-))~ ;_ , ■ j6i..ne, ¿б1..(Пд-1). та Tiu-D
Зафиксируем некоторые u« € Т, v, Е Q и определим обратную связь с полной памятью Uf = (U^(-))j€0..(ni_i) на разбиении Д индуктивно.
База индукции: для всех хо(-) е C([i0, то], К") положим
2/о(то) = ^о(то), v0:=v„ щ:=и„, (12)
Шаг индукции: если при некотором г 6 1..(пд — 1) для всех :Ег-1(-) € К") определены значения и элементы У1-\{-) —
Уг—1 (*) (•)) е С([£о, Уг-1 = «¿^(я^-)) £ С, то для любого
£{(•) € С([(о, г,-], К") определим у^-) как продолжение на [¿о, т*] элемента ¿/¿_х(-) € С([£о, К"):
Уг{т) = у1_1(тг_1,^(-)|[(0,г(__1])
+ / Ж г/г(¿),
Jтi-1
г€[т<_ьп], (14)
и положим
«А- € а^тш тах - /Оп,2^(74),(15)
иеа л'б1..пе
и; 6 агдтт (у{(т{) - ] т{,у^-)),/(т{,у{{т{),и,щ)), (16)
иеР
им))®■= <е I , (17>
Обратная связь с полной памятью и^ на разбиении Д € Ат определена. Тем самым определена и стратегия :=(и^) дед^. В присвоениях (17) первая строчка определяет действия управляющей стороны по минимизации гарантированного результата, вторая — по идентификации помехи.
Иллюстрация предлагаемой схемы управления приведена на рисунке 1.
Теорема 7.1. Для любого начального состояния ¿о € Со справедливы равенства
Гч(г0) = Гр(го) = Гс(20).
Семейство стратегий (и£)£>о, заданное выражениями (12)—(17), удовлетворяет соотношениям
Нт вир Гс(го,ие) ^ Гч(г0), г0 € во-
Замечание 7.1. Первая часть теоремы 7.1 в терминах работы [25] говорит о том, что класс стратегий Я является неулучшаемым при всех рассматриваемых ограничениях на помеху. Кроме того, устанавливается формальное равенство задач управления при этих типах ограничений.
Во второй главе обсуждаются различные дополнительные условия на упраля-емую систему, позволяющие получить эффективную численную реализацию оптимальной стратегии управления: в конструкции стратегии Ще имеются по крайней мере два места, которые могут представлять существенные трудности при попытке численной реализации указанной процедуры управления.
13
Время 4
Рис. 1: Схема работы стратегии
Первое связано с вычислением проеций движений у-модели на «целевые» множества (см. (8), (9)). На идейном уровне эта задача сводится к задаче вычисления градиента цены «нижней» (максиминной) игры в текущем фазовом состоянии управляемой системы. Несмотря на трудность данной задачи, она давно известна, всесторонне изучена и во многих важных случаях имеет эффективные методы решения.
Второй трудностью при реализации стратегии Ое является неограниченный и достаточно быстрый рост множества 1..„е при уменьшении параметра е. Это
ведет к значительному росту размерности задачи минимизации при решении задачи обратной динамики (15).
Приведены иллюстративные примеры применения предложенных конструкций. Рассматривается вопрос о возможности реализации полученных результатов в классе позиционных стратегий.
Предлагаемые в главе стратегии Шь в вычислительном плане значительно проще рассмотренных ранее стратегий ие. Отмечаются свойства этих стратегий и формулируется основной результат — условия, при которых построенные стратегии являются оптимальными при 1/р-компактных ограничениях на помеху.
Стратегия Шь в процессе синтеза управляющего воздействия симулирует движение вспомогательной управляемой системы (именуемой ниже у-моделью), описываемой теми же уравнениями и теми же начальными условиями, что и рассматриваемая управляемая система (1). При формировании движения у-модели на очередном интервале разбиения выбирается (восстанавливается) помеха, аппроксимирующая (в
Время 4
Рис. 2: Схема работы стратегии Шь
подходящем смысле) неизвестную помеху в исходной системе (1), а управление назначается таким, чтобы движение «/-модели было оптимальным по отношению к этой аппроксимирующей помехе. Выбранное таким образом управление затем используется в «реальной» управляемой системе (1) на следующем отрезке разбиения. При измельчении шага разбиения, движения у-модели сходятся в равномерной метрике к «оптимальным» идеальным движениям, а движения исходной системы (1) приближаются к соответствующим движениям у-модели. Эти два факта в совокупности с непрерывностью функционала качества у обеспечивают оптимальное значение показателя 7 на движениях исходной системы и, как следствие, — оптимальность стратегии Модель лидирует в реакциях на помеху, что и послужило поводом отметить эту стратегию индексом «Ь». Иллюстрация этой схемы управления приведена па рисунке 2.
Как уже отмечалось, у-модель, играет роль поводыря; близость движений системы и у-модели обеспечивается повторением управления (/-модели «каноном» в управляемой системе, условием (23) и функциональными ограничениями.
Приведем формальное определение стратегии Шь: для произвольных и е V,
т,т' €Т,т < т', х(-) £ С(Т; К") обозначим
х(т') — х(т)
и{и, х(-), т, г') := ащтт кед
1(т,х(т),и, у)
Для любого разбиения Д = (^)<60..ПД 6 ДТ определим его подмножество Д :={т; Тг'(з) | г 6 1..пД'} € Ат, таюке являющееся разбиением интервала
управления Т:
г'(г) := гшп{/г е 0..пд | тк ^ — г £ 0..пл>,
пА1 := тт{п е N | п2 Б(Д) ^ 1}.
Разбиение Д' С Д удовлетворяет неравенству В(Д') ^ ^Д)(Д)(г? — ¿о) + Д) и является «почтиравномерными» — сумма отклонений его моментов от ближайших моментов равномерного разбиения {¿0 + ¿('^ — ^)/пА> | г £ 0..гад'} оцениваются величиной Б(Д'):
£ ~ ~ *о)/"д'1 < (пд' + 1) О(Д) < + 2 Б(Д).
¡€0..пд,
Определим обратную связь иА = (Ци(-)),€о..(пд-1) "а произвольном разбиении Д = (тг)ге0..„д следующим образом: вначале индуктивно определим значения элементов Цщ^ для всех моментов т[, г € 0..(пд< — 1) разбиения Д' — формально это соответствует определению обратной связи с полной памятью иА' на разбиении Д'. После этого распространим значения обратной связи на все элементы обратной связи иА • Перейдем к определению обратной связи на разбиении Д'.
База индукции: зафиксируем некоторые и» 6 Р, и, £ 2 и для всех £()(■) 6 С([г0, То], Е"), а;^(!)(•) € С([г0, Г;,(1)], Е") положим (заметим 0 = г'(0)):
иьо(^о(-)):=ищ1)(^'(1)(-)):=и,, у0(т0) = х0(т0), у0:=у,.
Шаг индукции: если при некотором г €Е 1..(пД' — 2) значения £ V
определены для всех х^^(-) € С(^о, т£],Ж"), к € 0..г, а элементы ук(-) € [¿о, г/.], К"), щ Е О. — для всех к 6 0..(г — 1), то для любых г € [т/^.т/], ^¿'(«+1)(') € положим
щ тЛ), х<Ч4+1)(-), т[, т/+1), (18)
2ЛМ = №-1(^-1) + / (19)
иЙ'(«+1)(^'(4+1)(')) € - ш(т[ | т1,Уг{-)),Цт1,Уг{т1),и,Уг)). (20)
иеР
Обратная связь с полной памятью иА на разбиении А' определена. Теперь для произвольных г € 0..пд, г ^ {г'(к) \ к 6 0..пд}, Х{(-) € С([Ьо, т*], К") положим
ий(х4(-)):=ийч<т()(а:4(.)1мЛ4т()]). (21)
Обратная связь с полной памятью Т_ГА на произвольном разбиении Д 6 Ду определена. Тем самым определена и стратегия :=(иА)дбД;г.
Для (£, х) Е Т х К", и € V введем в рассмотрение фактор-множество 0,1Хи множества <2, порожденное отношением эквивалентности ~:
£ги
(VI ~ ь2) & = /(ь,х,и,у2)), 1)1,1)2 е 2- (22)
гхи
Теорема 8.1. Пусть для системы (1) фактор-множества Qtxu не зависят от и € V:
Qtxu = Qtxu' для всех и, и' S V, (i, х)е Т х R". (23)
Тогда стратегия UL, заданная выражениями (8), (9), (18) - (21), является стратегией, оптимальной при £,р-компактных ограничениях на помехи для любого начального состояния го € Go-
Для примера, управляемая система вида:
x(t) = gi{t, x{t), u(t)) + g2(t, x(t), u(t)) • h(t, x(t), v{t)), (24)
где 52 ( • ) — матрица-функция размерности n x т,гд ( • ) — вектор-функция (столбец) размерности n,h( ■) — вектор-функция размерности m, удовлетворяет условию (23), если при всех (t, х) G G ядро линейного оператора g2(t, х, и) : Rm h-> R" не зависит от и S V.
Далее описан еще один случай, в котором удается обойти трудности задачи минимизации (15). Пусть управляемая система (1) имеет вид (24) или вид
±{t) = 3i(t, x{t),u(t)) + h(t, x(t), v(t)) • g2(t, x(t),u(t)), (25)
гДе fli(0 — вектор-функция (столбец) размерности n, g2(-) — вектор-функция размерности m и h(-) — матрица-функция размерности n х m.
И пусть некоторое конечное подмножество {Щ 6 V | j £ 1../} и константа К 6 R удовлетворяют условию
Условие 8.1. Для любых (т, х, и) € GxV найдутся {(3j)j€\..i G R'.^ei..! Ift'l ^ К, удовлетворяющие равенствам
д2{т, х,и)= Рз92(т, х, Щ). (26)
jei-.i
Равенства (26) понимаются как равенства векторов в случае системы вида (25) и как равенства матриц в случае системы вида (24).
. Определим семейство стратегий (0£)г (IL- е S, е > 0), U£ = (0^)деЛг, где для всякого Д € Аг обратная связь с полной памятью Û^ задана соотношениями (10)-{17), в которых пе := I и и^ := v,j, j 6 l..ne.
Теорема 8.2. Пусть управляемая система (1) имеет вид (24) или вид (25). Тогда при выполнении условия 8.1 для всех zç> G Go выполнены равенства
lim sup rc(zo, = rc(z0). £->0
В третьей главе рассматриваются вопросы применения критерия Нихан-са-Сэвиджа к задачам управления в условиях динамических помех:
— дается постановка задачи оптимизации (минимизации) риска при различных функциональных ограничениях;
— приводятся непосредственные соотношения, связывающие результаты при различных ограничениях и классах разрешающих стратегий;
— приводится простой пример «непосредственного» решения задачи в случае ограничений программного характера;
— сопоставляются результаты, получаемые с применением этого критерия, с результатами, базирующимися на классическом — минимаксном критерии;
— приводится конструкция оптимальной по риску стратегии в классе стратегий с полной памятью и показывается ее неулучшаемость по отношению к квазистратегиям (и, таким образом, к любым неупреждающим стратегиям).
Пусть заданы zq б G0, v(-) <= V и х(-) е X(z0,U, v(-)). Этими данными определены величина p(zQ, v(-)) оптимального результата при помехе v(-)
p(z o,v(-)):= inf 7(ж'(-)),
x'l)£X{z0,U,vt))
и величина js(x(-), v(-)) сожаления
7«(®(-). О) := 7(®(0) ~ P(x(t0), !>(•)) (27)
при реализации движения х(-) и помехи v(-).
В этих обозначениях сожаление при выборе стратегии U € S и реализации помехи v(-) 6 V можно определить величиной
sup 7s(z(0> *>(•)),
x(-)eX(zo, и, {„(.)})
где X(z0, U, {«(•)}) — пучок движение, порожденных стратегией U при программной помехе v(-) из начального состояния л0 (см. (3), с. 9). Исходя из этого риск гр(г0, U) стратегии U и минимачъного риска гp(z0) в классе стратегий S при программных ограничениях на помеху определим, соответственно, величинами
rp(z0,U):= sup 7s(i(0. «(О). rp(20):=inf гр(г0,и).
v(-)€V UgS
«(•)€X(«o,U,{»(•)})
В случае, когда реализации помехи ограничены некоторым заранее не известным подмножеством V € compip(r.E„)(V), также отталкиваясь от значений сожаления (27) на соответствующих пошаговых движениях и переходя к верхним пределам этих величин, придем к следующему определению риска rc(zn,U) стратегии U и минимального риска гс(г0) в классе стратегий S при Ьр-компактных ограничениях на помеху для начального состояния z0:
rc(z0,U):= sup 7s(x(-),v(-)), rc(z0):=mfrc(z0,U), »(■)ev UeS
где X+(z0, U, {«(•)}) — пучок движений, порожденных стратегией U из начального СОСТОЯНИЯ Zg (см. с. 9).
Наконец, определим оптимальный риск в классе квазнстратегий управления
Стратегию Иц 6 Я будем называть оптимальной по риску (или риск-оптимальной) при программных ограничениях на помеху {при Ьр~компактных ограничениях на помеху) для начального состояния го € Со, если выполняется равенство Гр(2о,и0) = гр(г0) (гс(20,и0) = гфо)).
Теорема 14.1. Для каждого го 6 во справедливы соотношения
Поскольку наименьшая из записанных в (28) величин — это оптимальный риск в классе квазистратегий, особый интерес представляют те функциональные ограничения на помехи и те условия, при которых соответствующий оптимальный риск в классе позиционных стратегий с полной памятью совпадает с оптимальным риском в классе квазистратегий. По аналогии с задачей оптимизации гарантированного результата будем называть это свойство множества стратегий Б «неулучшаемостью по риску».
Далее определяется семейство стратегий (иЯ;)£>о С Эй приводятся условия на управляемую систему (1), для которых (при е —¥ 0) риск стратегий из этого семейства при /ур-компактных ограничениях на помеху стремится к величине минимального риска в классе квазистратегий.
Конструкция стратегии и5£ аналогична конструкции стратегии ие и определяется выражениями (8), (9), (12>—(17) (с. 12) стратегии иЕ за исключением выражений для «целевого множества» (8) и проекции движения у-модели на это множество (9). Вместо множеств УУ(ж(^0)) теперь используются множества >У(:фо), зависящие от восстановленной помехи «(•): для всех г 6 С?о, т € Т, у(-) 6 С([Ьо, г], К") и й(-) е V положим
(с. 11):
<*(-)еС!
гч(20, <*(•)) := эир ъ(х{-,1о,го,а(у{-)),у(-)),у(-)).
гч(г0) ^ гр(20) < гс(г0).
(28)
%«('));=Пс1С|1*){ и а(г;(0), «(•))}
£>0 г,(.,<.(■))
(29)
Ч'МН.О) € агртт ||гу(-) - у(-)\\с([1о,ф
и>(-)бт1/(»0),511о,г1(-))1цо,г]
где
Ь е [¿о, г], I е (т, Щ.
Теорема 17.1. Пусть фактор-множества Qtxu не зависят от х:
Qtxu = Qtx'u для всех и G V, (t, х), (t, х') eG. (31)
Тогда при всех Zq 6 G о справедливы равенства
rq(zo) = Гр(г0) = rc(z0), z0 € G0;
стратегии (US£)f>0, заданные выражениями (29), (30), (12)—(17), удовлетворяют равенствам
lim sup гc(z0, US£) = г,(г0), z0 € G0.
£—>0
Замечание 17.2. Если управляемая система (1) имеет вид:
x(t) = gi{t, x(t), u{t)) + g2{t, x{t),u{t)) ■ h(t, v(t)),
где ) — матрица-функция размерности nxm,gi(-) — вектор-функция (столбец) размерности п, h(-) — вектор-функция размерности m и при всех t € Т, и € V ядро линейного оператора g2{t,x,u) : Rm i-> Мп не зависит от ж S G\t, то она удовлетворяет условию (31).
Приведенное в предыдущей главе построение стратегий USe включает в себя неконструктивные элементы — множества движений, порожденных риск-оптимальными квазистратегиями, и трудоемкую задачу восстановления помехи.
В четвертой главе построена оптимальная по риску стратегия, допускающая численную реализацию. Построение основывается на идеях метода программных итераций, развитому в работах А.Г. Ченцова, C.B. Чистякова, JI.A. Петросяна, В. И. Ухоботова, A.A. Меликяна, Ф. Ф. Никитина [11,12,14-24].
А именно, «целевое множество», построеное из движений почти оптимальных квазистратегий, заменяется пределом итераций подходящей программной конструкции. Известно, что такой подход в задачах с минимаксным критерием качества позволяет продвинуться в нахождении гарантированного результата. Эти возможности, присутствуют и в задачах оптимизации риска при поиске риск-оптимальных стратегий.
При дополнительных условиях на систему (1) существенно упрощена и задача востановления помехи, присутствующая в конструкции стратегии.
Кроме этого, в главе приводятся отдельные свойства функции минимального риска для функционала качества терминального типа.
Обозначим CVf, t € Г множество всех непрерывных функционалов определенных на прямом произведении множеств X(G0)|[io,(] х V|[i0i(] С G([i0,i],Kn) х ¿2(^0,^],®') с топологией, индуцированной топологией произведения объемлющих пространств и определим CVf := Д С
t€T 20
Определим оператор Г (программной итерации, см. [17,20]), преобразующий всякое семейство (Ф()(еТ £ CV*r в семейство функционалов (Г(Ф<))(еГ £ CVf вида:
Г(ф,)(®(0. «(•))■■= sup inf ФТ((*,А(-)>УМ-))-
те|«,в) т'(-)€
»'(■)ev x(tM4M,A)) здесь и далее для любых функций h, /г': Т н- И7 и t £ Т
(Л,Л')«(Г):=|Л(Т)' T6[t0>i)' м; \л'(г), г е
Рассмотрим следующее семейство функционалов (программных максиминов) (£t)teT G CV^: для произвольных t бТ, и(-) € V, а;(-) G X(Gq) положим
£»(!(•),«(•)) := SUP inf Т-С^АСО-КАС-))-u'(-)eV «'(■)£
X(t,z(t), К, »'(■))
отметим, что для любых г>(-) € V, х(-) € X(Gq,U, v(-)) выполенны равенства: е?„(®(0."(0)= sup { inf — p(x(to),v'(-))} = sup 0 = 0. (32)
v'(-)eV •'(■)£ v'()eV
xMt0), «,»'(■))
Определим итерации оператора Г на семействе (ef)t£T:
£?(■):= Г (ef-Ч-)).
При этом для всех t £ Т, к £ N, u(-) G V, г0 € G0, я(-) S X(G0,W,t;(-)) будут выполнены соотношения
(33)
„max 7W')) - #)). (34)
В силу (33), (34) при всех t £ Т, ж(-) € X(Go), г>(-) £ V корректны следующие определения
£t(x(-), «(•)):= Hm ef(®(-),«(•));
к -»оо
заметим, что значение е(о(а;(-), г>(-)) функционала £<„(■) полностью определяется вектором :r(io). Множества уровня функции e((-,ti(-)) : С(Т, Мп) н-> R будут использоваться в качестве «целевых множеств» в конструкции риск-оптимальной стратегии: для всех t £ Т, z £ G0, v(-) £ V обозначим Wt(z, v(-)) следующие подмножества из X(Gq):
Wt(z,v(-)):={x(.) £ X(z,U,v(-)) | £,(*(■),«(•)) < et0(x(-), «(■))}■ (35)
Теорема 18.1. Для любых z0 £ G0, v(-) £ V, x(-) £ X(z0,U,v(-)) справедливы равенства
гч(г0) = £to(x(-),v(-)).
Как отмечалось существенной трудностью при численной реализации риск-оптимальной стратегии является быстрый рост размерности задачи (15) восстановления помехи при уменьшении параметра е. Ниже даны условия на управляемую систему и стратегия оптимальная по риску при Ьр-компактных ограничениях на помеху, у которой этот недостаток отсутствует.
Конструкция стратегии аналогична конструкции стратегии и определятся выражениями (8), (9), (18) - (21) за исключением выражений для «целевого множества» (8) и проекции движения у-модели на это множество (9): вместо множеств УУ(х(1 о)) теперь используются множества УУТ(-) (см. (35), с. 21), зависящие от «восстановленной» реализации помехи И(-) и проекции на них движений у-модели: для всех г е Т, у(-) е С([£о, т], К"), С(-) £ V положим
£(■)>«(■)) 6 а^пнп 1к(-)-г/(-)11с([(„.г],к»)- (36)
»(■)б^т(!/((о),С[1о1г]())|[«о,г]
Далее использованы обозначения (22), с. 16.
Теорема 19.1. Пусть фактор-множества 2(1и не зависят от и, х:
я.ьхи = 2я'и' для всех и, и' £ V, (¿, х), х') £ в. (37)
Тогда для любого начального состояния гд € Сц стратегия И^ь, заданная выражениями (35), (36), (18) - (21), является оптимальной по риску при ¿¡-компактных ограничениях на помеху.
Следующее семейство управляемых систем:
¿(4) = /1(4,1(4),«(4)) + /2(4,а;(4),и(4)) ■ /з(«, «(*)),
гДе /г(') —матрица-функция размерности п х тп, /1(-)> — вектор-функция (столбец) размерности п, и /з(-) — вектор-функция размерности тп удовлетворяет условию (37), если для всех t € Т ядро линейного оператора /г(4, х, и) : К'" и> И" не зависит от параметров х, и при их изменении в пределах х £ и £ V.
Еще один случай ограниченности данных задачи (15) дают следующие условия: пусть управляемая система (1) имеет вид (24) или (25) и пусть некоторое конечное подмножество {щ £ V | у £ 1../} и константа К € К удовлетворяют условию 8.1.
Определим семейство стратегий (и&Эе (С^ £ Б,£ > 0), С^ = (и^)дедг,где для всякого А 6 Ах обратная связь с полной памятью и^ задана соотношениями (29), (30), (12Н17), в которых пЕ := 1пиу.= Щ, ] £ 1 ..щ.
Теорема 19.2. Пусть управляемая система (1) имеет вид (24) или вид (25). Тогда при выполнении условий 31 и 8.1 для всех го € Со верны равенства
ИтвиргДго,!^) = гс(г0).
£-»0
Далее рассмотрен случай, когда программный максимин функционала сожаления (■) совпадает с величиной минимального риска гс(-) при Ьр-компактных ограничениях на помеху (будем считать выполненными условия (37)). По аналогии с задачами оптимизации гарантии будем называть это свойство риск—регулярностью. Свойство риск-регулярности задачи управления, вообще говоря, не следует из классического свойства регулярности.
В силу (32) рнск-регулярность максимина эквивалентна равенству
ГсЫ = 0. (38)
Замечание 20.1. В соответствии с определением минимального риска это означает, что для каждой начальной позиции в рассматриваемом классе стратегий S существует стратегия, которая гарантирует оптимальный результат p(zg, ''-'(■)) какова бы ни была помеха v(-) € V. То есть, эта стратегия действует столь же эффективно, как если бы помеха v(-) была известна ей заранее. Первоначально, именно это свойство было положено в определение стратегий, названных «сильно оптимальными» [29].
Для произвольных v(-) £ V, 2d S Gq введем в рассмотрение множество R(zo,v(-)) С С(Т; К") вида
R(z0,v(-)):= argmin j(x(-)).
x()eX(z0,U,vC))
Условие 20.1. В начальном состоянии zq 6 Gq для произвольного момента t € Т и произвольного конечного множества помех Vj(-) 6 V, j 6 l..m справедлива импликация
fl(-)l[to.t] = ••• =Vm(-)l[M П R(Z°0-
jel..m
Для начального состояния zq 6 Gq и произвольной помехи v(-) 6 V определим множество Zt(zo, г;(-)) С C([ío, í]; К") вида
ЪЫ "(О)- П л(*Ь>.А(0)1м- (39)
v'()eV
Воспользуемся множествами Zt(zo,v(-)) как «целевыми множествами» для еще одного варианта стратегии Usl, которая будет оптимальной по риску при Lp-компактных помехах в риск-регулярном случае.
Определение этого варианта стратегии USl (который мы обозначим U", ) отличается, как уже сказано, только описанием «целевых множеств», которые теперь имеют вид (39) и проекцией на них движений у-модели: для всех г Е Г, у() € C([to, т], Rn), *>(•) е V положим
w(-\T,y(-),v{-)) е argmin Цад(-) - у(-)|[с([(0,т]д»)- (40)
Теорема 20.1. Если для некоторого го £ Со имеет место равенство (38), то в этом начальном состоянии го выполнено условие 20.1.
Если для системы (1) выполнено условие (37) и в начальном состоянии го £ Со выполнено условие 20.1, то имеют место равенства
0 = гч(20) = гр(г0) = гс(2о)
и стратегия и°ь, заданная выражениями (39), (40), (18) - (21), является стратегией оптимальной по риску при ¿р-компактных ограничениях на помеху для начального состояния го £ Со-
Заключение
Отметим основные результаты, дополняющие на взгляд автора известную теорию управления по принципу обратной связи при дефиците информации.
Для формализации на основе минимаксного критерия качества:
—- предложена и мотивирована постановка задачи управления в классе позиционных стратегий с полной памятью при программных ограничениях и при ограничениях порождаемых функциями типа Каратеодори;
—■ установлена неулучшаемость позиционных стратегий с полной памятью при функциональных ограничениях на помеху, сводящихся к Ьр-компактным ограничениям, и, таким образом, установлена эквивалентность задач управления при всех расмотренных видах функциональных ограничений на помеху (теорема 7.1);
— для достаточно широкого круга систем предложены конструкции стратегий, оптимальных в рассмотренных постановках задачи управления, и допускающих численную реализацию (теоремы 8.1, 8.2).
Для формализации на основе критерия минимального риска (критерия Нихан-са-Сэвиджа):
— предложена и мотивирована постановка задачи минимизации риска в классе позиционных стратегий с полной памятью при ограничениях функционального характера на помеху;
— получены достаточные условия неулучшаемости позиционных стратегий с полной памятью при £р-компактных ограничениях на помеху (теорема 17.1);
— получено представление функционала минимального риска для квазистратегий в виде предела программных итераций функционала сожаления (теорема 18.1) и исследован случай его регулярности (теорема 20.1);
— для достаточно широкого круга систем предложены конструкции стратегий, риск-оптимальных в рассмотренных постановках задачи управления, и допускающих численную реализацию (теоремы 19.1, 19.2).
Автор выражает глубокую благодарность научному консультанту Александру Георгиевичу Ченцову и жене Елене Юрьевне Серковой за внимание, понимание и поддержку.
Список литературы
1. Айзеке Р. Дифференциальные игры. М: Мир, 1967. с. 480.
2. Барабанова H.H., Субботин А.И. О непрерывных стратегиях уклонения в игровых задачах о встрече движений // Прикл. матем. и мех. 1970. Т. 34, № 5. С. 796-803.
3. Барабанова H.H., Субботин А.И. О классах с тратегий в дифференциальных играх уклонения от встречи // Прикл. матем. и мех. 1971. Т. 35, № 3. С. 385-392.
4. Варга Дж. Оптимальное управление дифференциальными и функциональными уравнениями. Москва: Наука, 1977. с. 624.
5. Красовский H.H., Субботин А.И. О структуре дифференциальных игр // Докл. АН СССР. 1970. Т. 190, № 3. С. 523-526.
6. Красовский H.H., Субботин А.И. Альтернатива для игровой задачи сближения // Прикл. матем. и мех. 1970. Т. 34, № 6. С. 1005-1022.
7. Красовский H.H. Игровые задачи о встрече движений. М.: Наука, 1970. с. 420.
8. Красовский H.H., Субботин А.И. Позиционные дифференциальные игры. Москва: Наука, 1974. с. 456.
9. Красовский H.H. Управление динамической системой. М: Наука, 1985. с. 520.
10. Кряжимский А.В, Осипов Ю.С. О позиционном моделировании управления в динамических системах // Изв. АН СССР: Техн. кибернет. 1983. № 2. С. 51-60.
11. Меликян A.A. Цена игры в линейной дифференциальной игре сближения // Докл. АН СССР. 1977. Т. 237, № 3. с. 521-524.
12. Петросян JI.A., Чистяков C.B. Об одном подходе к решению игр преследования // Вестник ЛГУ. Сер. мат., мех., астрон. 1977. Т. 1. С. 77-82.
13. Субботин А.И., Ченцов А.Г. Оптимизация гарантии в задачах управления. Москва: Наука, 1981. с. 288.
14. Ухоботов В.И. Построение стабильного моста для одного класса линейных игр // Прикл. матем. и мех. 1977. Т. 41, № 2. С. 358-364.
15. Ченцов А.Г. К игровой задаче наведения //Докл. АН СССР. 1976. Т. 226, № 1. С. 73-76.
16. Ченцов А.Г. К игровой задаче наведения с информационной памятью // Докл. АН СССР. 1976. Т. 227, № 2. С. 306-309.
17. Чепцов А.Г. Об игровой задаче на минимакс функционала // Докл. АН СССР.
1976. Т. 230, № 5. С. 1047-1050.
18. Ченцов А.Г. Итерационная программная конструкция для дифференциальной игры с фиксированным моментом окончания // Докл. АН СССР. 1978. Т. 240, № 1. С. 36-39.
19. Ченцов А.Г. Об игровой задаче сближения в заданный момент времени // Математический сборник. 1976. Т. 99(141), № 3. С. 394-420.
20. Чистяков С.В. К решению игровых задач преследования // Прикл. матем. мех.
1977. Т. 41, №5. С. 825-832.
21. Чистяков С.В. О функциональных уравнениях в играх сближения в заданный момент времени // Прикл. матем. мех. 1982. Т. 46, № 5. С. 874-877.
22. Чистяков С.В. Программные итерации и универсальные £-оптнмальные стратегии в позиционной дифференциальной игре // Докл. АН СССР. 1991. Т. 319, №6. С. 1333-1335.
23. Чистяков С.В. Операторы значения в теории дифференциальных игр // Известия Института математики и информатики Удмуртского государственного университета. 2006. Т. 3(37). С. 169-172.
24. Чистяков С.В., Никитин Ф.Ф. Теорема существования и единственности решения обобщенного уравнения Айзекса-Беллмана // Дифференц. уравнения. 2007. Т. 43, № 6. С. 757-766.
25. Kryazhimskii А V. The problem of optimization of the ensured result: unimprovability of full-memory strategies // Constantin Caratheodory: An International Tribute. World Scientific, 1991. C. 636-675.
26. Niehans J. Zur Preisbildung bei ungevvissen Ervvartungen // Scbweizerische Zietsclirifl fur Volkswirtschaft und Statistik. 1948. T. 84, № 5. c. 433^56.
27. Osipov Yu.S., Kryazhimskii A.V. Inverse Problems for Ordinary Differential Equations: Dynamical Solutions. London: Gordon and Breach Publishers, 1995. c. 625.
28. Savage L.J. The theory of statistical decision // Journal of the American Statistical association. 1951. T. 46, № 253. C. 55-67. URL: http://www.tandfonline.com/doi/pdf/10.1080/01621459.1951.10500768.
29. Серков Д. А. Сильно оптимальные стратегии // Доклады АН СССР. 1991. Т.321, № 2. С. 258-262.
30. Серков Д.А. Стратегии минимаксного риска (сожаления) в системе с простыми движениями // Труды ИММ УрО РАН. 2007. Т. 13, № 3. С. 121-135. URL: http://www.mathnet.ru/links/76f25b7a5c5927a4c0fbl0bee62e3f84/timmlll.pdf.
31. Серков Д.А. Стратегия минимаксного риска (сожаления) для одного класса задач управления в условиях динамических помех // Труды ИММ УрО РАН. 2008. Т. 14, №2. С. 192-200.
32. Серков Д.А. Стратегия минимаксного риска (сожаления) для задач управления в условиях динамических помех // Вестник Удмуртского университета. Серия 1: Математика. Механика. Компьютерные науки. 2008. Т. 2. С. 132-135.
33. Серков Д.А. Об одном свойстве конструктивных движений // Вестник Удмуртского университета. Серия 1: Математика. Механика. Компьютерные науки. 2009. Т. 3. С. 98-103.
34. Serkov D.A. On the optimal risk function for the system under dynamic disturbances // IFAC Proceedings Volumes (IFAC-PapersOnline) / под ред. Kaisa Miettinen, Pekka Neittaanmaki. T. 7 из Control Applications of Optimization. University of Jyvaskyla, Finland: International Federation of Automatic Control, 2009. C. 307-309. URL: http://www.ifac-papersonline.net/Detailed/41927.html.
35. Серков Д.А. Об одном свойстве конструктивных движений II // Вестник Удмуртского университета. Серия 1: Математика. Механика. Компьютерные науки. 2010. Т. 3. С. 64-69. URL: http://www.mathnet.ru/links/65efee793b3d7ae2bc3al91cfcd9fl0f/vuul67.pdf.
36. Серков Д.А. О некоторых свойствах задачи управления при программной помехе в формализации на основе критерия минимаксного риска (сожаления) // Труды ИММ УрО РАН. 2010. Т. 16, № 1. С. 140-151.
37. Serkov D.A. On Optimal Control under Program Disturbances // IFAC Proceedings Volumes (IFAC-PapersOnline) / под ред. Erdal Kayacan. T. 10 из Adaptation and Learning in Control and Signal Processing. Bogazici University, Turkey: International Federation of Automatic Control, 2010. C. 255-258. URL: http://www.ifac-papersonline.net/Detailed/46795.html.
38. Serkov D.A. Optimal Strategies in Control Problem under Programmed Disturbances // IFAC Proceedings Volumes (IFAC-PapersOnline) / под ред. Sergio Bittanti, Angelo Cenedese, Sandro Zampieri. T. 18. Milano: International Federation of Automatic Control, 2011. C. 11465-11470. URL: http://www.ifac-papersonline.net/Detaiied/51239.htmI.
39. Серков Д.А. Гарантированное управление при функциональных ограничениях на помеху // Математическая теория игр и ее приложения. 2012. Т. 4, № 2. С. 71-95.
40. Серков Д.А. Оптимальная гарантия при помехах, порожденных функциями Ка-ратеодори // Вестник Удмуртского университета. Серия 1: Математика. Механика. Компьютерные науки. 2012. Т. 2. С. 74-83.
41. Серков Д.А. Оптимальное по риску управление при функциональных ограничениях на помеху // Математическая теория игр и ее приложения. 2013. Т. 5. С. 74-103.
42. Серков Д.А. О модельных движениях в задаче управлении при функциональных ограничениях на помеху // Вестник Южно—Уральского государственного университета. Математическое моделирование и программирование. 2013. Т. 6, №2. С. 62-73.
43. Серков Д.А. Оптимизация гарантированного результата при функциональных ограничениях на динамическую помеху // Доклады Академии Наук. 2013. Т. 450, № 3. С. 274-278.
44. Серков Д.А. Оптимальное управление при компактных в Ьр ограничениях на помеху // Вестник Удмуртского университета. Серия 1: Математика. Механика. Компьютерные науки. 2013. Т. 3. С. 79-87.
45. Серков Д.А. О неулучшаемости стратегий с полной памятью в задаче минимизации риска//Труды ИММ УрО РАН. 2013. Т. 19, № 4. С. 222-230.
46. Серков Д.А. О равномерных стратегиях // Теория управления и теория обобщенных решений уравнений Гамильтона-Якоби. Труды Международного семинара, посвященного 60-летию академика А.И. Субботина. Екатеринбург, Россия, 22-26 июня 2005 г. / под ред. Н. Н. Субботина, В. Н. Ушаков. Т. 1. Екатеринбург: Издательство Уральского университета, 2006. С. 273-284.
47. Серков Д.А. Стратегии с полной памятью и процедуры восстановления помехи для задач управления в условиях неопределенности // Тезисы докладов Международной конференции «Алгоритмический анализ неустойчивых задач», посвященной памяти В.К.Иванова. Екатеринбург: 2011. 31 октября - 5 ноября. С. 270-271.
Федеральное государственное бюджетное учреждение науки Институт математики и механики им. H.H. Красовского Уральского отделения
Российской академии наук
На правах рукописи УДК 517.977
Серков Дмитрий Александрович
ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ПРИ ФУНКЦИОНАЛЬНЫХ ОГРАНИЧЕНИЯХ НА ПОМЕХУ
Диссертация на соискание ученой степени доктора физико-математических наук по специальности 01.01.09 — Дискретная математика и математическая кибернетика
Научный консультант: Ченцов Александр Георгиевич, доктор физико-математических наук, член-корресподент РАН, профессор
Екатеринбург 2014
Оглавление
Введение...................................6
Историко-библиографическая справка................................6
Мотивация и предмет диссертации....................................7
Цель работы..............................................................11
Методы исследования, научная новизна, теоретическая и практическая ценность......................................................11
Апробация работы и публикации......................................12
Структура работы ......................................................13
Глава 1. Оптимальный гарантированный результат при компактных множествах помех...........................17
1. Динамика системы..................................................18
2. Стратегии и движения..............................................19
3. Пример: изменение пучка конструктивных движений при изменении класса помех..................................................30
4. Показатель качества и оценка стратегий ..........................36
5. Непосредственные соотношения для гарантии при различных классах помех........................................................39
6. Пример: изменение оптимальной гарантии при изменении класса помех........................................................42
7. Неулучшаемость стратегий с полной памятью....................48
7.1. Доказательство теоремы 7.1................................52
Глава 2. Оптимальное управление в случае Ьр-компактных ограничений на помеху............................69
8. Построение оптимальной стратегии при компактных множествах помех..........................................................70
8.1. Стратегия UL................................................70
8.2. Доказательство теоремы 8.1................................75
8.3. Случай конечного набора «тестовых» управлений .... 87
9. Конструктивные варианты: регулярный программный максимин 89
10. Пример оптимальной минимаксной стратегии при программных помехах ........................................................93
11.0 разрешимости в классе позиционных стратегий................97
Глава 3. Оптимальный риск в задаче управления при функциональных ограничениях на помеху........................................102
12. Критерий Ниханса-Сэвиджа в стационарном случае ......103
13. Формализация задачи управления на основе критерия Ниханса-Сэвиджа ..........................................................105
14. Непосредственные соотношения для риска при различных классах помех........................................................108
15. Пример оптимальной по риску стратегии..........................109
16. Сравнение оптимальной гарантии и минимального риска .... 121
17. Достаточное условие неулучшаемости по риску стратегий с полной памятью ..........................134
17.1. Доказательство теоремы 17.1 ..............................137
Глава 4. Управление оптимальное по риску и отдельные свойства
функции минимального риска......................................144
18. Программные итерации функции сожаления......................145
19. Построение оптимальных по риску стратегий....................154
19.1. Оптимальная по риску стратегия Usl......................155
19.2. Доказательство теоремы 19.1 ..............................156
19.3. Случай конечного набора «тестовых» управлений в задаче минимизации риска....................................159
20. Случай регулярности программного максимина функционала сожаления............................................................160
21. Отдельные результаты для случая терминального показателя качества..............................................................168
Заключение................................................................176
Список обозначений......................................................178
Приложения..............................................................185
22. Измеримые функции и множества.................185
23. Представление предела программных движений......... 188
24. Двойные и повторные пределы .................. 191
Литература................................................................194
Список иллюстраций
1.1 Схема работы стратегии ие......................................52
2.1 Схема работы стратегии Оь......................................71
2.2 Задача преследования «с люфтами»..............................94
3.1 Вид функции Л(-) при а = 0.2, Ь= 1, ¿0 = 0, $ = 25......112
3.2 Вид обратной связи иг- в случае |ло| ^ (6 — а)($ — ¿о).....ИЗ
3.3 Вид обратной связи и, в случае (6 — а)— ^ ^
{b + a){д-tl})......................................................ИЗ
3.4 Вид обратной связи С^ в случае ^ (Ь + — ¿о).....114
3.5 Движения системы, порожденные стратегией 0 из начальной позиции (¿0.20) = (0, 7) при помехах • • ■ 122
3.6 Движения системы, порожденные стратегией С из начальной позиции ¿о) — (0, —25) при помехах г>,~ „ -,(•), _ ч(-). . 122
Введение
Историко—библиографическая справка
Современная математическая теория динамических систем и оптимальных процессов охватывает широкий круг актуальных задач, включает большое число разнообразных методов управления, наблюдения, оценивания и реконструкции, имеет прочные связи с другими разделами математики и многочисленные приложения. Ее становление относится к середине ХХ-го столетия и связано с именами отечественных и зарубежных математиков Р. Беллмана, H.H. Красовского, Л.С. Понтрягина. Существенный вклад в ее развитие внесли Э.Г. Альбрехт, В.Д. Батухтин, В.Г. Болтянский, Р.Ф. Габасов, Р.В. Гамкрелидзе, П.Б. Гусятников, А.Я. Дубовицкий, С.Т. Зава-лищин, М.И. Зеликин, Ф.М. Кириллова, A.B. Кряжимский, А.Б. Куржанский,
A.A. Меликян, A.A. Милютин, Е.Ф. Мищенко, Ю.С. Осипов, H.H. Петров, Л.А. Петросян, Б.Н. Пшеничный, А.И. Субботин, В.М. Тихомиров,
B.Е. Третьяков. А.Г. Ченцов, Ф.Л. Черноусько, A.A. Чикрий, C.B. Чистяков, В.А. Якубович, J.P. Aubin, M. Bardi, E.N. Barron, T. Basar, P. Bernhard, A.E. Bryson, F.H. Clarke, M.G. Crandall, R.J. Elliot, L.C. Evans, W.H. Fleming, A. Friedman, Ho Yu-Chi, R. Isaacs, R.E. Kaiman, N.J. Kalton, G. Leitman, P.L. Lions, G.J. Olsder, E. Roxin, P. Varaiya, J. Warga и многие другие ученые (см. [1-73] и библиографию к ним).
Тематика диссертации примыкает к той части этой теории, в которой изучаются качественные свойства функций оптимального результата и способы построения оптимальных стратегий управления, использующих обратную связь. В основе используемой конструкции обратной связи лежит метод экстремального сдвига на стабильное множество.
Истоки метода экстремального сдвига и понятия стабильного множества лежат в теории позиционных дифференциальных игр, развитой в научной школе H.H. Красовского [20-27,64,74-82]. Фундаментальный вклад в труды по теории позиционного управления, наблюдения и восстановления динамики внесли А.Б. Куржанский [29,65,83,84], Ю.С. Осипов [67,85-88], А.И. Субботин [27,47, 89,90], A.B. Кряжимский [67,88,91,92], В.Е. Третьяков [81, 93], А.Г. Ченцов [47, 90, 94, 95]. Активная роль в этих исследованиях принадлежит Э.Г. Альбрехту, Б.И. Ананьеву, В.Д. Батухтину, Ю.И. Бердыше-ву, С.А. Брыкалову, B.JI. Гасилову, М.И. Гусеву, Х.Г. Гусейнову, С.Н. Зава-лищину, A.B. Киму, А.Ф. Клейменову, А.И. Короткому, A.I1. Красовскому, Н.Ю. Лукоянову, В.И. Максимову, О.И. Никонову, B.C. Пацко, H.H. Петрову, В.Г. Пимснову, А.Н. Сесекииу, И.Ф. Сивергиной, H.H. Субботиной, A.M. Та-расьеву, В.И. Ухоботову, В.Н. Ушакову, Т.Ф. Филипповой, А.Ф. Шорикову и их ученикам (см. [14,19,32,35,64,82,96-130]).
Мотивация и предмет диссертации
В теории дифференциальных игр [1,26,27,47, 131] рассматривается ситуация активного противодействия помехи намерениям управляющей стороны. В этих условиях естественным образом возникают предположения о наличии стороны, осуществляющей формирование помехи исходя из целей, противоположных целям управления, а также об осведомленности этой стороны о состояния управляемой системы и/или о действиях управляющей стороны. Такая характеристика помехи с необходимостью влечет конструкцию оценки действий управляющей стороны на основе минимаксного критерия. Этот тип задач управления хорошо изучен в рамках указанной теории, для него построены эффективные решения.
Вместе с тем, известны многочисленные задачи управления, в которых помеха заведомо не имеет антагонистического характера, иначе говоря
(а) поведение помехи не связано со значениями рассматриваемого показателя качества и
(б) не зависит от состояния управляемой системы или действий управля-
ющей стороны.
К таким задачам относятся, например,
— управление материальными системами при наличии природных воздействий (управление транспортными средствами, управление ирригационными, гидро-энергегическими системами, локализация пожаров, наводнений, техногенных загрязнений и т. п.);
— управление малыми (не имеющими доминирующего положения) экономическими объектами в изменяющихся макроэкономических условиях.
В этих задачах, также можно строить оптимальный гарантированный результат управления, но приписывание помехе возможности реагировать на состояние объекта управления, на управляющие воздействия и/или противодействовать управляющей стороне может ухудшить этот результат, отвечающий содержанию исходной задачи управления.
Отметим в этой связи, что между антагонистической помехой и наихудшей помехой имеется существенное различие. Эти понятия часто отождествляют полагая, что более жесткие предположения о характере помехи — предположение об антагонистическом характере ее поведения — не изменят решение исходной задачи, а лишь дадут «дополнительные гарантии». В отдельных случаях такая подмена характера помехи объяснима повышенными требованиями к гарантированному результату, сложным или не до конца изученным механизмом взаимодействия контролируемых и неконтролируемых параметров управляемой системы. Однако, чем бы ни диктовалась такая подмена характера помехи, во многих случаях это приводит к качественному изменению задачи управления. Именно, существенно изменяются значение оптимального результата. Как следствие, в новой задаче гарантированный результат, отвечающий исходной задаче управления, не достигается.
Таким образом, задачи управления при неантагонистической помехе имеют самостоятельное значение и содержательные предпосылки.
Свойство «антагонистичности» можно понимать как способность помехи изменяться в зависимости от действий управляющей стороны и/или состояния управляемой системы. Отталкиваясь от такого понимания, в качестве формального описания «нейтрального» поведения помехи можно
рассматривать тс или иные ограничения на ее изменение в зависимости от изменения фазового состояния системы или управления. В отличие о г «ресурсных» ограничений, выражаемых, обычно, мгновенными геометрическими или интегральными ограничениями на неконтролируемые параметры управляемой системы, эти ограничения носят функциональный характер. Простейшим ограничением такого рода является предположение о программном поведении помехи, то есть предположение о юм, что помеха описывается некоторой заранее неизвестной, но фиксированной функцией времени. Другой естественный с точки зрения приложений вариант дают помехи, порождаемые некоторой неизвестной функцией Каратеодориевского типа, то есчь функцией непрерывной по пространен венной переменной и измеримой по временной.
Задачи управления с функционально ограниченной помехой исследовались как вспомогательный инструмент (см. [27,131] и библиографию в этих книгах) для решения задачи в случае помехи общего вида, а также в качестве самое юятельной проблемы [92,132,133].
Так в конструкции программного максимина Н. Н. Красовского [21,27,47] программные помехи используются для нахождения оптимального гарантированного результата и оптимальных позиционных стратегий в задаче с «произвольными» помехами. Для широкого круга задач управления стохастический программный максимин [26], в котором действуют иеупреждающие стохастические программные помехи, дает цену соответствующей дифференциальной игры.
В работах Н. I I. Барабановой и А. И. Субботина [132,133] в рамках изучения дифференциальных игр для линейных управляемых систем исследовались множества программного поглощения [76,77] для случаев, когда помеха формируется непрерывной позиционной стратегией, либо посредством полунепрерывного сверху многозначного отображения, определенного на расширенном фазовом пространстве управляемой системы. Было установлено, что указанные множества поглощения совпадают с исходным множеством, формируемым программной помехой.
Другой вид задачи управления с функциональным ограничением на поме-
ху предложен и рассмотрен в работе А. В. Кряжимского [92] в связи с изучением свойств стратегий с полной памятью. Предполагалось, что реализации помехи содержатся в некотором неизвестном -компактном подмножестве заранее заданного множества допустимых помех (далее задачи с таким ограничением на помехи, будут именоваться задачами с «£р-компактными ограничениями на помеху»). Для этого вида ограничений в указанной работе при весьма общих предположениях об управляемой системе и показателе качества устанавливается, в частности, равенство оптимальных результатов, достигаемых в классе стратегий с полной памятью [27. §95] и в классе квазистратегий.
Еще одним направлением в исследовании задач управления с неантагонистической помехой является переход от классического — минимаксного — критерия оценки управления к другой конструкции этой оценки, возможно, в большей степени отвечающим сути рассматриваемой задачи. Минимаксный критерий качества отражает эффективность управления при наиболее неблагоприятных помехах, практически не реагируя на качество управления в случаях, когда действия помехи нейтральны или благоприятны по отношению к целям управления. В этих случаях — случаях нейтрального поведения помехи — управление, оптимальное в смысле минимаксного критерия, может, вообще говоря, «упускать возможности» улучшения результата. Модельные примеры такого рода эффектов приводятся ниже (см. п. 16). В 1948 г. в работе 10. Ниханса [134] и в 1951 г. —у Л.Дж.Сэвиджа [135] введено новое понятие оптимального решения в игре двух лиц, которое по своей конструкции существенно отличается от минимаксного решения. В литературе этот подход, обычно, именуется критерием Сэвиджа.
Поясним конструкцию этого критерия применительно задаче управления при наличии динамической помехи: пусть имеется управляемая система, выделено множество допустимых помех, выбраны класс стратегий управления и некоторый показатель качества. Для допустимой (реализации) помехи найдем результат в задаче оптимального управления при этой фиксированной помехе. Затем вычислим значение показателя качества для этой же помехи и стратегии управления из выбранного класса стратегий. Превышение вто-
рой величины над первой характеризует наш риск при (сожаление о) выборе данной стратегии в случае реализации данной помехи. Стратегия, у которой верхняя граница риска (сожаления) по всем помехам минимальна, называется оптимальной в смысле критерия Сэвиджа.
Оптимальное решение в смысле Ниханса-Сэвиджа, по-существу, также выделяет группу «неблагоприятных» помех, однако делает это иным способом, не связанным непосредственно с влиянием помехи на значение показателя качества. Помехи «благоприятствующие» не менее существенны для этого критерия, чем помехи «препятствующие» достижению цели управления.
Указанные свойства критерия Ниханса-Сэвиджа делают целесообразным его применение в ситуациях, когда помеха заведомо не имеет антагонистического характера и. как следствие, изучение задач управления в формализации, основанной на этом критерии.
В литературе можно встретить различные названия критерия. В дальнейшем для его обозначения будем использовать термин «критерий минимального риска». Стратегию, оптимальную в смысле Ниханса-Сэвиджа, для краткости мы будем называть «оптимальной по риску», а величину соответствующего риска (сожаления) — «оптимальным риском».
Цель работы
Целью работы является построение теории оптимального управления динамическими системами в условиях помех, стесненных функциональными ограничениями, в формализации на основе как (классического) минимаксного критерия, так и критерия минимального риска с дальнейшим приложением к задачам оптимизации при неантагоииетической помехе.
Методы исследования, научная новизна, теоретическая и практическая ценность
Представленные в диссертации исследования опираются на подходы и методы из качественной теории дифференциальных уравнений, теории пози-
ционных дифференциальных игр и обратных задач динамики. Используются результаты из функционального анализа, дифференциальных включений и негладкого анализа.
В работе в связи с рассмотрением задач управления при не антагонистической помехе дана формализация и обоснованы методы решения задач оптимизации гарантированного результата при наличии различных видов функциональных ограничений на помеху, в частности, показано, что стратегии с полной памятью неулучшаемы и приведены условия, при которых оптимальные стратегии допускают численную реализацию; формализована и исследована задача управлен�