Синтез быстрых управлений в линейных системах тема автореферата и диссертации по математике, 01.01.02 ВАК РФ
Минаева, Юлия Юрьевна
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2014
ГОД ЗАЩИТЫ
|
|
01.01.02
КОД ВАК РФ
|
||
|
Московский государственный университет им. М.В. Ломоносова Факультет вычислительной математики и кибернетики
На правах рукописи
I /
Минаева Юлия Юрьевна
Синтез быстрых управлений в линейных системах
01.01.02 — дифференциальные уравнения, динамические системы и оптимальное управление
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
2 9 Г.! 10 2015
Москва 2014
005558214
005558214
Работа выполнена на кафедре системного анализа факультета вычислительной математики и кибернетики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Московский государственный университет имени М. В. Ломоносова»
Научный руководитель: Дарьин Александр Николаевич,
кандидат физико-математических наук, ведущий разработчик группы перспективных исследований и разработок ОАО «Т-Платформы»
Официальные оппоненты: Полякова Людмила Николаевна,
доктор физико-математических наук, профессор кафедры математической теории моделирования систем управления факультета прикладной математики — процессов управления федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет»
Колпакова Екатерина Алексеевна, кандидат физико-математических наук, научный сотрудник отдела динамических систем федерального государственного бюджетного учреждения науки «Институт математики и механики имени H.H. Красовского Уральского отделения Российской академии наук»
Ведущая организация: федеральное государственное бюджетное учрежде-
ние науки «Институт проблем управления имени В.А. Трапезникова Российской академии наук»
Защита состоится 4 марта 2015 года в 15 час. 30 мин. на заседании диссертационного совета Д 501.001.43 при Московском государственном университете имени М. В. Ломоносова по адресу: 119991, г. Москва, ГСП-1, Ленинские горы, МГУ, д. 1, стр. 52, 2-й учебный корпус, ВМК, аудитория 685.
С диссертацией можно ознакомиться в Научной библиотеке Московского государственного университета имени М. В. Ломоносова по адресу: 119192, г. Москва, Ломоносовский проспект, д. 27.
Автореферат разослан « 13 » 201 г.
Ученый секретарь диссертационного совета Д 501.001.43, доктор физико-математических наук, профессор
Е в_ Захаров
Общая характеристика работы
Актуальность темы
Данная работа посвящена исследованию задачи синтеза управления в системах с неопределённостью в классах импульсных управлений, формализуемых обобщёнными функциями, а также быстрых управлений, действующих в течение малого промежутка времени, величина воздействия которых ограничена, хотя и может быть довольно большой.
Задачи построения синтезирующих управляющих воздействий являются одним из центральных вопросов современной математической теории управления. Решением таких задач служат управления в виде обратной связи. Они особенно необходимы в системах, где присутствуют неопределённые возмущения, неизвестные заранее, поскольку использование программных управлений в таких задачах, как правило, не даёт удовлетворительных результатов. Подобные задачи для систем с ограниченным управлением в детерминированной постановке, то есть когда задано ограничение на неопределённое возмущение и отсутствует статистическая информация о нём, изучены в работах Л. С. Понтрягина [16], Н. Н. Красовского [7, 8, 9] и других работах [1, 10, 13, 29, 31, 32].
Одним из способов решения задачи синтеза является применение метода динамического программирования, предложенного Р. Беллманом в [2], и применённого к задачам с неопределённостью Р. Айзексом [1]. Исследование таких задач сводится к рассмотрению дифференциального уравнения в частных производных типа Гамильтона-Якоби-Беллмана-Айзекса. Решение уравнения подобного типа представляет сложную вычислительную задачу, в связи с чем разрабатываются различные аппроксимационные методы [12,32].
Решение многих задач оптимального управления, возникающих в приложениях, не достигается в традиционно рассматриваемом классе ограниченных управлений. Классическим примером такой задачи служит задача управления при условии минимума импульса управляющей силы и, которую можно сформулировать следующим образом: на траекториях х(£) системы
= + х{го)=х0, х{п) = х\
минимизировать функционал \и(т)\(1т при заданном начальном и ко-
нечном х1 положении системы. Предполагается, что интервал времени [¿о, ¿х] фиксирован. Минимум функционала данной задачи достигается на управлениях и, содержащих в качестве слагаемых мгновенные ударные воздействия, формализуемые дельта-функцией 5(£) [3, 19]. Кроме того, известно [8], что среди оптимальных управляющих воздействий в классе программных управлений есть управления, представляющие собой линейную комбинацию дельта-функций, в которых количество импульсов не превышает размерность фазового пространства [34].
Развитие теории импульсного управления обусловлено также тем, что во многих приложениях возникают задачи, в которых входные воздействия характеризуются большой интенсивностью и малым промежутком действия. Примеры задач с подобными свойствами встречаются в механике, робототехнике, финансовой математике, квантовой физике, химии, экологии, в медико-биологических и экономических задачах, при изучении атмосферных явлений и в других областях. Математическая идеализация таких воздействий приводит к рассмотрению мгновенных, импульсных управлений, вызывающих мгновенные изменения фазовых координат.
Построению программных управлений для систем, допускающих импульсные воздействия, посвящены основополагающие работы [8, 34]. Дополнительные возможности открывает рассмотрение в качестве управления распределений (обобщённых функций), допускающих высшие производные дельта-функций [14]. Известно, что для вполне управляемых систем задача перевода системы из одного положения в произвольное другое положение может быть решена при помощи обобщённых управлений высших порядков за нулевое время [14].
Следует отметить, что использование импульсных и обобщённых управлений не расширяет свойство полной управляемости системы [9] (здесь идёт речь об управляемости на интервале времени положительной длины), то есть, вполне управляемая система в классе импульсных управлений будет вполне управляемой и в классе ограниченных управлений, и наоборот, вполне управляемая система в классе ограниченных управлений будет вполне управляемой в классе импульсных управлений.
Позиционное импульсное управление в линейных системах без неопреде-
лённости было построено в [11, 23, 30]. В этих работах для синтеза импульсного управления используется обобщение метода динамического программирования на случай импульсных управлений. Задача оптимизации формулируется в терминах формализма Гамильтона-Якоби. Решение включает в себя построение функции цены, обладающей полугрупповым свойством, и последующее определение синтеза управления на основании неравенства типа Га-мильтона-Якоби-Беллмана, которому удовлетворяет функция цены. Следует отметить, что в данном случае функция цены может быть найдена в явном виде при помощи средств выпуклого анализа.
Даже в простых модельных задачах функция цены может оказаться не дифференцируемой в классическом смысле, поэтому рассматриваемые задачи связаны с теорией обобщённых (вязкостных) решений [22, 28] и минимаксных решений [18].
Актуальной частью современной теории управления также являются задачи импульсного управления при наличии неопределённостей, или помех, как стохастического [21], так и детерминированного характера, которые могут быть вызваны неточным знанием параметров системы, информационными помехами или другими причинами. В работе [25] для задачи импульсного управления при наличии неизвестной ограниченной помехи предложено использовать задачи с коррекциями, по аналогии с результатом работы [10]. Для построения позиционного управления предложено использовать предельное значение функции цены в задачах с коррекциями движения. Предельная функция цены является решением неравенства типа Гамиль-тона-Якоби-Беллмана-Айзекса (ГЯБА), которое можно рассматривать как обобщение уравнения ГЯБА, известного в теории дифференциальных игр [1]. При построении синтеза импульсного управления возникает вопрос интерпретации траекторий замкнутой системы. В работе [29] для задач с неопределённостью при ограниченном управлении определены аппроксимационные и конструктивные движения. Некоторые способы описания траекторий замкнутой системы рассмотрены в [24].
Настоящая работа продолжает исследование метода, предложенного в работе [25]. В Главе 2 диссертационной работы доказано существование предельного значения функции цены в задачах с коррекциями движения, а также до-
казано, что предельная функция цены является решением неравенства типа ГЯБА. Предложены способы интерпретации траекторий замкнутой системы.
Импульсные и обобщённые управления не реализуемы на практике, поскольку величина таких воздействий не ограничена. Отсюда возникают проблемы их аппроксимации при помощи ограниченных функций, которые принято называть быстрыми управлениями [5, 6,11].
Цель работы состоит в исследовании задачи импульсного управления при наличии неопределённости, заданной в виде неизвестной ограниченной помехи, и получении синтеза в классе быстрых управлений.
На защиту выносятся следующие основные результаты:
1. Построены разрывные, непрерывные и гладкие (А; раз дифференцируемые) аппроксимации обобщённых управлений с минимальным модулем аппроксимации, её производной, либо её производной ¿-ого порядка соответственно, которые используются при построении быстрых управлений.
2. Доказан принцип оптимальности в задаче синтеза импульсных и быстрых управлений для линейной системы при наличии неизвестной ограниченной помехи. Доказано, что функция цены удовлетворяет неравенству типа Гамильтона-Якоби-Беллмана-Айзекса, и получена стратегия импульсного управления. Получены способы описания траекторий замкнутой системы.
3. Получен численный алгоритм построения синтеза импульсного управления при неопределённости, основанный на аппроксимации функции цены.
Научная новизна работы
Полученные результаты являются новыми. В работе рассмотрены ранее мало изученные задачи синтеза быстрых управлений в условиях неопределённости. Работа продолжает исследования [5, 6, 23].
Теоретическая и практическая значимость
Работа носит, в основном, теоретический характер. В современной теории управления исследование вопросов синтеза импульсного управления при неопределённости является одной из актуальных задач. Полученные результаты могут быть использованы при исследовании моделей реальных систем.
Решение задач в классе быстрых управлений позволяет получить физически реализуемые управляющие воздействия, что может быть использовано в дальнейшем при исследовании практических задач.
Методы исследования
При решении рассматриваемых в диссертации задач использованы теория обобщённых функций, дифференциальных уравнений, методы динамического программирования, функционального анализа и выпуклого анализа.
Апробация работы
Результаты работы были представлены в виде докладов на научном семинаре «Прикладные задачи системного анализа» под руководством академика А. Б. Куржанского на кафедре системного анализа ВМК МГУ и на следующих конференциях: «Тихоновские чтения - 2013» (Москва, октябрь 2013), 20 Международная конференция по автоматическому управлению «Автоматика - 2013» (Николаев, Украина, сентябрь 2013), «Ломоносовские чтения» (Москва, апрель 2014, 2012 и 2011 годов), конференция «Ломоносов» (Москва, апрель 2014 и 2012 годов), 18 Международная конференция по автоматическому управлению «Автоматика - 2011» (Львов, Украина, сентябрь 2011).
Публикации
Основные результаты диссертации опубликованы в 3 работах [35, 36, 37], все работы опубликованы в журналах из перечня ВАК.
Все работы выполнены в соавторстве с научным руководителем А. Н. Да-рьиным. В работе [35] научному руководителю принадлежат постановки задач аппроксимации дельта-функции, а также формулировка этих задач в виде соответствующих проблем моментов. Доказательства принадлежат автору диссертации. В работе [36] научному руководителю принадлежит постановка задач. Доказательства принадлежат автору диссертации. В работе [37] научному руководителю принадлежит общая постановка задачи и рекомендации по поводу выбора класса кусочно-аффинных выпуклых функций для построения аппроксимаций. Доказательства принадлежат автору диссертации.
Автор благодарит своего научного руководителя Александра Николаеви-
ча Дарьина за постановку задач и постоянное внимание к работе, ценные указания и консультации.
Автор благодарит академика Александра Борисовича Куржанского за полезные критические замечания к работе и к выступлениям автора в рамках научного семинара «Прикладные задачи системного анализа».
Работа выполнена на кафедре системного анализа ВМК МГУ, при финансовой поддержке РФФИ (гранты 12-01-00261-а и 12-01-31416-мол-а) и программы «Государственная поддержка ведущих научных школ» (гранты НШ--2239.2012.1, НШ-2692.2014.1).
Структура и объём диссертации Диссертация состоит из введения, трёх глав, заключения и библиографии. Общий объём диссертации 98 страниц. Библиография включает 62 наименования.
Краткое содержание работы
В первой главе определены основные понятия и объекты, относящиеся к теме диссертации, и рассмотрены задачи аппроксимации импульсных и обобщённых управлений при помощи ограниченных функций, называемых быстрыми управлениями. Для дельта-функции и её производных найдены кусочно-непрерывные аппроксимации с минимальным модулем, а также к раз непрерывно дифференцируемые аппроксимации этих функций с минимальным модулем к-ой производной.
Результаты первой главы (разделы 1.2 и 1.3) опубликованы автором диссертации в работе [35] в соавторстве с научным руководителем А. Н. Да-рьиным. Научному руководителю принадлежат постановки задач 1.5 и 1.6 аппроксимации дельта-функции, а также формулировка этих задач в виде соответствующих проблем моментов.
В разделе 1.1 приведены основные понятия, используемые в работе. Обобщённая функция / [3, 19] является линейным функционалом (/, £) на пространстве основных функций £ 6 Дь[о, /3], состоящем из к раз дифференцируемых функций с компактным носителем из интервала (а,/3). Пространство обобщённых функций обозначается [а, /3] и является сопряжённым пространством к Дь[аг, /3]. На пространстве Б*к [а, /9] задана норма С [/], которая определяется как сопряжённая норма к норме (?(£). заданной на Дь[а, /3].
В многомерном случае обобщённая функция / = (/i, • • •, /т)> и пространство таких функций обозначается как Dl m[a,ß].
Для обобщённой функции справедливо её представление через производные функций ограниченной вариации F0,..., Fk 6 BV[a, ß] [3], где BV[a, ß] обозначает класс функций ограниченной вариации на отрезке [a,ß]:
f = Y» Ä. (1)
В разделе 1.1.2 описаны известные результаты, касающиеся линейных систем с импульсным управлением без неопределённости. Рассматривается следующая задача
Задача 1.1. На траекториях системы
dx{t) = A(t)x(t)dt+B(t)dU(t), te [io.ii], x(t0) = x°, x{h+0) = x1 (2) минимизировать функционал
JOJ) = Var U(-) min (3)
Mi+o) Щ-)
в классе программных управлений. Здесь фазовая переменная х е R", допустимые управления
U{-) Si"1-функции ограниченной вариации на [t0,ii], матричные функции соответствующей размерности A(t), B(t) непрерывны.
Известно [9], что для вполне управляемой системы в задаче (2), (3) среди оптимальных управляющих воздействий в классе программных управлений существуют управления вида u(t) = = - Tj), где —
m-векторы, определяющие направление ударного воздействия на систему в моменты Tj, а общее количество импульсов г не превышает размерность фазового вектора г ^ п.
В разделе 1.1.3 описаны известные результаты для задачи с обобщённым управлением без неопределённости. Рассматривается линейная система уравнений
x = A(t)x + B{t)u + f{a)-f[ß\ (4)
где фазовая переменная х и управление и представляют собой распределения из пространств D%n[a,ß] и D*km[a,ß) соответственно, A(t), B{t) — к раз дифференцируемые функции. Распределения /(а) и — начальное и конечное распределения соответственно, сосредоточенные в точках to и fi,
а < 40 < ¿1 < /3.
Вводится понятие допустимого управления для системы с обобщённым управлением без неопределённости — распределения и, при котором существует соответствующее распределение х, удовлетворяющее уравнению (4), понимаемому в смысле распределений, и сосредоточенное на интервале [¿о, ¿х]. Приведена постановка задачи обобщённого управления без неопределённости:
Задача 1.2. Среди допустимых управлений системы (4) найти управление, доставляющее минимум функционалу J{u) = Я*[и].
Эта задача может быть сведена [14] к задаче с импульсным управлением следующего вида:
Задача 1.3. Для системы
<1х№ = А(г)х(1)сН + ВЦ)(1и(г), хЦо) = х°, х(ь + 0) = х1, (5) найти управление и, минимизирующее функционал
7(и)= Уаг £/(•), (6)
[<о,<1+0)
где управление имеет вид II(Ь) = (£#(£) •■• Щ{Ь))Т, и его компо-
ненты Щ— функции ограниченной вариации из представления (1). Матрица В(4) е и векторы 2°, х1 определяются из параметров
системы (4).
Для Задачи 1.2 известен следующий результат [9]: линейная управляемая система может быть переведена из одного состояния в другое за нулевое время при помощи управления вида и(Ь) = (£ — ¿о), то есть при
помощи п импульсов, включающих в себя дельта-функцию и её обобщённые производные до (п — 1)-ого порядка.
В разделе 1.1.4 вводятся линейные импульсные системы при неопределённости. Неопределённость представлена измеримыми, почти всюду ограниченными функциями 1/(£) с дополнительным поточечным ограничением е 0,(Ь) при п.в. г € [io.ii], где 2(£) — непустой выпуклый компакт в К' для всех £ 6 [£о, ¿1] -
Импульсная система уравнений с неопределённостью
<&(£) = АЦ)хЦ)М + В{£)<Ш{1) + С(£)«(«) Д, = я0 (7)
понимается как формальная запись того, что движение системы описывается равенством
/•<+0 /"(+0 х{1 + 0) = Х(1, <0)хо + / т)В{т)<Ш{т) + / Х{Ь, т)С(т)у{т)йт, (8)
Jto -'<0
в котором интеграл по управлению понимается в смысле интеграла Стиль-тьеса [17], а интеграл с помехой — интеграл Лебега. Здесь Х(Ь,т) — фундаментальная матрица однородного уравнения. Х(Ь,т) является решением матричного дифференциального уравнения
^ = Х(т,т) = Е, (9)
где Е € Жпхп — единичная матрица. Решение системы (7) представляет собой кусочно-непрерывную функцию.
В разделе 1.1.5 вводится понятие линейной системы с обобщённым управлением при неопределённости. Для системы
х = А[г)х + В{€)и + С{ь)у{1) + /(о) - (10)
вводится понятие допустимого управления при известной реализации помехи — распределения и, при котором существует соответствующее распределение х, удовлетворяющее уравнению (10), понимаемому в смысле распределений. Рассматривается задача минимизации функционала J(u) = Я*[и].
Показано, что решение задачи с обобщённым управлением при неопределённости совпадает с решением следующей задачи с импульсным управлением при неопределённости:
<1хЦ)=А{г)хЦ)(И + В^)йи{г)+С{1)у(Ь), хЦо) = х°, £(¿1 + 0) = х1, (И)
с функционалом Ли) = Уаг [/(■), где матрица В(4) £ Клет(Н1) и х°, х1
[(о,«1+0)
определяются из параметров системы (10) (теорема 1.3).
При решении задачи с обобщёнными управлениями без помехи реализация управления может представлять собой линейную комбинацию дельта-функции и её производных [9]
(12)
В разделе 1.1.6 рассматриваются быстрые управления — ограниченные аппроксимации импульсных управлений [11, 30]. Быстрые управления воз-
действуют на систему в течение малого времени, в отличие от импульсных управлений, действующих мгновенно и, в связи с этим, не реализуемых на практике.
Обозначим через А{ (t - п) аппроксимацию производной дельта-функции 5U)(t -п), j = 0,..., к, отличную от нуля на отрезке [т< - h, п + Л]. Тогда будем аппроксимировать импульсное управление (12) быстрым управлением вида
где коэффициенты h и иц и вид функций Дд (t) — параметры аппроксимации. При h 0 функции Д{(t) образуют дельтообразные последовательности [4].
В разделе 1.2 поставлена Задача 1.5 определения аппроксимации Д£(£) дельта-функции 6(t) и её производных <5(n)(i) при помощи кусочно-непрерывных функций, отличных от нуля на фиксированном отрезке времени [—Л, Л], и обладающих минимальным модулем среди всех таких аппроксимаций:
/ Л* —> inf. Г144
\ |Ajj(t)| < /х, te [-h,h). ( '
Дополнительно накладываются ограничения, обеспечивающие слабую сходимость Д£ (t) к производной дельта-функции S" (t):
Г £hAnh(t)tjdt = 0,j = 0...n-l, (15)
\ Ддкит = (-1)"п!
Это позволяет сформулировать задачу в виде проблемы моментов [9]. Доказано (теорема 1.4), что проблема моментов (14), (15) имеет следующее решение:
где £/„(•) — многочлен Чебышева второго рода: Un (t) = cos (n • arccos t). Полученные аппроксимации будут кусочно-постоянными, то есть разрывными функциями.
Также доказана слабая сходимость аппроксимации Д2(t) к n-ой производный дельта-функции <5'n'(t) при h 0 (теорема 1.5).
В разделе 1.3 поставлена задача поиска непрерывных и гладких аппроксимаций дельта-функции и её производных:
Задача 1.6. Найти аппроксимацию Д£Л(£) га-ой производной дельта-
функции на отрезке [-Л, Л], которая была бы (к - 1) раз непрерывно
дифференцируема, с минимальным модулем производной (к—1)-ого порядка.
Предлагается искать Д£ц(£) в виде
Г Л^и = /!„ Д... /!г • • ■ Ли (17)
где ££(•) — некоторая неизвестная функция, подлежащая определению. Также накладываются ограничения, аналогичные (15). Доказано (теорема 1.6), что решение поставленной задачи будет ^-кратным интегралом от функции, являющейся разрывной аппроксимацией с минимальным модулем для производной дельтагфункции (п + &)-ого порядка, Д£+*(£) :
ДмЮ = 1^1)! Г - т)к~Чт, где
«/—Л
дг*(0 = К-1)"4"* (тдп+м (" + «8° ^ (Л) •
Результирующие аппроксимации будут в случае к = 1 кусочно-линейными, непрерывными функциями. При к ^ 2 аппроксимации Д^*) будут кусочно-полиномиальными функциями порядка к, имеющими (к — 1) непрерывную производную в точках стыковки. Аппроксимации (17) слабо сходятся к п-ой производной дельта-функции при к 0 (теорема 1.7).
В разделе 1.4 приведён способ построения решения задачи с обобщённым управлением без неопределённости в быстрых управлениях, полученный в работе [6]. Изначально метод предложен для одного вида дельтообразных последовательностей, однако он применим и для аппроксимаций вида (16) и (17), а также в задачах с неопределённостью.
В разделе 1.5 на примере задачи управления колебательной механической системой с одной степенью свободы показано применение импульсных и обобщённых программных управлений в задачах без неопределённости, а также переход к быстрым управлениям.
Во второй главе для задачи синтеза импульсных и быстрых управлений для линейной системы при наличии неизвестной ограниченной помехи доказан принцип оптимальности для функции цены в задаче синтеза. Доказано, что функция цены удовлетворяет неравенству типа Гамильтона-Якоби-Белл-мана-Айзекса, и получена стратегия импульсного управления. Также пред-
ложены способы описания траекторий замкнутой системы.
Результаты второй главы опубликованы автором в работе [36] в соавторстве с научным руководителем А. Н. Дарыгаым. Научному руководителю принадлежит постановка задачи. Доказательства принадлежат автору диссертации.
Исследуется задача синтеза управления в линейной системе с импульсным управлением U{-) при неопределённости v(-)
dx(s) = A{s)x{s)ds + B{s)dU(s) + C(s)v(s)ds, x(t) = x. (18)
Система рассматривается на фиксированном интервале времени s € [Mi]-Задан функционал, зависящий от управления и помехи,
АЩ-)А-)) = г Var U{-) + + 0)), (19)
где ip(-) — некоторая выпуклая функция. Цель управления — минимизировать функционал (19), несмотря на наличие неопределённости.
Используется обобщение метода динамического программирования на случай импульсных управлений, применённое к задачам без неопределённости в работах [23, 30].
В разделе 2.2 определено множество возможных помех
M(t) = {и : [Ml] -4 R«H-) е L°°[Mi], «(s) е 6(s) для п.в. s е [Ml]}, (20)
где Loo — пространство измеримых, почти всюду ограниченных функций, Q(s) — непустой выпуклый компакт в К'.
Возможные управления U принадлежат классу функций ограниченной вариации BV([t,ti],Rm). Поскольку в систему (18) управление входит как дифференциал dU, то рассматриваются классы эквивалентных управлений с точностью до константы.
Введены минимаксная V(t, х) и максиминная функции цены W(t, х) [25], равные минимальному значение функционала задачи в случае, когда реализуется наихудший случай помехи (неопределённости). При этом V(t, х) соответствует тому, что управление выбирается без знания реализовавшейся помехи. В случае функции W(t,x), наоборот, управление выбирается при известной реализации помехи.
V(t, x) — min max Г Var {/(•)+
+ + 0)) I x(t) = X, U{-) e BV([t,il])], (21)
W(t,x)= max mini Var U(-)+
4 ' o(-)&M(t) U{ ) 1 [i,t,+0)
+ <p(x(t\ + 0)) I x{t) = x, U(-) 6 BV([t, ij])].
Здесь x(t) — траектория системы (18), соответствующая управлению Î7(-) и помехе v(-).
Функции V(t,x) и W(t, х) можно выразить через сопряжённые к ним функции по Юнгу-Фенхелю: V{t,х) = sup{(x,p) - V*(t,p)\p € Rn}, W(t,x) = sup{(x,p) - W*{t,p)\pe R"}, которые имеют вид [25]:
V\t,p) = conv{<f\XT(t, h)p) - p (XT(t, h)p \ Q(i, ii))} +
+ X(XT(Mi)p|Bf[Mi]),
W*(t,p) = conv{^(*T(Mi)p) +l(XT(t,h)p I Bv[t,h}) -
-p{XT{t,tl)p |Q(t,ti))}.
Здесь p(p I Q(Mi)) — опорная функция в направлении р к выпуклому компактному множеству Q(t,h), равная р (р | Q(i,ii)) = sup{(p, q) | q e Q(i, ti)}; множество Q(t, t\) определяется как
QMi) = J*'C(T)Q(r)dT-, (22)
conv(-) — операция овыпукления функции, то есть получения наибольшей выпуклой функции, не превышающей исходной функции; Bv[t, £i] — единичный шар в полунорме
Il^llv = l|ßr(-Kllc[t,tll; (23)
Х(р, Л) — индикаторная функция множества Л, равная нулю, если р принадлежит множеству А, и бесконечности в противном случае.
Минимаксная и максиминная функции цены используются далее в формулировке уравнения Гамильтона-Якоби-Беллмана-Айзекса и для построения функций цены с коррекциями.
В разделе 2.3 вводится понятие позиционной функции цены [26, 27]. Определено отображение U : M{t) -> BV([i,ii],Rm), позволяющее по реали-
зации помехи на отрезке [t, ii] полнить значение управления на этом отрезке. Через fl(i) обозначено множество таких отображений, которые дополнительно обладают свойством неупреждения, а именно, для любого момента времени s е [t, ii] и для любых v',v" 6 -М(£) выполняется следующее свойство: если v'{t) = v"(t) при п.в. г G [t, s], то W[i/](r) = U[v"](t) при т € [f, s + 0). Здесь U[v](t) — реализация отображения U при известной реализации помехи v(t).
Определена позиционная функция цены:
V(t, х) = inf sup { Vax U[v] + <p(x{ti + 0))} (24)
wefi(t) veM(t)
и доказаны её свойства (теоремы 2.4, 2.9).
Теорема 2.4. Для произвольного те [t, ii + 0) и х € Ж" для функции цены (24) выполняется принцип оптимальности:
V(t,x)= inf sup { Var «[s]+V(r,i(r))}. (25)
Uen(i)vsM(t)
Доказательство проведено по аналогии с [27], с обобщением на случай импульсных управлений. Сложность в переходе на случай неограниченных управлений состоит в том, что импульс возможен в момент времени т.
Теорема 2.9. Позиционная функция цены V(i, ж) (24) удовлетворяет уравнению типа Гамильтона-Якоби-Беллмана-Айзекса (ГЯБА):
minfHi,%2} = 0, Hi (t, х, Vf, Vx) =%+ max (V„ A{t)x + C{t)v), ^
n2(t,x,Vt,Vx) = mjn{l + (Vx,B(t)h)} с краевым условием
V(t1,x) = V(h,x;t1,<p(-)), (27)
где V(ii,x;ii, — минимаксная функция цены (21), взятая в момент £i и равная V(ti,x;fi, ¥>(•)) = max{{x,p) - <р*(р) | р G Kn, ||Bf(ii)p|| < 1}.
В общем случае позиционная функция цены может не быть дифференцируемой в точке (£, х). Тогда частные производные понимаются как производные по соответствующим направлениям.
С помощью позиционной функции цены не удаётся получить конструктивный синтез управления, поэтому далее, в разделе 2.4 рассматривается
задача с коррекциями.
Задача с коррекциями [10] представляет собой задачу управления при неопределённости, в которой весь отрезок времени разбивается на небольшие интервалы. В фиксированные моменты времени, ограничивающие данные интервалы, становится доступной информация о текущем положении системы. В каждый такой момент времени выбирается управление, которое будет действовать на следующем маленьком интервале. В работе [25] было предложено использовать переход к задаче с коррекциями в задаче импульсного управления при наличии помехи. Результаты, полученные в Главе 2, продолжают исследование метода, предложенного в работе [25].
Без ограничения общности для упрощения последующих выкладок далее рассматривается система с нулевой динамикой
dx(s) = B[s)dU(s) + v(s)ds, x(t) = x (28)
и функционалом
J(U(-),v(•))= Var £/(•) +¥>(*(ii + 0)). (29)
[t,ii+0)
Цель управления — минимизировать функционал (29) на траекториях системы (28), несмотря на наличие неопределённости v(s) € M(s) (20).
Пусть Т = {Tfc}*Lo — разбиение отрезка [Mi], такое что t = TN< rN-i < ■ ■ ■ < Ti < т0 — t\.
Минимаксная функция цены с коррекциями VT{s,x) [25] определяется рекуррентными соотношениями:
Vt(t0,x) = V(ii,x;ii, /30\
VV(s,x) = V(s,x-,Tk-i,Vr{Tk-i,-))> s<= k = l,...,N.
Максиминная функция цены с коррекциями WT(s, х) [25] равна:
wt(t0, х) = W(th х; tu <р{-)), WT(s,х) = W(s,х;T*_i,WT(Tk-ь0). Ъ-1)> k = l,...,N.
Показано, что существуют точная нижняя и точная верхняя грани
inf VT(t, х), sup WT{t, х), и они равны. Поэтому можно ввести функцию цены TT , .
в задаче синтеза V(i, х), равную в каждой точке (г, х)
V(t, х) = inf VT(t, х) = sup WT(t, х). (32)
Это утверждение сформулировано в следующей теореме:
Теорема 2.14. Пусть система (28) вполне управляема на каждом отрезке [т',т"], I < т7 < т" ^ ¿1. Пусть терминальная функция <р(-) выпуклая и лишпицева. Пусть отображение 3(в) липшицево с константой Ьд, и 2(в) — непустой выпуклый компакт для всех й £ [£,¿1]. Тогда существует функция цены синтеза У{Ь,х) (32).
Доказательство теоремы основано на представлении сопряжённых функций к минимаксной и максиминной функций цены с коррекциями как суперпозиции операторов и Т вида
= «ту {^(Р) - Р (Р I «0)} > (зз-,
применённых к терминальному слагаемому функционала (29):
Показано, что если выполнены условия теоремы 2.14, то для любых (£, х) позиционная функция цены У(£,х) равна функции цены в задаче синтеза У(£,х) (теорема 2.15). Доказана следующая теорема
Теорема 2.17. Функция цены задачи синтеза У(£,х) для системы (18) с функционалом (19) удовлетворяет уравнению типа ГЯБА:
тт{НиП2} = 0,
Hj.it, х,И, V*) = V« + шах (V*, АЦ)х + С{Щ, чей(')
Нг^,х, Ц, Ух) = тш{1 + (V., В(£)Л» л =1
(34)
с краевым условием
= (35)
где 1, х; ¿1, </>(•)) — минимаксная функция цены (21), взятая в момент ¿1 и равная *>(•)) = тах{<х,.р) - <р*(р) \р е К", НВ^ОрН ^ !}•
Из уравнения ГЯБА (34), (35) следует оптимальный закон управления, гарантирующий, что при начальном положении х(£) = х значения функционала задачи не превысит У(£, х). Для произвольной позиции системы (й,х):
• если Н\{з,х) = 0, то с#/(в,х) = О,
• если Нг (э,х) > 0, то Н2 (в, х) = 0, и управление и {в, х) имеет скачок в направлении -ВТУХ, величина которого определяется, исходя из условия,
что Н\{з + 0, + 0)) = 0 после применения управления.
В разделах 2.5.3 и 2.5.4 показано, как использовать приведённое правило управления для задач с обобщёнными и быстрыми управлениями.
Для полноценного определения синтеза управления необходимо также исследовать траектории замкнутой системы. В разделе 2.6 рассматриваются два подхода к описанию решения системы, в которую подставлен закон управления. Сначала предлагается рассмотреть разбиение отрезка времени Т точками ту. 4 = т0 < 71 < • • • < тЛг_1 < тдг = ¿1, с диаметром разбиения а = сПат Т. Используется схема с коррекциями движения на разбиении Т и вычисляется функция цены с коррекциями УтЦ,х). Для построения оптимальной траектории в каждый момент времени т; определяется управление по правилу, приведённому после теоремы 2.17. Это управление будет действовать на интервале [п, т<+1). Таким образом, получена реализация управления иа{€) и траектории ха(Ь). Пусть {*/„(*)} — последовательность управлений с ограниченной нормой. Тогда из последовательности (х<7(£)} можно выделить сходящуюся подпоследовательность траекторий при и 0. Предельные траектории в описанной схеме можно считать траекториями замкнутой системы.
Следует отметить, что если на каждом интервале времени брать постоянное управление, то получится схема аппроксимационных и конструктивных движений, описанная в работе [29] для задач с неопределённостью при ограниченном управлении.
Другим подходом является переход к пространственно-временной системе [15, 33]. В работе [5] данный подход был применён к задаче с импульсным управлением без неопределённости. Рассмотрим задачу с неопределённостью. Введём новую независимую переменную £ 6 [0,5] и запишем пространственно-временную систему
ГI = А(з(Ш0и3(0 + В№)и*(0 + с(а(ОМ£МО. (36) \| = «'(0.
Расширенное управление «(О = (и'(£),иг(£)) € [0,1] х Въ где Вх - единичный шар с центром в нуле, причём и' и их не могут одновременно равняться нулю. Связь исходной переменной х с новой переменной у задаётся соотношением у(() - ж(з(£)), а управления связаны соотношением <Ш = их<Щ.
Функционал (19) преобразуется в
Л«(0) = Г + ^(2/(5)). (37)
и о
Смысл пространственно-временной замены состоит в том, что если в исходной системе управление и совершает скачок величины 7 > 0, то в пространственно-временной системе управление и'(в) равно нулю на протяжении 7 единиц времени («время останавливается»), В это время ||иг(8)|| = 1. Если в исходной системе нет скачков управления, то в пространственно-временной системе и"(в) = 1, иг(в) = 0.
В задаче (36), (37) управление ограничено, значит можно воспользоваться методом динамического программирования для задач с неопределённостью [7, 10, 16] и определить синтез управления. При подстановке синтеза в пространственно-временную систему получается дифференциальное включение, решения которого являются траекториями замкнутой системы.
Известно [33], что множество траекторий исходной системы х (в) плотно во множестве траекторий пространственно-временной системы у(£), то есть, любая окрестность траектории пространственно-временной системы (36) содержит траекторию исходной системы (18). Соответствующие траектории пространственно-временной системы можно считать траекториями исходной замкнутой системы.
В конце главы приведены примеры построения синтеза импульсных и быстрых управлений.
В третьей главе описан численный алгоритм, позволяющий построить синтез управления в задачах с импульсным и обобщённым управлением при неопределённости в случае, когда функция цены не может быть найдена аналитически. Алгоритм основан на аппроксимации сопряжённой функции к минимаксной функции цены. Аппроксимация строится в классе кусочно-аффинных выпуклых функций.
Результаты третьей главы опубликованы автором диссертации в работе [37] в соавторстве с научным руководителем А. Н. Дарьиным. Научному руководителю принадлежит общая постановка задачи и рекомендации по поводу выбора класса кусочно-аффинных выпуклых функций для построения аппроксимаций. Доказательства принадлежат автору диссертации.
Рассматривается задача для системы с импульсным управлением при неопределённости (28), (29). Используется представление сопряжённых функций к минимаксной и максиминной функциям цены через операторы 5, Т (33), введённые во второй главе:
УГ&р) = тм<р*(р), [ ;
Для построения оценок функций V*, IV* вводится класс функций Т. Он состоит из кусочно-аффинных выпуклых функций, значения которых на заданном конечном наборе точек {р<Н=1 не превышают заданных величин {/¡}(=1. Набор {ри /¿}|=1 называют параметрами функции из класса Т.
Доказано, что класс Т является замкнутым относительно оператора 5 из (33) (теорема 3.1). Для произвольной функции (р*{р) € Т построение 5(^*0) сводится к построению выпуклой оболочки её надграфика, которое может быть выполнено при помощи алгоритма (ЗшскНиП [20].
Класс Т не замкнут относительно оператора Т из (33), однако доказано (теорема 3.2), что существуют операторы Т_, Т+, замкнутые относительно класса Т, позволяющие построить нижнюю и верхнюю оценки операции Тф*(р) при ф* € Т\ Т-ф*(р) Тф*(р) ^ Т+ф*(р) для всех р. Параметры этих оценок могут быть вычислены из параметров исходной функции ф*(р).
Указанные выше свойства позволяют найти оценки для сопряжённых функций к минимаксной и максиминной функции цены. Доказана следующая теорема:
Теорема 3.3. Пусть функции <р*_(р) 6 Т и <р+(р)_«Е Т - нижняя и верхняя оценки функции <р*(р). Тогда функции VI{г,р) и ИгЩ,р), определяемые формулами
[ у*(^р) = Т^^^Цр),
являются нижней и верхней оценками V* и V?* (38), такими что У*(Ь,р) >
Затем рекуррентным образом можно получить оценки для сопряжённых функций к минимаксной и максиминной функциям цены с коррекциями. В минимаксном случае на каждом из интервалов £ е [7лг,1), к —
21
оценка будет иметь вид:
У* = 5(4,^-1! _ ^.^¿.[гьто^Ь-о.то^^.го]^^ ^ (39)
Переходя от сопряжённой функции к исходной, можно получить верхнюю оценку для минимаксной функции цены с коррекциями и нижнюю оценку для максиминной функции цены с коррекциями (теорема 3.5).
Полученные оценки позволяют сформулировать алгоритм построения синтеза импульсного управления в задаче с неопределённостью (28), (29), описанный в разделе 3.5. На рассматриваемом интервале времени £1] следует задать некоторое разбиение, также следует задать сетку в области сопряжённой переменной р. Для этого разбиения по времени, на заданной сетке следует вычислить аппроксимацию сопряжённой функции к минимаксной функции цены с коррекциями по правилу (39). С её помощью можно найти частные производные аппроксимации функции цены и воспользоваться правилом управления, описанным в Главе 2.
В разделе 3.6 приведены примеры построения синтеза импульсных и быстрых управлений при помощи численного метода, предложенного в третьей главе.
В заключении сформулированы основные результаты, полученные в диссертации:
1. Построены разрывные, непрерывные и гладкие (к раз дифференцируемые) аппроксимации обобщённых управлений с минимальным модулем аппроксимации, её производной, либо её производной к-ого порядка соответственно, которые используются при построении быстрых управлений.
2. Доказан принцип оптимальное™ в задаче синтеза импульсных и быстрых управлений для линейной системы при наличии неизвестной ограниченной помехи. Доказано, что функция цены удовлетворяет неравенству типа Гамильтона-Якоби-Беллмана-Айзекса, и получена стратегия импульсного управления.
3. Получен численный алгоритм построения синтеза импульсного управления при неопределённости, основанный на аппроксимации функции цены.
Литература
1. Айзеке Р. Дифференциальные игры. М.: Мир, 1967.
2. Беллман Р. Динамическое программирование. М.: Издательство иностранной литературы, 1960.
3. Гельфанд И. М., Шилов Г. Е. Обобщенные функции и действия над ними. М.: ФИЗМАТЛИТ, 1959.
4. Гельфанд И. М., Шилов Г. Е. Пространства основных и обобщенных функций. М.: ФИЗМАТЛИТ, 1958.
5. Дарьин А. Я., Куржанский А. Б., Селезнёв А. В. Метод динамического программирования в задаче синтеза импульсных управлений // Дифференциальные уравнения. 2005. Т. 41, №11. С. 1491-1500.
6. Дарьин А. Н., Куржанский А. Б. Быстрые воздействия в задаче синтеза импульсных управлений при неопределённости // Дифференциальные уравнения. 2011. Т. 47. №7. С. 963-971.
7. Красовский Н. Н. Игровые задачи о встрече движений. М.: Наука, 1970.
8. Красовский Н. Н. Об одной задаче оптимального регулирования // ПММ. 1957. Т. 21. т. С. 670-677.
9. Красовский Н. Н. Теория управления движением. М.: Наука, 1968.
10. Куржанский А. Б. Альтернированный интеграл Понтрягина в теории синтеза управлений // Труды МИАН. 1999. Т. 224. С. 234-248.
11. Куржанский А. Б. О синтезе импульсных управлений и теории быстрых управлений // Труды МИАН. 2010. Т. 268. С. 215-230.
12. Куржанский А. Б. Принцип сравнения для уравнений типа Гамиль-тона-Якоби в теории управления // Труды ИММ УрО РАН. 2006. Т. 12, №1. С. 173-183
13. Куржанский А. Б. Управление и наблюдение в условиях неопределённости. М.: Наука, 1977.
14. Куржанский А. Б., Осипов Ю. С. К управлению линейной системой обобщенными воздействиями // Дифференциальные уравнения. 1969. Т. 5, №8. С. 1360-1370.
15. Миллер Б. М. Метод разрывной замены времени в задачах оптимального управления импульсными и дискретно-непрерывными системами // Автомат. и телемех. 1993. №12. С. 3-32.
16. Понтрягин Л. С. К теории дифференциальных игр // УМЫ. 1966. Т. 21, №4. С. 219-274.
17. Рисс Ф., Сёкефальви-Надь Б. Лекции по функциональному анализу. М.: Мир, 1979.
18. Субботин А. И. Минимаксные решения дифференциальных уравнений с частными производными первого порядка // Успехи мат. наук. 1996. Т. 51, №2. С. 105-138.
19. Шварц Л. Математические методы для физических наук. М.: Мир, 1965.
20. Barber С. В., Dobkin D. P., Huhdanpaa H. Т. The Quickhull Algorithm for Convex Hulls // ACM Transactions on Mathematical Software. 1996. V. 22. №4. P. 469-483.
21. Bensoussan A., Lions J. L. Contrôle impulsionnel et inéquations quasi-variationnelles. Paris, Dunod, 1982.
22. Crandall M. G., Lions P. L. Viscosity solutions of Hamilton-Jacobi equations // Trans. Amer. Math. Soc. 1983. №277. P. 1-42.
23. Daryin A. N., Kurzhanski A. B. Impulse Control Inputs and the Theory of Fast Controls // 17th IFAC World Congress, Seoul. 2008.
24. Daryin A. N., Kurzhanski A. B. Nonlinear Feedback Types in Impulse and Fast Control // 9th IFAC Symposium on Nonlinear Control Systems, Toulouse, 2013. P. 235-240.
25. Daryin A. N., Kurzhanski А. В., Minaeva Yu. Yu. On the Theory of Fast Controls under Disturbances // 18th IFAC World Congress, Milan. 2011.
26. Elliott R. J., Kalton N. J. Cauchy problems for certain Isaacs-Bellman equations and games of survival // Transactions of the American Mathematical Society. 1974. V 198. P. 45-72.
27. Evans L. C., Souganidis P. E. Differential Games and Representation Formulas for Solutions of Hamilton-Jacobi-Isaacs Equation // Indiana Univ Math J. 1984. V. 33, №5. P. 773-797.
28. Fleming W. H., Soner H. M. Controlled Markov Processes and Viscosity Solutions. N.Y.: Springer, 1993.
29. Krasovski N. N., Subbotin A. I. Positional Differential Games. SpringerVerlag, 1988.
30. Kurzhanski А. В., Daryin A. N. Dynamic programming for impulse controls 11 Annual Reviews in Control. 2008. V. 32, №2. P. 213-227.
31. Kurzhanski А. В., Varaiya P. Dynamics and Control of Trajectory Tubes. Birkhauser Basel, 2014.
32. Kurzhanski А. В., Varaiya P. On Ellipsoidal Techniques for Reachability Analysis. Part I: External Approximations. Part II: Internal Approximations, Box-Valued Constraints // Optimization methods and software. 2002. V. 17, №2. P. 177-237.
33. Motta M., Rampazzo F. Dynamic programming for nonlinear systems driven by ordinary and impulsive controls // SIAM J. Control and Optimization. 1996. V.34, №1. P. 199-225.
34. Neustadt L. W. Optimization, a moment problem and nonlinear programming // SIAM Journal on Control. 1964. V. 2, №1. P. 33-53.
Публикации автора по теме диссертации
35. Дарьин А. Н., Минаева Ю. Ю. Аппроксимация импульсных управлений физически реализуемыми быстрыми управлениями // Прикладная математика и информатика. М.: МАКС Пресс. 2010. №35. С. 36-45. (Перевод: Daryin A. N., Minaeva Yu. Yu. Approximation of impulse controls by physically realizable fast controls // Computational Mathematics and Modeling. 2011. V. 22. №3. P. 278-287.)
36. Дарьин A. H., Минаева Ю. Ю. Синтез импульсных и быстрых управлений при неопределённости // Доклады РАН. 2011. Т. 441. №5. С. 601-605.
37. Дарьин А. Н., Минаева Ю. Ю. Численный алгоритм решения задачи синтеза импульсных управлениий при неопределённости // Известия РАН. Теория и системы управления. 2013. №3. С. 39-50.
Напечатано с готового оригинал-макета
Подписано в печать 24.12.2014 г. Формат 60x90 1/16. Усл.печл. 1,0. Тираж 80 экз. Заказ 317.
Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 527 к. Тел. 8(495)939-3890/91. Тел./факс 8(495)939-3891.