Синтез управлений при двойных и неоднотипных ограничениях тема автореферата и диссертации по математике, 01.01.02 ВАК РФ
Дарьин, Александр Николаевич
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2004
ГОД ЗАЩИТЫ
|
|
01.01.02
КОД ВАК РФ
|
||
|
Введение
1 Задачи управления при двойном ограничении
1.1 Введение.
1.1.1 Сведение к системе с нулевой линейной динамикой.
1.2 Управление при геометрическом и интегральном ограничении.
1.2.1 Постановка задачи.
1.2.2 Область достижимости.
1.2.3 Область разрешимости.
1.2.4 Метод динамического программирования. Функция цены
1.2.5 Об эллипсоидальной аппроксимации множества достижимости
1.2.6 Примеры.
1.3 Геометрическое ограничение, зависящее от интегрального.
1.3.1 Постановка задачи.
1.3.2 Принцип максимума.
1.3.3 Существование решения.
1.3.4 Единственность решения.
1.3.5 Нахождение оптимальной траектории и управления.
1.3.6 Задача синтеза управлений. Функция цены.
1.3.7 Примеры.
1.4 Иллюстрации.
2 Синтез управлений в условиях неопределенности при двойном ограничении на управление
2.1 Введение.
2.2 Постановка задачи.
2.3 Сведение к задаче без фазового ограничения
2.4 Альтернированный интеграл.
2.4.1 Программные множества разрешимости.
2.4.2 Интегральные суммы.
2.4.3 Случай выпуклого целевого множества.
2.5 Синтез управлений
2.5.1 Функция цены и уравнение Гамильтона-Якоби-Айзекса-Беллмана
2.5.2 Последовательный максимин и минимакс
2.5.3 Эволюционное уравнение.
2.5.4 Синтезирующие стратегии.
2.6 Примеры.
2.7 Вспомогательные утверждения.
2.8 Иллюстрации.
3 Синтез управлений в условиях неопределенности при разнотипных ограничениях на управление и помеху
3.1 Введение
3.2 Постановка задачи.
3.2.1 Сечения множества разрешимости и целевого множества
3.3 Альтернированный интеграл.
3.3.1 Последовательный максимин.
3.3.2 Последовательный минимакс.
3.4 Синтез управлений
3.4.1 Функция цены и уравнение динамического программирования
3.4.2 Последовательный максимин и последовательный минимакс
3.4.3 Эволюционное уравнение и синтезирующие стратегии.
3.5 Одномерный случай.
3.5.1 Эволюция множества разрешимости
3.5.2 Функция цены и синтез управлений.
3.6 Примеры.
3.7 Иллюстрации.
Данная работа посвящена задачам синтеза гарантирующих управлений при неопределенности. Подобные проблемы актуальны в математических моделях высоких технологий. Изучаемые управляемые системы описываются линейными дифференциальными уравнениями, однако задача синтеза при этом нелинейна. Последнее объясняется тем, что синтезирующая стратегия является многозначным отображением, и после ее подстановки в исходные уравнения «просинтезированная» система принимает вид нелинейного дифференциального включения. От гарантирующего управления требуется привести систему на заранее заданное целевое множество, невзирая на возможное воздействие помех, информация о которых исчерпывается указанием возможных границ изменения. Составляющими частями решения задачи при этом являются множество разрешимости, состоящее из всех точек, из которых цель действительно может быть достигнута в любом случае; функция цены, равная минимальному гарантированному расстоянию до целевого множества в конечный момент; и, наконец, синтез управлений — функция текущего положения, указывающая, какие управляющие воздействия должны выбираться в каждом из возможных положений системы.
К настоящему времени разработан широкий спектр методов для решения подобных задач.
Альтернированный интеграл, введенный Л. С. Понтрягиным в статьях [47, 48] и более подробно описанный им в работе [49], позволяет свести вычисление множества разрешимости задачи синтеза гарантирующих управлений к интегрированию многозначных отображений. Этот подход нашел свое отражение в работах Е. Ф. Мищенко, М. С. Никольского, Е. С. Половинкина, Н. X. Розова.
В теории, разработанной Н. Н. Красовским и его сотрудниками [14, 17-25, 58, 62, 72], предложена формализация дифференциальных игр и подробно исследована их структура. При этом, в частности, указано, каким образом можно построить синтезирующую стратегию управления, удерживающую траекторию системы внутри так называемого «стабильного моста» (то есть системы множеств, слабо инвариантной относительно просинтезированной системы) несмотря на действия второго игрока и обеспечивающую таким образом выполнение фазовых ограничений и попадание на целевое множество в требуемый момент времени.
Общим подходом является метод динамического программирования, разработанный Р. Беллманом [4] и примененный к игровым задачам Р. Айзексом [3]. Этот метод заключается в погружении исходной задачи в параметризованный класс аналогичных задач. Оптимальные значения минимизируемого функционала, вычисленные для каждого сочетания параметров, образуют функцию цены. При этом набор параметров, образующих позицию системы, должен быть достаточным для того, чтобы можно было сформулировать принцип оптимальности, выраженный в виде полугруппового свойства для функции цены. Тогда последняя является решением дифференциального уравнения в частных производных, называемого уравнением Гамиль-тона-Якоби-Беллмана-Айзекса (ШВ1), а синтезирующая стратегия находится как множество управлений, на которых достигается экстремум в этом уравнении. Поскольку функция цены очень часто бывает не всюду гладкой, используются различные понятия обобщенного решения уравнения Беллмана, например, вязкостные решения, введенные М. Г. Крэндаллом и П.-Л. Лионсом [68, 67, 79], или минимаксные решения, введенные А. И. Субботиным [55, 56]; см. также [59].
Использование соединения перечисленных подходов позволяет расширить рассматриваемый круг задач и построить конструктивную теорию, направленную на решение задач до конца, то есть до практически реализуемого алгоритма, чему посвящены работы А. Б. Куржанского [28, 29, 73-77]. При построении синтезирующей стратегии в качестве слабо инвариантной системы множество может выступать, например, трубка разрешимости, которая ищется как предел альтернированных интегральных сумм. При этом расстояние до нее является верхним вязкостным решением уравнения Беллмана, а в отдельных случаях совпадает с функцией цены. С целью решения задачи до конца используется аппарат эллипсоидального исчисления [73]: каждая тугая внутренняя эллипсоидальная аппроксимация трубки разрешимости является слабо инвариантной системой множеств, поэтому синтез управлений, построенный прицеливанием на нее, будет решением задачи. Этот синтез может быть выписан в явном виде через параметры эллипсоидальной аппроксимации, поэтому задача синтеза фактически сводится к интегрированию системы обыкновенных дифференциальных уравнений для параметров эллипсоидальной аппроксимации, то есть к эффективному практически реализуемому алгоритму.
Игровым задачам механики посвящена монография Ф. Л. Черноусько и А. А. Ме-ликяна [64].
В принятой теории предполагается, что управление и возмущения принадлежат однотипным классам. Например, геометрические ограничения на входные параметры (называемые также жесткими или мгновенными) означают, что соответствующая величина почти в каждый момент должна находится в заранее заданном непустом множестве. С помощью них учитываются конструктивные возможности управляемого устройства (нельзя отклонять рули более чем на определенный угол, двигатель не может развивать более заданного числа оборотов и т.п.).
Напротив, интегральные, или мягкие, ограничения позволяют в каждый момент времени выбирать произвольное управляющее воздействие при условии, что интеграл от реализовавшейся траектории управления не превысит заранее заданной величины, называемой резервом управления. В терминах мягких ограничений формулируются условия об ограниченности запаса энергии, топлива, сил у управляемого объекта. Системы с интегральными ограничениями на помеху и управление рассматривались в работах [2, 14, 16, 38, 53, 57, 61, 66].
Однако на практике возникают ситуации, когда необходимо налагать на управление одновременно несколько ограничений различных типов, а также выбирать для управления и помехи различные классы ограничений. Постановка задачи с двойным (геометрическим и интегральным) ограничением на управление позволяет учесть как конструктивные особенности системы, не позволяющие реализовать сколь угодно большие значения управления, так и конечный объем ресурсов, расходуемых управлением. Такая постановка рассматривалась в статье [33], однако там шла речь о регулярной дифференциальной игре, то есть фактически предполагалось выполненным условие выметания и задача сводилась к чисто программным конструкциям. Несколько другая постановка — задача об успокоении линейной системы при требовании одновременно наименьшей амплитуды и наименьшего расхода энергии управлением — рассматривалось в работах [5, б, 15]. Отметим, что система с двойным ограничением может быть также проинтерпретирована как система с геометрическим ограничением при стесненных фазовых координатах [27, 30-32].
Выбор разнотипных классов ограничений позволяет отказаться от предположения, что управление и помеха представляют из себя схожие по структуре объекты. Например, стесняя управление двойным ограничением, совершенно необязательно делать то же самое с помехой, о которой может быть известна лишь область возможных ее значений — в этом случае кажется более разумным использовать одно только геометрическое ограничение. Другим примером может быть система, в которой для управления задано множество его возможных значений, а помеха может принимать произвольные значения, но имеет ограниченный резерв: здесь можно принять геометрическое ограничение для управления и интегральное — для помехи.
Целью данной работы было получение теоретического обоснование решения задач синтеза управлений при двойных и неоднотипных ограничениях, так, чтобы в дальнейшем можно было перейти к эффективным численным алгоритмам решения этих задач. При этом построение таких алгоритмов лежит вне тематики работы и будет следующим этапом.
Для достижения поставленной цели используется описанный выше конструктивный подход, основанный на сочетании альтернированного интеграла, экстремальной конструкции и негладкого динамического программирования.
В первой главе диссертации рассматривается задача синтеза управлений для линейной системы без неопределенности при наличии двух ограничений на управление — геометрического и интегрального. Ограничения могут задаваться как независимо друг от друга (раздел 1.2), так и с зависимостью геометрического ограничения от резерва управления по интегральному ограничению (раздел 1.3).
В разделе 1.1 описывается в общем виде задача, которой посвящены последующие два раздела.
Управляемая система задается дифференциальными уравнениями
Здесь х(£) 6 I" — положение системы, и € ЕПр — управление, &(£) € М1— текущий запас энергии управления. Матрицы £?(£) и Д(£) > 0 считаются известными.
Предполагается, что управление стеснено двумя ограничениями. Во-первых, оно может принимать значения только из заранее определенного множества:
1) и е 11?{г).
2)
Такое ограничение называется геометрическим, или «жестким». В зависимости от способа выбора числа ц ^ О можно рассматривать различные задачи. В данной работе анализируются два случая: когда /х — постоянное число (тогда считается /л = 1), и когда оно зависит от текущего резерва (/х = ц(к(1;))).
Во-вторых, управление обязано следить за значением резерва к(Ь) и не допускать его падения ниже определенного уровня. Это «мягкое», или интегральное ограничение. Сочетание геометрического и интегрального ограничений будем называть двойным ограничением. Чтобы обеспечить существование управлений, удовлетворяющих двойному ограничению, предполагается выполненным включение 0 € 7->(^).
Используются два класса управлений: программные управления Ыоь (измеримые функции и(Ь)) и позиционные стратегии Ысь (многозначные отображения Ы(£, х, к), полунепрерывные сверху по фазовым переменным). Величина класса допустимых программных управлений зависит от начального резерва к, поэтому используется обозначение Ыоь(к).
В данной главе преследуются следующие цели: получить необходимые и достаточные условия для программных управлений, приводящих на границу множества достижимости; вычислить функцию цены и построить с ее помощью синтез управлений, гарантирующий попадание на заданное целевое множество; указать способ вычисления множества достижимости.
В разделе 1.2 рассматривается случай ц=1. От управления требуется соблюдать фазовое ограничение к(Ь) ^ 0, эквивалентного интегральному ограничению для программных управлений
Для соблюдения этого требования в определение позиционных стратегий добавляется условие и^, х, к) = {0} при А; < 0.
Пункт 1.2.2 посвящен исследованию множества достижимости. Основной задачей здесь является следующая:
Задача 1.1. Найти область достижимости ^/[¿1] С то есть множество точек х, достижимых системой в конечный момент времени при данном резерве ко из начала координат или произвольного множества М0 С Мп, а также для произвольного направления С 6 Мп указать управление и(-) 6 Иоь{ко), обеспечивающее вывод системы в конечный момент времени на границу множества достижимости
3) в этом направлении, то есть выполнение равенства е,х(ь))=Р(е\ ХаЫ
Множество достижимости при двойном ограничении является выпуклым компактом и содержится в пересечении множеств достижимости при геометрическом ограничении Ас и при интегральном ограничении свойства которых приведены в теореме 1.1. При этом указанное вложение может быть строгим (примеры 1.1 и 1.3 в пункте
Теорема 1.3 дает необходимое и достаточное условие в форме принципа максимума для управлений, приводящих на границу множества достижимости в фиксированном опорном направлении. Поскольку множество достижимости является выпуклым компактом, то этого достаточно, чтобы найти все его точки. Важно отметить, что в отличие от задачи с чисто геометрическим ограничением управление здесь может принимать произвольные значения из
В пункте 1.2.3 рассматривается задача 1.1 в обратном времени, то есть задача разрешимости:
Задача 1.2. Найти область разрешимости УУс/^о] ^ Кп, то есть множество точек х 6 Кп, стартуя из которых система может достигнуть в конечный момент заданное целевое множество М\ С Мп при данном резерве ко, а также указать управление, обеспечивающее включение х^х) € М\.
Решение задачи 1.2 дается теоремой 1.5 в виде необходимого и достаточного условия оптимальности управления. При этом множество разрешимости может быть найдено по формуле
Применению к рассматриваемым задачам метода динамического программирования посвящен пункт 1.2.4. Для этого задачи 1.1 и 1.2 переформулируются в терминах оптимизации расстояния до начального или целевого множества и вводится соответствующая функция цены, которая является решением уравнения Гамиль-тона-Якоби-Беллмана (теоремы 1.8 для задачи достижимости и 1.9 для разрешимо
1.2.6).
ИЫ*о, ко; ¿1 ,Мг) = МХ- ХС1(г0, ко; ¿х).
5) сти). Для задачи разрешимости оно имеет вид1 дУ . (/дУ \ дУп ||2 1 Л с начальным условием к) = в?{х, М{). Вследствие того, что имеется фазовое ограничение к(Ь) ^ 0, помимо начального условия у этого уравнения есть также и краевое условие вида =0 К м ' означающее, что при нулевом резерве управление уже не может влиять на траекторию системы.
Множество разрешимости легко найти, зная функцию цены: это ее множество уровня [73]. Если же множество разрешимости найдено, например из (5), то можно не решая уравнение Гамильтона-Якоби-Беллмана вычислить функцию цены: она равна квадрату расстояния до множества разрешимости (теорема 1.9). То же самое относится и ко множеству достижимости и соответствующей функции цены (теорема 1.6).
В пункте 1.2.5 описывается способ вычисления множества достижимости при двойном ограничении, основанный на методах эллипсоидальной аппроксимации [73]. Построено параметризованное семейство эллипсоидов, дающее в пересечении в точности множество достижимости.
В разделе 1.3 рассматривается задача, в которой управление стеснено геометрическим ограничением, нелинейно зависящим от текущего резерва: и € ц{Щ))Г{г). (6)
Интегральное ограничение при этом задается неявно. А именно, если существует конечная точка к* = вир {А; | ¡¿(к) ^ 0, к < ^(¿о)}, то автоматически выполнено фазовое ограничение &(£) ^ к*, эквивалентное, в свою очередь, интегральному. (Добавление явного интегрального ограничения ничего существенно не изменяет, приводя лишь к появлению дополнительного условия трансверсальности).
При ограничении (6) система (1) фактически становится нелинейной, поскольку
1Уравнение не содержит матрицы линейным преобразованием специального вида можно привести исходную систему к такому виду, что А(Ь) = 0 (см. пункт 1.1.1). То же самое относится и к другим рассматриваемым задачам. после замены и —► ц(к)и принимает вид x(t) = A(t)x(t) + ß(k(t))B(t)u, k(t) = VWHIMI««. 2
R(t)> t eT = [t0,tl\.
7)
В связи с возможностью такой замены удобно кроме классов управлений Kol и Uql с ограничением (6) использовать классы управлений Ц'оь и заданные с геометрическим ограничением вида и €V(t).
Задача 1.7 о нахождении множества достижимости Ag(i) [¿i] дословно повторяет задачу 1.1 (с той лишь разницей, что множество допустимых программных управлений Ыоъ{к) теперь определено с учетом ограничения (6)). Впрочем, более удобным оказывается вместо нее рассматривать задачу о максимизации произвольного линейного непрерывного функционала:
Задача 1.8. Найти допустимое управление и(-) € Uol> доставляющее максимум интегральному функционалу
Для решения этой задачи вначале применяется принцип максимума JI. С. Понтря-гина (теорема 1.15). Далее в теореме 1.17 полученные соотношения конкретизируются для случая эллипсоидального множества V(t).
В пункте 1.3.3 доказывается существование решения задачи 1.8 (теорема 1.23). Доказательство основывается на трех леммах, в которых утверждается соответственно выпуклость, ограниченность и замкнутость множества допустимых управлений
Если в случае выполнения теоремы о существовании решения принципу максимума удовлетворяет только одно управление, то это управление очевидно является оптимальным. Таким образом, в условиях этой теоремы принцип максимума в совокупности с единственностью решения прямой и двойственной системы является достаточным условием оптимальности. Если существует несколько пар (и(£), удовлетворяющих принципу максимума, то в силу существования решения и необходимости принципа максимума среди этих пар будет оптимальное управление. Следовательно, при выполнении условий теоремы о существовании решения для нахождения оптимального управления достаточно перебрать все решения системы из принципа максимума.
UolW.
В пункте 1.3.4 доказана теорема о единственности решения задачи 1.8 при некоторых предположениях на функцию //(•) и при выполнении условия общности положения, заключающегося в том, что для всех чисел 5 > 0 выполнено
Пункт 1.3.5 посвящен отысканию оптимального управления. Для этого отрезок времени Т = [¿о, ¿г] разделяется на два подмножества: в первом геометрическое ограничение неактивно, и соответствующий множитель Лагранжа Л = 0; во втором, напротив, геометрическое ограничение активно, и А > 0.
В случае автономной управляемой системы с монотонной функцией ц(к) в начале траектории А = 0, а затем, начиная с некоторого момента в и до конечного момента А > 0. Для эллипсоидального геометрического ограничения V можно аналитически найти момент в, и, следовательно, оптимальную траекторию управления.
В общем случае таких моментов переключения может быть сколь угодно много, и найти их аналитически не представляется возможным, однако задачу нахождения оптимальной траектории можно свести к решению одномерного нелинейного уравнения для начального значения сопряженной переменной ф. После решения этого уравнения каким-либо численным методом мы получаем полные начальные условия задачи Ко-ши для прямой и двойственной системы, и, следовательно, можем найти оптимальную траекторию.
В пункте 1.3.6 решается задача 1.9 о синтезе управлений, в которой требуется указать позиционную стратегию Ы € И'ы,, при которой решения дифференциального выпущенные из произвольной точки (х(£о)> &(£о)) = (^о^о)» оказываются в конечный момент на минимально возможном расстоянии от целевого множества а также найти это расстояние х, к) для каждой точки (£, х, к) е Т х Кп х Е.
Функция цены х, к) является вязкостным решением уравнения Гамильтона-Якоби-Бех мана с начальным условием У{1\,х,к) = ¿(х,Л4(к)) и равна расстоянию от текущей позиции до множества разрешимости. включения
Во второй главе диссертации рассматривается задача синтеза гарантирующих управлений при двойном ограничении в случае наличия в системе неопределенности, стесненной геометрическим ограничением.
Рассматривается линейная управляемая система
В отличие от (1), здесь присутствует заранее неизвестная помеха г», на которую наложено геометрическое ограничение V € О.(£). Управление, как и раньше, стеснено двойным ограничением: геометрическим (2) и интегральным (3). Здесь матрицу Л(£) также можно считать нулевой, а матрицу С(Ь) — единичной (заменив множество
Как и в первой главе, рассматриваются два класса управлений: программные управления Ыоь(к) и позиционные стратегии Ысь- Поскольку в системе есть неизвестная помеха, то использование позиционных стратегий дает существенно больше возможностей, чем применение программных управлений.
Состояние системы (9) описывается парой (х, к) € Еп+1, что позволяет сформулировать принцип оптимальности [4] для данной задачи. Следовательно, целевое множество и множество разрешимости должны рассматриваться как подмножества Кп+1; однако по ряду причин удобнее работать со множествами в пространстве Кп, для чего вводится понятие сечения.
Пусть в пространстве Мп+1 переменных (х, к) задано множество N. Будем называть сечениями множества N значения следующего многозначного отображения: М{к) = {х € Кп | (х, к) еЛ/"}. Само множество N однозначно восстанавливается по своим сечениям, поскольку является графиком многозначного отображения М{к). При этом выпуклость всех множеств М{к) не означает выпуклости множества N. Этот факт позволяет в некоторых случаях ослабить требование выпуклости целевого множества (и, следовательно, множества разрешимости) до требования выпуклости всех его сечений.
Пусть задано такое непустое целевое множество Л4 С К™, что 1) М.(к\) С Л4(к2), если ^ к2; 2) М{к) = 0 при к < 0; 3) М(к) непрерывно при тех к, где М(к) ф 0; 4) множества М{к) являются выпуклыми компактами. Класс отображений К —» сопуК", обладающих свойствами 1)—4), обозначим через Ш. Часть результатов будет
9) на С(г)Я(г)). приведена для более узкого класса множеств Ш', получаемого заменой свойства 4) на более сильное: 4') множество Л4 является выпуклым.
В разделе 2.2 ставится основная задача второй главы: Задача 2.1. Указать множество разрешимости УУ^о] ^ Кп+1, о также позиционную стратегию управления х, к) е Ыы, такие, что все траектории дифференциального включения начинающиеся в точке &(£))> ¿о ^ ^ ^ ^ ^М» в конечный момент удовлетворяют включению х(¿х) 6 А4(к^\)).
Взятие выпуклой оболочки в (10) не увеличивает возможностей управлению, поскольку оно добавляет исключительно точки, неэффективные с точки зрения управления (в них расходуется большее количество ресурсов). Отметим, что, в отличие от исходной системы (9), дифференциальное включение (10) нелинейно из-за наличия функции х, к). Таким образом, рассматривается задача нелинейного синтеза для системы с исходно линейной структурой.
Раздел 2.3 показывает, как в случае выпуклого множества «М можно получить одно из возможных решений задачи 2.1, вообще не учитывая интегрального ограничения. В самом деле, если конечная точка траектории принадлежит целевому множеству Л4 £ 9Я, то ограничение к(Ь) ^ 0 выполнено автоматически в силу свойства 2) класса 9Я. Это позволяет рассматривать задачу 2.1 как задачу о синтезе управлений в условиях неопределенности при геометрических ограничениях [73, 29]. Если 1А'(£, х, к) — синтез управлений, построенный таким способом, то управление является решением задачи 2.1.
Однако у такого подхода есть существенные недостатки. В частности, если синтез к) обладает экстремальными свойствами, например, минимизирует расстояние до целевого множества, то синтез х, к) уже не будет экстремальным в таком смысле. Кроме того, при этом предполагается выпуклость целевого множества М, а не только его сечений М(к). Поэтому последующие разделы посвящены решению задачи 2.1 с учетом ее специфики, то есть наличия интегрального ограничения.
0;
А; <0.
Раздел 2.4 посвящен построению аналога альтернированного интеграла Л. С. Понт-рягина для данной задачи, следуя работам [48, 1, 40]. Для этой цели вначале определяются множества программной разрешимости — максиминное \У+ и минимаксное 1¥~. Эти множества представляют собой грубые оценки множества разрешимости УУ решаемой задачи сверху и снизу соответственно, поскольку они состоят из тех состояний систему, из которых целевое множество достижимо при заранее известной или, соответственно, неизвестной помехе.
Лемма 2.3 дает явные выражения для множеств программной разрешимости через сечения целевого множества и множество достижимости при двойном ограничении, изученное, в разделе 1.2. Используя эти формулы, строятся альтернированные интегральные суммы. Для этого на отрезке [Мг] вводится разбиение Т = 10. Точки этого разбиения можно интерпретировать как моменты коррекции. В конечный момент интегральные суммы совпадают с целевым множеством. На каждом шаге выбирается ближайший слева момент коррекции и строятся для него программные множества разрешимости. Затем каждое из этих множеств принимается за новое целевое множество, выбирается предыдущий момент коррекции, снова строятся программные множества разрешимости, и так продолжается до тех пор, пока мы не оказываемся в самой левой точке разбиения со множествами, обозначаемыми и — это интегральные суммы, соответствующие разбиению Т. (Отметим, что это подмножества К™, то есть их можно рассматривать как сечения множеств Т^Щ и [£]).
Если при стремлении диаметра разбиения Т к нулю существуют хаусдорфовы пределы интегральных сумм Т+[к, £] и [&,£], то последние называются соответственно верхним и нижним альтернированным интегралом. Если они к тому же совпадают между собой и равны 2[&,£], то это множество называется альтернированным интегралом и совпадает со множеством разрешимости.
В случае выпуклого целевого множества (пункт 2.4.3) классические теоремы о существовании альтернированного интеграла гарантируют существование 2[к, <] при определенных предположениях о непустоте внутренности сечений интегральных сумм (теорема 2.6).
В разделе 2.5 рассматривается задача синтеза гарантирующих управлений. Вначале исследуется вопрос о построении такого управления, которое минимизировало бы в конечный момент расстояние от конца траектории до сечения целевого множества, то есть с1(х(11),М(к(11))). В связи с этим вводится соответствующая функция цены, которая является вязкостным решением уравнения Гамильтона-Якоби-Белл-мана-Айзекса дУ + min max dt ue P(t)«6ß(t)
А; > 0,
Как и в первой главе, помимо начального условия ,х,к) = ¿(х, М(к)) у этого уравнения имеется также и краевое условие dV /dV
-7— + max ( ——, v dt veQ(t) \ dx 0, t0 ^ t < ii, x E k=0 означающее невозможность для управления принимать какие-либо действия при исчерпании резерва. Если найдена функция цены, то управление может быть найдено как множество элементов, на которых достигается минимум в уравнении HJBI. Однако в отличие от задачи без неопределенности, здесь функция цены не обязательно равна расстоянию до сечения множества разрешимости, а только лишь не превосходит последнее (теорема 2.7).
Чтобы избежать необходимости вычислять функцию цены, применена модифицированная экстремальная конструкция. В теореме 2.9 доказано, что множество достижимости при двойном ограничении отличается от пересечения множеств достижимости при интегральном и при геометрическом ограничениях на величину второго порядка малости относительно длины отрезка времени, поэтому многозначное отображение Z[k,t], слабо инвариантное относительно дифференциального включения (10), будет удовлетворять уравнению эволюционного типа [65] lima-1^ IZ[k,t] + oQ(t), (J Zfat + а] - aV(t) П £ (0, (Jfe - -y)aR~\t)) ) = 0, в которое не входит операция вычисления множества достижимости при двойном ограничении.
Теорема 2.12 утверждает, что если слабо инвариантное отображение достаточно гладкое, то квадрат расстояния до него удовлетворяет дифференциальному неравенству min max-v v л i w. и ^ g /пч uep(t) veQ(t) dt
Стратегией l/z(t,x,k), экстремальной к Z[k,t], называется позиционная стратегия, состоящая из элементов, на которых здесь достигается минимум. Из (11) следует, что если начальная точка принадлежит 2[к,Ьо], то и все траектории системы останутся в этом слабо инвариантном множестве. Поскольку множество разрешимости является слабо инвариантным, то стратегия к) представляет собой решение задачи 2.1.
Третья глава диссертации посвящена задаче об управлении системой с неоднотипными ограничениями: управление здесь стеснено геометрическим, а помеха — интегральным ограничением.
Рассматривается линейная управляемая система вида
На управление наложено только геометрическое ограничение и а помеха должна обеспечивать выполнение фазового ограничения k(t) ^ 0, эквивалентного интегральному ограничению
В разделе 3.1 показывается, что, если управлению недоступна информация о текущем значении k(t), то система может быть преобразована так, что ее вид аналогичен (12), но при этом уже известно значения k(t), а матрица C{t) = /. Кроме того, как и в предыдущих главах, матрицу A(t) можно считать нулевой.
В разделе 3.2 приводится постановка основной задачи: Задача 3.1. Для данного целевого множества Ai С Rn х R+ найти множество разрешимости VV[i] и позиционную стратегию управления U(t,x,k) 6 tici, такую, что все его траектории дифференциального включения выпущенные из любой начальной позиции (t,x,k), t G Т, (х, k) € W[t], достигали бы целевое множество Ai в момент времени t\, какова бы ни была измеримая помеха v[t), удовлетворяющая ограничению (13).
Поскольку множество разрешимости здесь как правило является невыпуклым, то как и в предыдущей главе мы будем работать с его сечениями, обозначаемыми W[k, t], и сечениями целевого множества Ai(k).
12)
13)
14)
Решение задачи 3.1 ведется по той же схеме, что и во второй главе. В разделе 3.3 производится построение альтернированного интеграла. Непосредственному применению стандартной схемы мешает то, что помеха не содержится ни в каком множестве и, соответственно, непонятно, какое множество должно участвовать в операции геометрической разности, входящей в выражение для программных множеств разрешимости. В диссертации указанная трудность преодолевается, вычислив множество разрешимости при каждом возможном значении переменной к в конечный момент (при этом множество возможных значений интеграла от помехи является эллипсоидом у/к — 75(£, ¿1)) и взяв затем пересечение этих множеств (поскольку помеха имеет возможность выбрать наихудшее для управления значение к(£1)): игЦк,ЫиМ{-))= П {(мм-^гшт^-у/к^з&г 1)}.
В разделе 3.4 вводится функция цены для экстремальной переформулировки задачи 3.1 и доказывается, что при предположении о ее гладкости она является решением уравнения Гамильтона-Якоби-Беллмана-Айзекса min maxi/+ — = 0, k> 0 dt uev(t) veWL" \\ dx / 1 16 dk J с граничным условием dV/dt + minu€p(t) {dV/dx,u)\k=Q — 0 и начальным условием V(ii, x, к) = d?(x, A4 (к)), и не превосходит квадрата расстояния до сечения множества разрешимости (теорема 3.17).
Если Z\k, t] — слабо инвариантное многозначное отображение, то экстремальной стратегией к нему будет
11 (+ ьл а • /dd?(x,Z[k,t]) \ Uz(t,x,k) = Arg min (-—-,и ). еЯО \ ох /
Эта стратегия гарантирует, что траектории системы, начинающиеся в трубке Z, в последующие моменты не выходят за ее пределы (теорема 3.19).
В разделе 3.5 подробно рассматривается случай одномерного пространства переменной х (фазовое пространство системы (12) при этом двухмерное, потому что кроме х имеется переменная к). Получены явное выражение для альтернированного интеграла (теорема 3.22). Доказано, что функция цены принадлежит классу функций вида (с?(х, [а, b]) + h)2, т.е. определяется всего тремя параметрами (при этом [а, Ъ] = W[fc, £], если h = 0).
Чтобы проиллюстрировать полученные теоретические результаты, в разделах 1.2.6, 1.3.7, 2.6 и 3.6 собраны примеры к соответствующим главам.
В заключении сформулированы основные результаты, полученные в диссертации.
Основные результаты диссертации опубликованы в работах [8-10, 69].
Автор приносит искреннюю благодарность своему научному руководителю Александру Борисовичу Куржанскому за постановку задач, постоянное внимание к работе и ценные советы. Особо следует отметить, что для автора первым источником знаний по используемым в диссертации подходам были лекции А. Б. Куржанского по курсу «Динамическое программирование и процессы управления».
Работа выполнена при частичной финансовой подцержке программы «Университеты России — Фундаментальные исследования» (грант № УР.3.3.07), РФФИ (грант № 03-01-00663) и гранта Президента России по поддержке ведущих научных школ (№ НШ-1889.2003.1).
Основные обозначения
В этом разделе собраны обозначения, используемые в работе.
R — множество вещественных чисел
Еп — n-мерное евклидово пространство х, у) — скалярное произведение векторов х и у ||х|| — евклидова норма вектора х, равная (х, х)* а;||Л — (полу)норма вектора х, равная (х,Ах)* для положительно неотрицательно) определенной матрицы А Ат — транспонированная матрица А
I — единичная матрица, размерность которой ясна из контекста
Щ — n-мерный шар радиуса г с центром в начале координат, равный {х € Mn I ||х|| ^ г} (если размерность понятна из контекста, обозначается также Вг) £ (q, Q) — эллипсоид с центром в точке q и матрицей конфигурации Q:
М) = {х I (е,х-д) < \\e\\Q, ye е r»}.
•) — сопряженная (по Фенхелю) функция к /(•): гю = sup{{e,x)-f(x)} хешп conv /(•) — выпуклая замкнутая оболочка функции f(x), равная f**(x) р(£ I А) — опорная функция множества А в направлении £: р(£ I А) = sup(¿,a;). cl А — замыкание множества А int А — внутренность множества А ri А — относительная внутренность выпуклого множества А diam А — диаметр множества А: diam А = sup ||х||. х€А meas А — мера Лебега множества А ргА х — проекция точки х на множество А
А + В — алгебраическая сумма множеств A vi В:
А + В = {х = а + Ь I аеА,ЬвВ}
А — В — геометрическая разность (Минковского) множеств А и В:
А — В = {я | х + ВСА} h+(X,Y) — хаусдорфово полурасстояние между компактами X и Y: h+(X,Y) = max min Hz-= min {г ^ О I X QY + BA, х€Х y&Y h-(X,Y) = h+(Y,X). h(X, Y) — хаусдорфово расстояние между компактами X и У: h(X,Y) = max{/i+(X, Y), h-(X,Y)}. d(x, A) — евклидово расстояние от точки х до множества А: d(x,A) = h+({x}, А) = inf ||х — а||. о€А
V/(z) — градиент функции /(•), взятый в точке х x(t) — полная производная по времени х[тит2] — сужение функции t x(t) на отрезок [ri, гг] а V Ь — максимальное из чисел а и Ъ a Ab — минимальное из чисел а и b
Заключение
В заключение кратко сформулируем основные результаты работы.
1. Решена задача синтеза для системы с двойным ограничением на управление. В частности, получено явное выражение для функции цены.
2. Для системы с нелинейной зависимостью геометрического ограничения от интегрального доказаны теоремы о существовании и единственности оптимального управления. Получено явное выражение для функции цены.
3. Решена задача синтеза для системы с двойным ограничением на управление при наличии помех, стесненных геометрическим ограничением. В частности, построен аналог схемы альтернированного интеграла Л. С. Понтрягина; получена верхняя оценка для функции цены; указана синтезирующая стратегия, разрешающая задачу.
4. Решена задача синтеза для системы, в которой управление и помеха выбираются в различных классах (геометрические и интегральные ограничения, соответственно). В частности, построен аналог схемы альтернированного интеграла Л. С. Понтрягина; получена верхняя оценка для функции цены; указана синтезирующая стратегия, разрешающая задачу.
1. Азамов А. О. О втором методе Понтрягина в линейных дифференциальных играх преследования // Математический сборник. 1982. Т. 118 (160). № 3 (7). с. 422-430.
2. Азимов А. Я., Гусейнов Ф. В. О некоторых классах дифференциальных игр с интегральными ограничениями // Известия АН СССР. Техническая кибернетика. 1972. № 3. с. 9-16.
3. Айзеке Р. Дифференциальные игры. М.: Мир, 1967.
4. Беллман Р. Динамическое программирование. М.: ИЛ, 1960.
5. Бондаренко В. И., Красовский Н. Н., Филимонов Ю. М. К задаче об успокоении линейной системы // ПММ. 1965. Т. 29. № 5. с. 828-834.
6. Бондаренко В. И., Филимонов Ю. М. О применении линейного программирования к экстремальным задачам теории управления // ПММ. 1968. Т. 32. № 1. с. 147-153.
7. Васильев Ф. П. Методы решения экстремальных задач. М.: Наука, 1981.
8. Дарьин А. Н. Об управлении при двойном ограничении с зависимостью геометрического ограничения от интегрального // Известия РАН. Теория и системы управления. 2003. № 4. с. 21-29.
9. Дарьин А. Н., Куржанский А. Б. Управление в условиях неопределенности при двойных ограничениях // Дифференциальные уравнения. 2003. Т. 39. № 11. с. 1474-1486.
10. Дарьин А. Н., Куржанский А. Б. Нелинейный синтез управления при двойных ограничениях // Дифференциальные уравнения. 2001. Т. 37. № 11. с. 1476-1484.
11. Демьянов В. Ф. Минимакс: производные по направлениям. Л.: Изд-во ЛГУ, 1974.
12. Иванов Г. Е., Половинкин Е. С. О сильно выпуклых линейных дифференциальных играх // Дифференциальные уравнения. 1995. Т. 31. № 10. с. 1641-1648.
13. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа. М.: Наука, 5-е изд., 1981.
14. Красовский Н. Н. Об одной задаче преследования // ПММ. 1963. Т. 27. № 2. с. 244-254.
15. Красовский Н. Н. К задаче об успокоении линейной системы при минимальной интенсивности управления // ПММ. 1965. Т. 29. № 2. с. 218-225.
16. Красовский Н. Н. К задаче преследования в случае линейных однотипных объектов // ПММ. 1966. Т. 30. № 2. с. 209-225.
17. Красовский Н. Н. Теория управления движением. М.: Наука, 1968.
18. Красовский Н. Н. Игровые задачи о встрече движений. М.: Наука, 1970.
19. Красовский Н. Н. Минимаксное поглощение в игре сближения // ПММ. 1971. Т. 35. № 6. с. 945-951.
20. Красовский Н. Н. Дифференциальная игра сближения-уклонения I // Известия АН СССР. Техническая кибернетика. 1973. № 2. с. 3-18.
21. Красовский Н. Н. Дифференциальная игра сближения-уклонения II // Известия АН СССР. Техническая кибернетика. 1973. № 3. с. 22-41.
22. Красовский Н. Н. Дифференциальные игры. Аппроксимационные и формальные модели // Математический сборник. 1978. Т. 107 (149). № 4 (12). с. 541-571.
23. Красовский Н. Н. Управление динамической системой. М.: Наука, 1985.
24. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. М.: Наука, 1974.
25. Красовский Н. Н., Субботин А. И., Ушаков В. Н. Минимаксная дифференциальная игра // Доклады АН СССР. 1972. Т. 206. № 2. с. 277-280.
26. Куржанский А. Б. Управление и наблюдение в условиях неопределенности. М.: Наука, 1977.
27. Куржанский А. Б. Дифференциальные игры сближения при ограниченных фазовых координатах // Доклады АН СССР. 1970. Т. 192. № 3. с. 491-494.
28. Куржанский А. Б. Альтернированный интеграл Понтрягина в теории синтеза управлений // Труды МИАН. 1999. Т. 224. с. 234-248.
29. Куржанский А. Б., Мельников Н. Б. О задаче синтеза управлений: альтернированный интеграл Понтрягина и уравнение Гамильтона-Якоби // Математический сборник. 2000. Т. 191. № 6. с. 69-100.
30. Куржанский А. Б., Никонов О. И. К задаче синтеза стратегий управления. Эволюционные уравнения и многозначное интегрирование // Доклады АН СССР. 1990. Т. 311. № 4. с. 788-793.
31. Куржанский А. Б., Никонов О. И. Эволюционные уравнения для пучков траекторий синтезированных систем управления // Доклады РАН. 1993. Т. 333. № 4. с. 578-581.
32. Куржанский А. Б., Филиппова Т. Ф. Об описании множества выживающих траекторий дифференциального включения // Доклады АН СССР. 1986. Т. 289. № 1. с. 38-41.
33. Лед лев Ю. С. Регулярные дифференциальные игры со смешанными ограничениями на управления // Труды МИАН. 1985. Т. 167. с. 207-215.
34. Мищенко Е. Ф. Задачи преследования и уклонения от встречи в теории дифференциальных игр // Известия АН СССР. Техническая кибернетика. 1971. Т. 5. с. 3-9.
35. Мищенко Е. Ф., Понтрягин Л. С. Линейные дифференциальные игры // Доклады АН СССР. 1967. Т. 174. № 1. с. 27-29.
36. Никайдо X. Выпуклые структуры и математическая экономика. М.: Мир, 1972.
37. Никольский М. С. Нестационарные линейные дифференциальные игры // Вестник МГУ. Сер. матем., механика. 1969. № 3. с. 65-73.
38. Никольский M. С. Прямой метод в линейных дифференциальных играх с общими интегральными ограничениями // Дифференциальные уравнения. 1972. Т. 8. № б. с. 964-971.
39. Никольский М. С. Об альтернированном интеграле Л. С. Понтрягина // Математический сборник. 1981. Т. 126 (158). № 1 (9). с. 136-144.
40. Никольский М. С. О нижнем альтернированном интеграле Понтрягина в линейных дифференциальных играх преследования // Математический сборник. 1985. Т. 128 (170). № 1 (9). с. 35-49.
41. Половинкин Е. С. Неавтономные дифференциальные игры // Дифференциальные уравнения. 1979. Т. 15. № 6. с. 1007-1017.
42. Половинкин Е. С., Иванов Г. Е., Балашов М. В., Константинов Р. В., Хорее А. В. Об одном алгоритме численного решения линейных дифференциальных игр // Математический сборник. 2001. Т. 192. № 10. с. 95-122.
43. Пономарев А. П. Оценка погрешности численного метода построения альтернированного интеграла Понтрягина // Вестник МГУ. Сер. вычисл. матем. и киберн. 1978. Т. 4. с. 37-43.
44. Пономарев А. П., Розов H. X. Устойчивость и сходимость альтернированных сумм Понтрягина // Вестник МГУ. Сер. вычисл. матем. и киберн. 1978. Т. 1. с. 82-90.
45. Пономарев А. П., Розов H. X. О дифференцируемости опорной функции альтернированного интеграла // Математические заметки. 1981. Т. 30. № 6. с. 865-870.
46. Понтрягин Л. С. Обыкновенные дифференциальные уравнения. М.: Наука, 5-е изд., 1982.
47. Понтрягин Л. С. О линейных дифференциальных играх I // Доклады АН СССР. 1967. Т. 174. № 6. с. 1278-1280.
48. Понтрягин Л. С. О линейных дифференциальных играх II // Доклады АН СССР. 1967. Т. 175. № 4. с. 910-912.
49. Понтрягин Л. С. Линейные дифференциальные игры преследования // Математический сборник. 1980. Т. 112 (154). № 3 (7). с. 307-330.
50. Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теория оптимальных процессов. М.: Наука, 1961.
51. Рокафеллар Р. Выпуклый анализ. М.: Мир, 1973.
52. Сансоне Д. Обыкновенные дифференциальные уравнения. М.: ИЛ, 1953.
53. Субботин А. И. К задаче об игровой встрече движений // ПММ. 1967. Т. 31. № 5. с. 834-840.
54. Субботин А. И. Экстремальные стратегии в дифференциальных играх с полной памятью // Доклады АН СССР. 1972. Т. 206. № 3. с. 552-555.
55. Субботин А. И. Минимаксные неравенства и уравнения Гамильтона-Якоби. М.: Наука, 1991.
56. Субботин А. И. Обобщенные решения уравнений в частных производных первого порядка. Перспективы динамической оптимизации. М., И.: Институт компьютерных исследований, 2003.
57. Субботин А. И., Ушаков В. Н. Альтернатива для дифференциальной игры сближения-уклонения при интегральных ограничениях на управления игроков // ПММ. 1975. Т. 39. № 3. с. 387-396.
58. Субботин А. И., Ченцов А. Г. Оптимизация гарантии в задачах управления. М.: Наука, 1981.
59. Субботина Н. Н. Метод динамического программирования для класса локально-липшицевых систем // Доклады РАН. 2003. Т. 389. № 2. с. 1-4.
60. Тихонов А. Н., Васильева А. В., Свешников А. Г. Дифференциальные уравнения. М.: Наука, 1980.
61. Ушаков В. Н. Экстремальные стратегии в дифференциальных играх с интегральными ограничениями // ПММ. 1972. Т. 36. № 1. с. 15-23.
62. Ушаков В. Н. К задаче построения стабильных мостов в дифференциальной игре сближения-уклонения // Известия АН СССР. Техническая кибернетика. 1980. № 4. с. 29-36.
63. Филиппов А. Ф. Дифференциальные уравнения с разрывной правой частью. М.: Наука, 1985.
64. Черноусъко Ф. Л., Меликян А. А. Игровые задачи управления и поиска. М.: Наука, 1978.
65. АиЫп J.-P., Frankowska Н. Set-valued Analysis. Boston: Birkhauser, 1990.
66. Ba§ar Т., Bernhardt P. H°° Optimal Control and Related Minima* Design Problems. SCFA. Boston: Birkhauser, 2nd edition, 1995.
67. Crandall M. G., Evans L. C., Lions P.-L. // Transactions of American Mathematical Society. 1984. V. 282. p. 487-502.
68. Crandall M. G., Lions P.-L. Viscosity solutions of Hamilton-Jacobi equations // Transactions of American Mathematical Society. 1983. V. 277. p. 1-41.
69. Daryin A. Nonlinear synthesis for uncertain systems with diverse types of constraints // Proc. NOLCOS-Ol. V. 2. IFAC, Elsevier Science, St. Petersburg, 2001.
70. Fleming W. H. The convergence problem for differential games // Journal of Mathematical Analysis and Applications. 1961. V. 3. p. 102-116.
71. Fleming W. H., Soner H. M. Controlled Markov Processes and Viscosity Solutions. New York: Springer Verlag, 1993.
72. Krasovski N. N., Subbotin A. I. Positional Differential Games. Springer Verlag, 1988.
73. Kurzhanski А. В., Valyi I. Ellipsoidal Calculus for Estimation and Control. SCFA. Boston: Birkhauser, 1997.
74. Kurzhanski А. В., Varaiya P. Ellipsoidal techniques for reachability analysis. Internal approximation // Systems and Control Letters. 2000. V. 41. p. 201-211.
75. Kurzhanski А. В., Varaiya P. Dynamic optimization for reachability problems // Journal of Optimization Theory and Applications. 2001. V. 108. N. 2. p. 227-251.
76. Kurzhanski А. В., Varaiya P. Ellipsoidal techniques for reachability analysis. Part I: External approximations. Part II: Internal approximations. Box-valued constraints // Optimization methods and software. 2002. V. 17. p. 177-237.
77. Kurzhanski A. B., Varaiya P. On reachability under uncertainty // SIAM Journal on Control. 2002. V. 41. N. 1. p. 181-216.
78. Ky F. Minimax theorems // Proc. Nat. Acad, of Sci. USA. 1953. V. 39. N. 1. p. 42-47.
79. Lions P.-L., Souganidis P. E. Differential games, optimal control and directional derivatives of viscosity solutions of Bellman's and Isaac's equations // SIAM Journal on Control an Optimization. 1995. V. 23. p. 566-583.
80. Varaiya P., Lin J. Existence of saddle points in differential games I I SIAM Journal on Control an Optimization. 1969. V. 7. N. 1. p. 142-157.