Асимптотическая оптимальность по вероятности и почти наверное в задачах линейного регулирования тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Конюхова, Татьяна Андреевна
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
1993
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
РГб 00
1 5 иАШсШ^-Ий ИНСТИТУТ ЭЛЕКТРОННОГО ШБШОСТРОЕНИЯ
На правах рукописи
Конюхова Татьяна. Авдреовна
АСЖШТОТИЧЕСШ (ШТИЫАЛЬНОСТЬ ПО ВЕРОЯТНОСТИ И ПОЧТИ НАВЕРНОЕ В ЗАДАЧАХ ЛИНЕЙНОГО РЕГУЛИРОВАНИЯ
Специальность 01.01.05 - теория вероятностей и математическая статистика
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Москва - 1993
Работа выполнена в московском институте электронного
щшииостросния Научный руководитель: доктор физико-математических наук, профессор В.И.Ротарь
Официазьншз оппонентп: доктор физико-математических наук,
на заседашп: специализированного совета К063.68.05 по присуждению ученой степени кавдщата йизако-татекатичеекзх наук в 'ооновском институте электронного машиностроения»
Ацрос института: 109028, Москва Большой Вузовский лер., д 3/12
С диссертацией ;ло;:шо ознакомиться в библиотеке Московского института электронного машиностроения.
профессор Ю.М.Кабанов кандидат физико-математических наук Э.Л.Пресман
Ведущая организация:
Институт проблем управления РАН
Зацлта диссертации состоится
Учении секретарь специализированного совета, каэдидат флзико-1,;аге:.!атичб-га1Х наук, доцент ГГМ^Л-
П.В.Шнурков
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность теш. Диссертация посвящена проблеме стохастической оптимизации линейных динамических систем управления;. В теории стохастического управления оптимальность традиционно понимается в 'смысле мишплизации по всем допустимым управлениям математического ожидания целевого функционала некоторой динамической системы. В последние годы (в основном с середины 80-х гг.) появился ряд работ, в которых вводилось в некотором сшсле более сильное понятие оптимального управления и решалась соответствующая задача оптимизации для различных моделей. А именно, ставился вопрос о поиске управлений, доставляющих экстремум самому функционалу при всех реализациях случайного процесса, из множества, вероятность которого асимптотически, при большом "времени жизни" системы, близка к единице. При этом давались различные определения оптимальности (оптимальность "в сшсле закона большее чисел","в сшсле центральной предельной те--оремы", оптимальность с вероятностью единица, асимптотическая оптимальность по вероятности).
Асимптотическая оптимальность по вероятности, почти наверное и др. остаются малоизученными в рамках моделей линейного стохастического регулирования, а точнее, исследована лишь оптимальность в очень узком классе допустимых управлений для задачи линейного регулятора с постоянными параметрами. Задачи линейного регулирования, в которых рассматривается оптимальность линейных динамических систем с точки зрения квадратичного критерия качества, составляют довольно большой класс задач оптимального управления. В связи с этим представляется актуальным вопрос исследования асимптотической оптимальности по вероятности и почти наверное в задачах линейного регулирования.
Дель работы - исследование асимптотической оптимальности по вероятности и почта наверное линейных управляемых систем с обратной связью и квадратичным критерием качества как для случая постоянных, так и для случая переменных (зависящих от времени) параметров.
Хороио известным является управление линейной динамической системой, мшшшзирувдее математическое сшдание квадратичного целевого функционала (управление, оптимальное в среднем). При некоторых условиях на параметры системы существует такке так называемый установившийся оптимальный. (в среднем) закон управления на бесконечном интервале времени. Основными задачами диссертации является:
1) исследование асимптотической оптимальности по вероятности оптимального в среднем закона управления в задаче о линейном регуляторе с переменными параметрами;
2) исследование асимптотической оптимальности почти наверное оптимального в среднем закона .управления в задаче линейного регулятора с постоянными параметрами;
3) исследование асимптотической оптимальности почти наверное установившегося оптимального (в среднем) закона управления линейной динамической системой.
Методы исследования. В работе используются методы теории стохастической оптимизации, линейной теории оптимального управления, динамического программирования, теории случайных процессов (в том числе марковских процессов), мартингалъный метод.
Научная новизна. Основная часть работ, в которых рассматривались постановки задач, аналогичные сформулированной в диссертации, относилась к исследованы) однородных марковских процессов с целевым функционалом, имеющим вид средней цены управ-
ления на конечном интервале времени. При этом использовались •в основном два различных метода исследования. ПерЕый метод, связанный с отделением мартингальной части целевого функционала, сводится к наложению таких требований на составлявшие полученного разложения, при которых имеет место соотЕетствувщая сходимость (закон больших чисел, центральная предельная теорема и т. д.)• Это приводит в большинстве случаев (например, в случав неограниченной цены управления) к сильным ограничениям на траектории процесса, а тем самым на класс допустимых управлений, по-роздадщих хгроцесс. Эти ограничения возникает, в частности, при исследовании классической линейной динамической модели о квадратичным функционалом потерь. Использование другого метода, яри ' котором эта задача рассматривается как эргодаческая проблема управления, предполагает- изначальные ограничения на исследуемую модель, такие как ограниченность цены управления в любой момент времени, однородность процесса, ограниченность множества состояний. Ясно, что модель линейного регулятора, в том числе ее неоднородный вариант, не удовлетворяет ®тим требованиям.
В настоящей работе предлояена такая методика доказательства, которая в сочетании с мартингальным подходом позволяет снять ограничения .на.класс допустимых управлений, возникавшие вследствие неограниченности функции цены (квадратичной функции). Кроме того, эта методика позволяет исследовать и неоднородные .линейные модели и мояет быть применена как для моделей с дискретным, так ж дам моделей с непрерывным временем.
Практическая ценность работы. Как уже отмечалось, к модели линейного регулятора сводится большой класс задач оптимального управления, а точнее, оптимального регулирования. Общую задачу оптимального регулирования шгно определить как задачу
поддержания в допустимых пределах отклонения состояния системы от заданного состояния с использованием допустимых управлений с обратной связьа при наличии возмуцени£. "3 том случае, когда постоянно действует случайте возмещения, стремящиеся вывести систему из заданного состояния, задача состоит в разработке структуры обратной связи, с помощью которой с максимальным быстродействием снаяавтск начальные отклонения, а такяе, насколько ото возмогло, компенсируется воздействие возмущений б уста-ковпвиемся состоянии. Многие реальные объекты управления достаточно точно описываются линейными динаь;иче сними моделями. Решение задачи регулирования при нулевой заданно»: точке обеспечивает устойчивость системы, которая является ват.ным аспектом в разработке линейных систем управления с обратной связью. Б лпбо£ практической задаче амплитуда входной переменной, шш управле- . ния, доляна быть ограничена. Для целей такой постановки задачи оптимизации, в которой одновременно учитываются скорость перехода системы в нулевое состояние и величина управления, является эффективным квадратичный критерий. В диссертации показано, при каких условиях на параметры системы, а также предельно достаточных условиях па моменты случайных ошибок существующий метод синтеза линейных систем дает ке только оптимальные в среднем характеристики переходного процесса, но и переводит любое ненулевое начальное состояние в нулевое оптимальным образом с вероятностью единица. Эти результаты могут быть использованы при разработке механпзгав стабилизации в экономке, технике управления летательными аппарата.® и др.
Апробация работы. Основные результаты диссертации опубликованы з пяти работах, еще одна работа находится в печати. Эта результаты также докладывались на Всесоюзной студенческой науч-
но-техкической конфсрешцш {Москва, 1988 г.), на научных сомп-• нарах в Политехническом музее, в ЦЭМИ РАН, ИЛУ РАН.
Структура и объем диссертации. Диссертация состоит яэ введения и'четырех глаз» Объем диссертации - 85 страниц. Список использованной литературы включает 30 наименований.
СОДЕРНАНИЕ ДИССЕРТАЦИИ ■
Во введении приводится обоснование актуальности те™, дается краткое изложение истории исследования вопроса оптимальности динамических систем управления при различных подходах к оптимизации. Приводится краткое изложение основных результатов диссертации, формулируется их новизна.
В главе I приводятся необходимые для дальнейшего изложения известные понятия и результаты теории оптимального управления. В §1 приводятся краткие сведения из теории линейных дискретных систем управления. Дастся определения переходной матрицы системы, экспоненциальной устойчивости, стабилизируемости. управляемости, восстанавливаемости линейных систем. Для систем с переменными параметрами вводятся такке понятая равномерной полной управляемости и равномерной полной восстанавливаемости. Формулируется задача линейного оптимального управления как для детерминированных, так и для стохастических систем. •
От метим здесь общий смысл некоторых из указанных выпе понятий, а такке приведем формулировку ж решение задачи линейного оптимального стохастического управления. .
Рассмотрим систему вида
где - состояние системы в момент £ , принимающее значе-
дая в евклидовом пространстве /\ ^ , - матрицы размера
с1*с1 • ^ - матрицы размера , » "ЬН,
независимые случайные векторы со значениями в Ш = 0 ,
матрицы ковариаций обозначим . Вектор-функция II± ■
со значениями б ¡К , определяющая управление в момент £ - неупрездашцая, т.е. зависит от предыдущих состояний системы: ,...,»2?^). Начальное состояние «ЗГо фиксировано.
Наряду с системой вида (I) рассмотрим так называемую нево-змущаняуз систему - детерминированную систему вида
(2)
Управляемость системы (2) состоит в возможности ее перевода из любого начального состояния в любое конечное состояние за конечное врет. Равномерная управляемость предполагает, кроне того, что время этого перехода и так называемая энергия управления, связанная с этим переходом, практически не зависят от начального :.:омента. (Энергия перехода из одного состояния в момент ¿0 в другое состояние в момент измеряется в соответствии с выражением ¿ЕГ^Д И^Ц^).
Необходимость определения состояния системы (2) по поведению выходной переменной
С3)
приводит к использованию понятия восстанавливаемости. Свойство полной восстанавливаемости состоит в том, что для любого момента -¿о существует такой момент ¿1 ¿о • что» если переменная ^ наблвдается до момента -¿-1, то состояние системы в момент -¿.р может быть определено единствьяным образом. Свойство равномерной полной восстанавливаемости гарантирует, что идентифи-
кация состояния всегда возможна приблизительно в пределах оди-. накового -интервала времени.
Свойства системы (I) во многом определяются свойствами невозмущенной системы (2). Будем говорить, что свойства управляемости, восстанавливаемости, асимптотической устойчивости и т.д. выполнены для системы (I), если они выполнены для невозмущенной системы (2).
Полагая, что выполнено (I), для каждого натурального П. определим целевой функционал
где И -('иСк и - матрицы соответствупщпс размеров, причем С^ неотрицательно определенные, а - положительно определенные матрицы. При этом задача оптимального управления системой (I) состоит в отыскании такого управления с обратной связью (неупревдашцего управления), при котором ми-нншиирубтся математическое ожидание критерия (4). Это управление будем называть управлением, оптимальным в среднем. Хорошо нзвэсгло, что оно имеет вид
где
а У1 симметрические неотрицательно определенные матрицы, удовлетворяющие уравнению Риккати
VLft,П." Сп.
(8)
При некоторых условиях существует также установившийся закон управления, т.е. предел li^n. при Лг*00. Напршер, если система полностью управляема, последовательности матриц
4 А,
С±\ J?-t. ограничены и&I , где &>Q , а I - едишгч-
ная матрица, то решение разностного уравнения (7) с конечным условием (8) при Пг-со сходится к неотрицательно определенной последовательности матриц -Д^ » являющейся решением уравнения
а, следовательно, существует установившийся оптимальный закон
управления вида _ _п
_ . . Ц{Л<ЭС>*.-1) -г{.¿Ц.-1 > (9)
РЬ-ГД +31ЛЛТ%ЛЛ, .
В §1 приводятся такне результаты, относящиеся к исследова-ш экспоненциальной устойчивости установившегося закона, а тад аз его оптимальности в некотором смысле.
В §2 вводится понятие об асимптотической оптимальности по вероятности и почти наверное в задачах динамического управленщ. Приводится изложение основной схемы, даются различные определения оптимальности.
Управление 1Л называется оптимальным в среднем, если для любого управления 1Л
Заметим, что, если при фиксированном П. существует оптимальное в.некотором смысле управление, то оно может зависеть от П , т.е.
а. Следовательно, изменяя П , в общем случае получаем схег.у серий
и №п,а)'Щ.хе символ Ы
обозначает последовательность управлений (п.у.):
Та:сая постановка задачи является, конечно, более общей, чем постановка, для которой в каядый момент времени Ь управление шкет зависеть от ■£. , но не зависит от общего "времени тазнн системы" П. . С другой стороны, в конкретных ситуациях при поиске асимптотически (при больших П ) оптимального пове-
дения разумно при разных П рассматривать единую последовате-. 'льность управляющих функщШ (''W-if*•••), т.е. ограшгчи-Еаться классом "УС тагах п.у. ZL , что для всех
целых ' Ь, tl, /П..
Определение'I. П.у. ££ асимптотически оптимальна по вероятности, если для любой п.у. ^ и лвбого £>0 при П—>ос>
Р(7а (Üa)~fJtCa)>£)-»0. (П)
Определение 2. П.у. асимптотически оптимальна почти наверное (п.н.), если для любой п.у. U
HU/nCU^-Uü"-) >0)=1. (12)
а
Будем такле говорить, что п.у. 1С асимптотически оптимальна по вероятности (или почти наверное; в каком-либо классе управлений, если (II) (или (12)) выполнено для всех п.у. из этого класса.
В §2 вводится также понятие стратегии, в том числе постоянно оптимальной, и приводятся основные условия оптимальности в случае аддитивной функции цены, полученные В.И.Ротарем.
В главе 2 исследуется асимптотическая оптимальность по вероятности в задаче, о линейном регуляторе с переменными параметрами. В §1 Дается постановка задачи в рамках обпей схемы, введенной в §2 главы I. Исследуется управление (5) линейно." системой (I) с целевым функционалом (4).
Рассмотрим выходную переменную вида (3), где - такие квадратные матрицы, что (так как сим-
метрические и неотрицательно определенные, то таите матрицы существуют). В §2 сформулирован Основной результат I, а именно, следующая
Теорема I. Пусть последовательности матриц d^ßt^tfli^t.
ограничена, Л^- , где . Тогда, если система (I)
а) экспоненциально устойчива или
б) равномерно полностью управляет,
к, кто:.:о того, система (I), (3) равномерно полностью восстала-вливаема, то' п.у. и. асимптотически оптимальна по. вероятности.
В §3 приводятся и доказываются некоторые вспомогательные утвсрадспая, необходимые для доказательства основного результата. В том числе с пошщью условий оптимальности, сформулирован-|шх в §2 главы 1 доказывается следующая
Теорема 2. Пусть последовательности матриц ограничены,
, где <о>и и система (I)
а) экспоненциалы» устойчива или
б) равномерно полностью управляема,
и, кроме того, система (I), (3) равномерно полностью восстанавливаема. Пусть также о^ - класс таких п.у. Z¿ , чго
%Е/п(ип)-*0. m)
Тогда п.у. U. /является оптимальной по вероятности в .этом классе, т.е. (13)-влечет (II).
В §4 приводится доказательство основного результата I.
Тахнк образом, в Главе 2 показано, чте управление (5) (то-O-rwft? 00
часе, п.у. li-j U. jn_.i является асимптотически оптимальшли по вероятности в массе всех возмогших неупрездащих управлений при некоторых стандартных условиях.
В главе 3 исследуется асимптотическая оптимальность почти наверное в задаче линейного регулирования с постоянными параметрами. В §1 дается постановка задачи. Рассматривается система вида
где 31 ± - состояние системы в момент ~Ь , принимающее значения в пространстве ¡{\ , .-. управление в момент , принимающее значения в , /¡} ^ - матрицы соответствующих размеров, -ъ=1 ,2.,... - незавпсише случайные векторы со значениями в , причем , матрицу ковариаций обозначим £ . Для каздого натурального Л. определим функция цены
где С >1) - сишетрические положительно определенные матрицы соответствующих размеров-.
Обратился вновь к управлению, оптимальному в среднем для этой задачи. Заметим, что в случае постоянных параметров решение а уравнения Риккати (7) зависит только от разности П~±. Позтому, если уравнение (7) с конечным условием (8) переписать в виде ,
.Л« -АтАтА -А^Ю+ЯЛ^'ДЛг.А+С, ' А0<,
то оптимальное в среднем управление будет иметь вид
, (15)
где Р^-СЯ^Л^Ю'Ш^А.
Ясно также, что существующий при сформулированных в §1 главы I установившийся закон управления является стационарным к имеет вид иь ¿£<.-1) = >
где Р-СПШВТ^' а А- - положительно определенное симметрическое решение уравнения Риккати
А=АТАА-/ГАВФ*ВтАЮ~1ВтЛЛ+С. (16)
Пусть ж - класс управлений, определенный в §2 главы I. Задачей 3 главы является ьияенение условий, при которых последовательность оптимальных в среднем управлений (15) является ас;зжтотичесга"1 оптимальной почти наверное, и условий, при которых п.у. >■ является асимптотически оптимальной ночтл наверное в классе Ж .
Нлге I' I обозначает норму в соответствующем евклидовом пространстве. В §2 формулируется Основной результат П. а именно , сдедуицая
Теорема 3. Пусть система (14) стабилизируема, т.е. существует матрица такая, что , где II-'К - спектральная норма матрицы. Тогда
1) если
для некоторого &>0 , то п.у. к асимптотически оптимальна почти наверное;
2) если <оо
для некоторого <£ >0 , то п.у, К. асимптотически оптимальна почти наверное в кла-
ссе
В §3 приводится доказательство п. I) теоремы 3. В §4 до-каз'-вашея вспомогательные утверждения, необходимые для доказательства п. 2) Теоремы 3, в том числе следующая
Теорема 4. Если рЕ !<3^1 <оо д^ некоторого £>0,
Я.Н.
В §5 приводится доказательство утверждения 2) Теореш 3.
Заметим, что достаточным условием стабшшзируемости системы является ее полная управляемость. Критерии полной управляемости, так же как и полной восстанавливаемости, содержатся в §1 главы I. Эти критерии для систем с постоянными ё переменными параметрами связаны с условиями на матрицы А^ С,
Заметим тагаэ, что доказательство теореш 3 не использует условия асимптотической оптимальности почти наверное, приведенные в §2 главы I. Попытка использования этих условий приводит к сильным ограничениям на класс допусттих управлений.
Глава 4 относится к дополнительному исследований оптимальности установившегося закона управления для скалярных линейных систем, Оптимальность установившегося закона для детерминированных систем понимается в смысле минимизации а •
йт И х[С±х*,+г111)±иъ.
а-»оо ¿«л. -ь -с с ъ *. -с
В стохастическом случае оптимальность установившегося закола
могбт рассматриваться в смысле минимизации
Й&еллл.
Для случая постоянных параметров минимальное значение этого выражения равно , где А - решение уравнения (16). Однако в случае переменных параметров ясно, что предел (17) может не существовать. Поэтому можно исследовать оптимальность установившегося закона управления с точки зрения минимизации
йплзирЕ^Сг^Х
П.-+0О а
В главе 4 приводится пример задачи линейного регулирования с переменными параметрами, в которой не существует предела (17) для установившегося закона управления, но для этого закона мог-ко установить- асимптотическую оптимальность почти наверное. В
§1 приводится результат об асимптотической оптимальности для скалярных задач линейного регулирования, который дополтет результаты глав 2 и 3. В §2 исследуется асимптотическая оптимальность почти наварное установившегося закона управления в некотором специальном случае, и в §3 приводится указанный выае пример.
Основные резудхтаты диссертации опубликованы в следующих работах:
1. Конюхова Т.А., Ротарь Б Л. Об оптимальных по вероятности решениях задачи о линейном стохастическом регуляторе. - В сб. "ВорояхностЕше задачи дискретной математики", М.; ШЭМ,
с. I3I-I35. .
2. Конюхова Т.А., Ротарь Е.И. Оптимальное по вероятности стохастическое управление .линейкой системой с квадратичным функционалом потерь. - В сб. "Вероятностные задачи дискретной математики", П.: МШ, 1968, с. XII—114.
3. Конюхова Т.к., Ротарь В.И. Об оптпкашшх по вероятности решениях задачи о лилейном стохастическом регуляторе, - Тези-си Есосоазной студенческой каучно-техничоской конференции "Автоматизация *проектяровг.ния и конструирования в электронном машиностроении" (28-30 апреля 198Б г.), 11. t ШШ, 1988, о. 53.
4. Konwkotra Т.А., Roiaz.' t-f Г. AsimploLcatfy obUrnalin. ргооо6Ш{у ofld. oimasi мгеРу ¿onttods Joz ide /ineot f&ocki xriik. л ouadto£/c- ccH .-In "Two popezs an . osympioiicai срЦтаИИу ¿П. pzoSa&i/i&f andafoi&sl SuZJZOf. Moseour CEHj Д/usSR , 499i J f>. 22**0. .
5. Конюхова Т.А., Ротарь В.И. Управления, асимптотически опти-.\;алыше по вероятности и почти наверное в эавдче о линейном регуляторе. - Автоматика и телемеханика, 1992, 5, с. 65-78.