Асимптотическая оптимальность по вероятности и почти наверное в задачах линейного регулирования

Конюхова, Татьяна Андреевна

Асимптотическая оптимальность по вероятности и почти наверное в задачах линейного регулирования тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Конюхова, Татьяна Андреевна АВТОР

кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ

Москва МЕСТО ЗАЩИТЫ

1993 ГОД ЗАЩИТЫ

01.01.05 КОД ВАК РФ

Автореферат по математике на тему «Асимптотическая оптимальность по вероятности и почти наверное в задачах линейного регулирования»

Автореферат диссертации на тему "Асимптотическая оптимальность по вероятности и почти наверное в задачах линейного регулирования"

РГб 00

1 5 иАШсШ^-Ий ИНСТИТУТ ЭЛЕКТРОННОГО ШБШОСТРОЕНИЯ

На правах рукописи

Конюхова Татьяна. Авдреовна

АСЖШТОТИЧЕСШ (ШТИЫАЛЬНОСТЬ ПО ВЕРОЯТНОСТИ И ПОЧТИ НАВЕРНОЕ В ЗАДАЧАХ ЛИНЕЙНОГО РЕГУЛИРОВАНИЯ

Специальность 01.01.05 - теория вероятностей и математическая статистика

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Москва - 1993

Работа выполнена в московском институте электронного

щшииостросния Научный руководитель: доктор физико-математических наук, профессор В.И.Ротарь

Официазьншз оппонентп: доктор физико-математических наук,

на заседашп: специализированного совета К063.68.05 по присуждению ученой степени кавдщата йизако-татекатичеекзх наук в 'ооновском институте электронного машиностроения»

Ацрос института: 109028, Москва Большой Вузовский лер., д 3/12

С диссертацией ;ло;:шо ознакомиться в библиотеке Московского института электронного машиностроения.

профессор Ю.М.Кабанов кандидат физико-математических наук Э.Л.Пресман

Ведущая организация:

Институт проблем управления РАН

Зацлта диссертации состоится

Учении секретарь специализированного совета, каэдидат флзико-1,;аге:.!атичб-га1Х наук, доцент ГГМ^Л-

П.В.Шнурков

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность теш. Диссертация посвящена проблеме стохастической оптимизации линейных динамических систем управления;. В теории стохастического управления оптимальность традиционно понимается в 'смысле мишплизации по всем допустимым управлениям математического ожидания целевого функционала некоторой динамической системы. В последние годы (в основном с середины 80-х гг.) появился ряд работ, в которых вводилось в некотором сшсле более сильное понятие оптимального управления и решалась соответствующая задача оптимизации для различных моделей. А именно, ставился вопрос о поиске управлений, доставляющих экстремум самому функционалу при всех реализациях случайного процесса, из множества, вероятность которого асимптотически, при большом "времени жизни" системы, близка к единице. При этом давались различные определения оптимальности (оптимальность "в сшсле закона большее чисел","в сшсле центральной предельной те--оремы", оптимальность с вероятностью единица, асимптотическая оптимальность по вероятности).

Асимптотическая оптимальность по вероятности, почти наверное и др. остаются малоизученными в рамках моделей линейного стохастического регулирования, а точнее, исследована лишь оптимальность в очень узком классе допустимых управлений для задачи линейного регулятора с постоянными параметрами. Задачи линейного регулирования, в которых рассматривается оптимальность линейных динамических систем с точки зрения квадратичного критерия качества, составляют довольно большой класс задач оптимального управления. В связи с этим представляется актуальным вопрос исследования асимптотической оптимальности по вероятности и почти наверное в задачах линейного регулирования.

Дель работы - исследование асимптотической оптимальности по вероятности и почта наверное линейных управляемых систем с обратной связью и квадратичным критерием качества как для случая постоянных, так и для случая переменных (зависящих от времени) параметров.

Хороио известным является управление линейной динамической системой, мшшшзирувдее математическое сшдание квадратичного целевого функционала (управление, оптимальное в среднем). При некоторых условиях на параметры системы существует такке так называемый установившийся оптимальный. (в среднем) закон управления на бесконечном интервале времени. Основными задачами диссертации является:

1) исследование асимптотической оптимальности по вероятности оптимального в среднем закона управления в задаче о линейном регуляторе с переменными параметрами;

2) исследование асимптотической оптимальности почти наверное оптимального в среднем закона .управления в задаче линейного регулятора с постоянными параметрами;

3) исследование асимптотической оптимальности почти наверное установившегося оптимального (в среднем) закона управления линейной динамической системой.

Методы исследования. В работе используются методы теории стохастической оптимизации, линейной теории оптимального управления, динамического программирования, теории случайных процессов (в том числе марковских процессов), мартингалъный метод.

Научная новизна. Основная часть работ, в которых рассматривались постановки задач, аналогичные сформулированной в диссертации, относилась к исследованы) однородных марковских процессов с целевым функционалом, имеющим вид средней цены управ-

ления на конечном интервале времени. При этом использовались •в основном два различных метода исследования. ПерЕый метод, связанный с отделением мартингальной части целевого функционала, сводится к наложению таких требований на составлявшие полученного разложения, при которых имеет место соотЕетствувщая сходимость (закон больших чисел, центральная предельная теорема и т. д.)• Это приводит в большинстве случаев (например, в случав неограниченной цены управления) к сильным ограничениям на траектории процесса, а тем самым на класс допустимых управлений, по-роздадщих хгроцесс. Эти ограничения возникает, в частности, при исследовании классической линейной динамической модели о квадратичным функционалом потерь. Использование другого метода, яри ' котором эта задача рассматривается как эргодаческая проблема управления, предполагает- изначальные ограничения на исследуемую модель, такие как ограниченность цены управления в любой момент времени, однородность процесса, ограниченность множества состояний. Ясно, что модель линейного регулятора, в том числе ее неоднородный вариант, не удовлетворяет ®тим требованиям.

В настоящей работе предлояена такая методика доказательства, которая в сочетании с мартингальным подходом позволяет снять ограничения .на.класс допустимых управлений, возникавшие вследствие неограниченности функции цены (квадратичной функции). Кроме того, эта методика позволяет исследовать и неоднородные .линейные модели и мояет быть применена как для моделей с дискретным, так ж дам моделей с непрерывным временем.

Практическая ценность работы. Как уже отмечалось, к модели линейного регулятора сводится большой класс задач оптимального управления, а точнее, оптимального регулирования. Общую задачу оптимального регулирования шгно определить как задачу

поддержания в допустимых пределах отклонения состояния системы от заданного состояния с использованием допустимых управлений с обратной связьа при наличии возмуцени£. "3 том случае, когда постоянно действует случайте возмещения, стремящиеся вывести систему из заданного состояния, задача состоит в разработке структуры обратной связи, с помощью которой с максимальным быстродействием снаяавтск начальные отклонения, а такяе, насколько ото возмогло, компенсируется воздействие возмущений б уста-ковпвиемся состоянии. Многие реальные объекты управления достаточно точно описываются линейными динаь;иче сними моделями. Решение задачи регулирования при нулевой заданно»: точке обеспечивает устойчивость системы, которая является ват.ным аспектом в разработке линейных систем управления с обратной связью. Б лпбо£ практической задаче амплитуда входной переменной, шш управле- . ния, доляна быть ограничена. Для целей такой постановки задачи оптимизации, в которой одновременно учитываются скорость перехода системы в нулевое состояние и величина управления, является эффективным квадратичный критерий. В диссертации показано, при каких условиях на параметры системы, а также предельно достаточных условиях па моменты случайных ошибок существующий метод синтеза линейных систем дает ке только оптимальные в среднем характеристики переходного процесса, но и переводит любое ненулевое начальное состояние в нулевое оптимальным образом с вероятностью единица. Эти результаты могут быть использованы при разработке механпзгав стабилизации в экономке, технике управления летательными аппарата.® и др.

Апробация работы. Основные результаты диссертации опубликованы з пяти работах, еще одна работа находится в печати. Эта результаты также докладывались на Всесоюзной студенческой науч-

но-техкической конфсрешцш {Москва, 1988 г.), на научных сомп-• нарах в Политехническом музее, в ЦЭМИ РАН, ИЛУ РАН.

Структура и объем диссертации. Диссертация состоит яэ введения и'четырех глаз» Объем диссертации - 85 страниц. Список использованной литературы включает 30 наименований.

СОДЕРНАНИЕ ДИССЕРТАЦИИ ■

Во введении приводится обоснование актуальности те™, дается краткое изложение истории исследования вопроса оптимальности динамических систем управления при различных подходах к оптимизации. Приводится краткое изложение основных результатов диссертации, формулируется их новизна.

В главе I приводятся необходимые для дальнейшего изложения известные понятия и результаты теории оптимального управления. В §1 приводятся краткие сведения из теории линейных дискретных систем управления. Дастся определения переходной матрицы системы, экспоненциальной устойчивости, стабилизируемости. управляемости, восстанавливаемости линейных систем. Для систем с переменными параметрами вводятся такке понятая равномерной полной управляемости и равномерной полной восстанавливаемости. Формулируется задача линейного оптимального управления как для детерминированных, так и для стохастических систем. •

От метим здесь общий смысл некоторых из указанных выпе понятий, а такке приведем формулировку ж решение задачи линейного оптимального стохастического управления. .

Рассмотрим систему вида

где - состояние системы в момент £ , принимающее значе-

дая в евклидовом пространстве /\ ^ , - матрицы размера

с1*с1 • ^ - матрицы размера , » "ЬН,

независимые случайные векторы со значениями в Ш = 0 ,

матрицы ковариаций обозначим . Вектор-функция II± ■

со значениями б ¡К , определяющая управление в момент £ - неупрездашцая, т.е. зависит от предыдущих состояний системы: ,...,»2?^). Начальное состояние «ЗГо фиксировано.

Наряду с системой вида (I) рассмотрим так называемую нево-змущаняуз систему - детерминированную систему вида

(2)

Управляемость системы (2) состоит в возможности ее перевода из любого начального состояния в любое конечное состояние за конечное врет. Равномерная управляемость предполагает, кроне того, что время этого перехода и так называемая энергия управления, связанная с этим переходом, практически не зависят от начального :.:омента. (Энергия перехода из одного состояния в момент ¿0 в другое состояние в момент измеряется в соответствии с выражением ¿ЕГ^Д И^Ц^).

Необходимость определения состояния системы (2) по поведению выходной переменной

С3)

приводит к использованию понятия восстанавливаемости. Свойство полной восстанавливаемости состоит в том, что для любого момента -¿о существует такой момент ¿1 ¿о • что» если переменная ^ наблвдается до момента -¿-1, то состояние системы в момент -¿.р может быть определено единствьяным образом. Свойство равномерной полной восстанавливаемости гарантирует, что идентифи-

кация состояния всегда возможна приблизительно в пределах оди-. накового -интервала времени.

Свойства системы (I) во многом определяются свойствами невозмущенной системы (2). Будем говорить, что свойства управляемости, восстанавливаемости, асимптотической устойчивости и т.д. выполнены для системы (I), если они выполнены для невозмущенной системы (2).

Полагая, что выполнено (I), для каждого натурального П. определим целевой функционал

где И -('иСк и - матрицы соответствупщпс размеров, причем С^ неотрицательно определенные, а - положительно определенные матрицы. При этом задача оптимального управления системой (I) состоит в отыскании такого управления с обратной связью (неупревдашцего управления), при котором ми-нншиирубтся математическое ожидание критерия (4). Это управление будем называть управлением, оптимальным в среднем. Хорошо нзвэсгло, что оно имеет вид

где

а У1 симметрические неотрицательно определенные матрицы, удовлетворяющие уравнению Риккати

VLft,П." Сп.

(8)

При некоторых условиях существует также установившийся закон управления, т.е. предел li^n. при Лг*00. Напршер, если система полностью управляема, последовательности матриц

4 А,

С±\ J?-t. ограничены и&I , где &>Q , а I - едишгч-

ная матрица, то решение разностного уравнения (7) с конечным условием (8) при Пг-со сходится к неотрицательно определенной последовательности матриц -Д^ » являющейся решением уравнения

а, следовательно, существует установившийся оптимальный закон

управления вида _ _п

_ . . Ц{Л<ЭС>*.-1) -г{.¿Ц.-1 > (9)

РЬ-ГД +31ЛЛТ%ЛЛ, .

В §1 приводятся такне результаты, относящиеся к исследова-ш экспоненциальной устойчивости установившегося закона, а тад аз его оптимальности в некотором смысле.

В §2 вводится понятие об асимптотической оптимальности по вероятности и почти наверное в задачах динамического управленщ. Приводится изложение основной схемы, даются различные определения оптимальности.

Управление 1Л называется оптимальным в среднем, если для любого управления 1Л

Заметим, что, если при фиксированном П. существует оптимальное в.некотором смысле управление, то оно может зависеть от П , т.е.

а. Следовательно, изменяя П , в общем случае получаем схег.у серий

и №п,а)'Щ.хе символ Ы

обозначает последовательность управлений (п.у.):

Та:сая постановка задачи является, конечно, более общей, чем постановка, для которой в каядый момент времени Ь управление шкет зависеть от ■£. , но не зависит от общего "времени тазнн системы" П. . С другой стороны, в конкретных ситуациях при поиске асимптотически (при больших П ) оптимального пове-

дения разумно при разных П рассматривать единую последовате-. 'льность управляющих функщШ (''W-if*•••), т.е. ограшгчи-Еаться классом "УС тагах п.у. ZL , что для всех

целых ' Ь, tl, /П..

Определение'I. П.у. ££ асимптотически оптимальна по вероятности, если для любой п.у. ^ и лвбого £>0 при П—>ос>

Р(7а (Üa)~fJtCa)>£)-»0. (П)

Определение 2. П.у. асимптотически оптимальна почти наверное (п.н.), если для любой п.у. U

HU/nCU^-Uü"-) >0)=1. (12)

Будем такле говорить, что п.у. 1С асимптотически оптимальна по вероятности (или почти наверное; в каком-либо классе управлений, если (II) (или (12)) выполнено для всех п.у. из этого класса.

В §2 вводится также понятие стратегии, в том числе постоянно оптимальной, и приводятся основные условия оптимальности в случае аддитивной функции цены, полученные В.И.Ротарем.

В главе 2 исследуется асимптотическая оптимальность по вероятности в задаче, о линейном регуляторе с переменными параметрами. В §1 Дается постановка задачи в рамках обпей схемы, введенной в §2 главы I. Исследуется управление (5) линейно." системой (I) с целевым функционалом (4).

Рассмотрим выходную переменную вида (3), где - такие квадратные матрицы, что (так как сим-

метрические и неотрицательно определенные, то таите матрицы существуют). В §2 сформулирован Основной результат I, а именно, следующая

Теорема I. Пусть последовательности матриц d^ßt^tfli^t.

ограничена, Л^- , где . Тогда, если система (I)

а) экспоненциально устойчива или

б) равномерно полностью управляет,

к, кто:.:о того, система (I), (3) равномерно полностью восстала-вливаема, то' п.у. и. асимптотически оптимальна по. вероятности.

В §3 приводятся и доказываются некоторые вспомогательные утвсрадспая, необходимые для доказательства основного результата. В том числе с пошщью условий оптимальности, сформулирован-|шх в §2 главы 1 доказывается следующая

Теорема 2. Пусть последовательности матриц ограничены,

, где <о>и и система (I)

а) экспоненциалы» устойчива или

б) равномерно полностью управляема,

и, кроме того, система (I), (3) равномерно полностью восстанавливаема. Пусть также о^ - класс таких п.у. Z¿ , чго

%Е/п(ип)-*0. m)

Тогда п.у. U. /является оптимальной по вероятности в .этом классе, т.е. (13)-влечет (II).

В §4 приводится доказательство основного результата I.

Тахнк образом, в Главе 2 показано, чте управление (5) (то-O-rwft? 00

часе, п.у. li-j U. jn_.i является асимптотически оптимальшли по вероятности в массе всех возмогших неупрездащих управлений при некоторых стандартных условиях.

В главе 3 исследуется асимптотическая оптимальность почти наверное в задаче линейного регулирования с постоянными параметрами. В §1 дается постановка задачи. Рассматривается система вида

где 31 ± - состояние системы в момент ~Ь , принимающее значения в пространстве ¡{\ , .-. управление в момент , принимающее значения в , /¡} ^ - матрицы соответствующих размеров, -ъ=1 ,2.,... - незавпсише случайные векторы со значениями в , причем , матрицу ковариаций обозначим £ . Для каздого натурального Л. определим функция цены

где С >1) - сишетрические положительно определенные матрицы соответствующих размеров-.

Обратился вновь к управлению, оптимальному в среднем для этой задачи. Заметим, что в случае постоянных параметров решение а уравнения Риккати (7) зависит только от разности П~±. Позтому, если уравнение (7) с конечным условием (8) переписать в виде ,

.Л« -АтАтА -А^Ю+ЯЛ^'ДЛг.А+С, ' А0<,

то оптимальное в среднем управление будет иметь вид

, (15)

где Р^-СЯ^Л^Ю'Ш^А.

Ясно также, что существующий при сформулированных в §1 главы I установившийся закон управления является стационарным к имеет вид иь ¿£<.-1) = >

где Р-СПШВТ^' а А- - положительно определенное симметрическое решение уравнения Риккати

А=АТАА-/ГАВФ*ВтАЮ~1ВтЛЛ+С. (16)

Пусть ж - класс управлений, определенный в §2 главы I. Задачей 3 главы является ьияенение условий, при которых последовательность оптимальных в среднем управлений (15) является ас;зжтотичесга"1 оптимальной почти наверное, и условий, при которых п.у. >■ является асимптотически оптимальной ночтл наверное в классе Ж .

Нлге I' I обозначает норму в соответствующем евклидовом пространстве. В §2 формулируется Основной результат П. а именно , сдедуицая

Теорема 3. Пусть система (14) стабилизируема, т.е. существует матрица такая, что , где II-'К - спектральная норма матрицы. Тогда

1) если

для некоторого &>0 , то п.у. к асимптотически оптимальна почти наверное;

2) если <оо

для некоторого <£ >0 , то п.у, К. асимптотически оптимальна почти наверное в кла-

ссе

В §3 приводится доказательство п. I) теоремы 3. В §4 до-каз'-вашея вспомогательные утверждения, необходимые для доказательства п. 2) Теоремы 3, в том числе следующая

Теорема 4. Если рЕ !<3^1 <оо д^ некоторого £>0,

Я.Н.

В §5 приводится доказательство утверждения 2) Теореш 3.

Заметим, что достаточным условием стабшшзируемости системы является ее полная управляемость. Критерии полной управляемости, так же как и полной восстанавливаемости, содержатся в §1 главы I. Эти критерии для систем с постоянными ё переменными параметрами связаны с условиями на матрицы А^ С,

Заметим тагаэ, что доказательство теореш 3 не использует условия асимптотической оптимальности почти наверное, приведенные в §2 главы I. Попытка использования этих условий приводит к сильным ограничениям на класс допусттих управлений.

Глава 4 относится к дополнительному исследований оптимальности установившегося закона управления для скалярных линейных систем, Оптимальность установившегося закона для детерминированных систем понимается в смысле минимизации а •

йт И х[С±х*,+г111)±иъ.

а-»оо ¿«л. -ь -с с ъ *. -с

В стохастическом случае оптимальность установившегося закола

могбт рассматриваться в смысле минимизации

Й&еллл.

Для случая постоянных параметров минимальное значение этого выражения равно , где А - решение уравнения (16). Однако в случае переменных параметров ясно, что предел (17) может не существовать. Поэтому можно исследовать оптимальность установившегося закона управления с точки зрения минимизации

йплзирЕ^Сг^Х

П.-+0О а

В главе 4 приводится пример задачи линейного регулирования с переменными параметрами, в которой не существует предела (17) для установившегося закона управления, но для этого закона мог-ко установить- асимптотическую оптимальность почти наверное. В

§1 приводится результат об асимптотической оптимальности для скалярных задач линейного регулирования, который дополтет результаты глав 2 и 3. В §2 исследуется асимптотическая оптимальность почти наварное установившегося закона управления в некотором специальном случае, и в §3 приводится указанный выае пример.

Основные резудхтаты диссертации опубликованы в следующих работах:

1. Конюхова Т.А., Ротарь Б Л. Об оптимальных по вероятности решениях задачи о линейном стохастическом регуляторе. - В сб. "ВорояхностЕше задачи дискретной математики", М.; ШЭМ,

с. I3I-I35. .

2. Конюхова Т.А., Ротарь Е.И. Оптимальное по вероятности стохастическое управление .линейкой системой с квадратичным функционалом потерь. - В сб. "Вероятностные задачи дискретной математики", П.: МШ, 1968, с. XII—114.

3. Конюхова Т.к., Ротарь В.И. Об оптпкашшх по вероятности решениях задачи о лилейном стохастическом регуляторе, - Тези-си Есосоазной студенческой каучно-техничоской конференции "Автоматизация *проектяровг.ния и конструирования в электронном машиностроении" (28-30 апреля 198Б г.), 11. t ШШ, 1988, о. 53.

4. Konwkotra Т.А., Roiaz.' t-f Г. AsimploLcatfy obUrnalin. ргооо6Ш{у ofld. oimasi мгеРу ¿onttods Joz ide /ineot f&ocki xriik. л ouadto£/c- ccH .-In "Two popezs an . osympioiicai срЦтаИИу ¿П. pzoSa&i/i&f andafoi&sl SuZJZOf. Moseour CEHj Д/usSR , 499i J f>. 22**0. .

5. Конюхова Т.А., Ротарь В.И. Управления, асимптотически опти-.\;алыше по вероятности и почти наверное в эавдче о линейном регуляторе. - Автоматика и телемеханика, 1992, 5, с. 65-78.