Информационный подход к задачам оптимизации и адаптивного управления дискретными стохастическими системами тема автореферата и диссертации по математике, 01.01.11 ВАК РФ
Назин, Александр Викторович
АВТОР
|
||||
доктора физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
1995
ГОД ЗАЩИТЫ
|
|
01.01.11
КОД ВАК РФ
|
||
|
ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ РА.Н
РГб ОА
- 0 МАП 1995
на правах рукописи
НАЗИН Александр Викторович
ИНФОРМАЦИОННЫЙ ПОДХОД К ЗАДАЧАМ ОПТИМИЗАЦИИ И АДАПТИВНОГО УПРАВЛЕНИЯ ДИСКРЕТНЫМИ СТОХАСТИЧЕСКИМИ СИСТЕМАМИ
Специальность 01.01.11 - Системный анализ и
автоматическое управление
АВТОРЕФЕРАТ на соискание ученой степени доктора физико-математических наук
Москва - 1995
Работа выполнена в Институте проблем управления РАН.
Официальные оппоненты: доктор физико-математических наук Н.А.Бобылев доктор физико-математических наук А.Ю.Веретенников доктор физико-математических наук В.Б.Колмановский
Ведущая организация: Институт системного анализа РАН.
Защита состоится "/ " ........ 1995 г.- в $ ч. на оаседа-
нии Диссертационного совета Д 002.68.03 при Институте проблем управления (117806 Москва, ул. Профсоюзная, д. 65).
С диссертацией можно ознакомиться в библиотеке ИПУ.
Автореферат разослан " "_1995 г.
Ученый секретарь Диссертационного совета кандидат технических наук
С.А.Власов
Общая характеристика работы
Актуальность работы. Диссертационная работа посвящена распространению информационного подхода, развитого в математической статистике и теории информации, на задачи оптимизации п адаптивного управления дискретными стохастическими системами. Он направлен на решение двух основных проблем: получение информационных нижних границ и оптимальных алгоритмов для рассматриваемого класса задач. Эти проблемы имеют фундаментальный характер, поскольку их решение, с одной стороны, устанавливает предельные возможности, связанные с извлечением максимальной информации из наблюдений, получаемых в процессе оптимизации стохастических систем, а с другой стороны, указывает конкретные алгоритмы оптимизации и управления, реализующие эти возможности.
Отметим, что теория информации и математическая статистика, глубоко развитые к настоящему времеЙи, в значительной степени посвящены задаче оценивания параметра или какой-либо функции (в общем случае, функционала) этого параметра при заданном статистическом эксперименте (см., например, книги и статьи А.А.Боровкова, И.А.Ибрагимова, Р.З.Хасьмпнского, Н.Н.Чен-цова). Полученные результаты имеют широкое применение, в частности, в задачах идентификации динамических систем (см. работы Л.Льюнга, Б.Т.Поляка, Я.З.Цыпкпна и др.).
С другой стороны, многие задачи стохастической оптимизации и адаптивного управления, как правило, отличаются наличием по крайней мере одного из следующих факторов:
1) зависимость наблюдений (а, следовательно, и содержащейся в них информации) от управляющих переменных,
2) наличие нестационарных (дрейфующих) параметров,
3) потребность обеспечения заданной цели управления,
4) недостаток априорной информации, необходимой для использования разработанных ранее эффективных алгоритмов стохастической оптимизации и адаптивного управления.
Эти факторы осложняют непосредственное применение известных результатов и требуют дальнейшего развития информационного подхода как в отношении установления информационных нижних границ, так и в отношении получения оптимальных алгоритмов.
В диссертационной работе известные ранее методы получения информационных неравенств модифицированы и развиты с учетом отмеченных выше особенностей. В частности, установлены нижние границы для целого ряда задач стохастической оптимизации, идентификации и адаптивного управления. Кроме того, разработан математический аппарат, предназначенный для исследования рекуррентных алгоритмов типа стохастической аппроксимации с усреднением траектории и позволяющий при определенных условиях реализовать асимптотически оптимальные алгоритмы при имеющейся априорной информации. На основе этого подхода решен ряд конкретных задач оптимизации, идентификации и адаптивного управления дискретными стохастическими системами.
Методы исследования. Установление информационных неравенств основано на минимаксном и на байесовском подходах, позволяющих получать как правило точные (достижимые) нижние границы. В задачах с непараметрнческой неопределенностью применяются стандартные приемы перехода к семейству задач с неопределенным конечномерным параметром со значением в компак- . те (см., например, Ибрагимов И.А., Хасьмияский Р.З. Асимптотическая теория оценивания. М.: Наука, 1979).
В основе рекуррентных алгоритмов лежит метод стохастической аппроксимации, как правило, с дополнительным усреднением траектории (т.н. метод Поляка-Рупперта). Для получения оптимальных (и квазиоптимальных) алгоритмов при низком уровне априорной информации применяется также адаптивный подход, состоящий в оценивании недостающих параметров. Суть методики исследования асимптотических свойств рекуррентных алгоритмов с усреднением траектории заключается в построении аппроксимирующего процесса, описываемого линейным разностным уравнением. Изучение последнего значительно проще и фактически сводится к применению известных результатов теории случайных процессов и, в частности, мартингалов (см., например, Липцер Р.Ш., Ширяев А.Н. Теория мартингалов. М.: Наука, 1986).
Теоретическая в практическая ценность работы. Развитая в диссертации методика получения информационных неравенств направлена на ее применение при решении различных задач стохастической оптимизации, идентификации и адаптивного упра-
вления дискретными стохастическими системами. Ее эффективность продемонстрирована в работе при рассмотрении конкретных задач. Установленные нижние границы представляют собой важную характеристику этих задач, поскольку указывают предельно возможную точность (пли, другими словами, предельно возможную скорость) их решения. Асимптотически оптимальные алгоритмы достигают эту нижнюю границу. Основанные на методе усреднения траектории, эти алгоритмы требуют для их реализации сравнительно небольшого объема априорной информации. В случаях, когда этой информации все же недостаточно, этот недостаток может быть компенсирован дополнительной обработкой текущей информации на' основе адаптивного подхода.
Аппробацпя работы. Основные результаты работы докладывались на симпозиуме ИФАК по стохастическому управлению (Вильнюс, 1986), 15-й международной конференции по стохастическому программированию (Анн Арбор, Мичиган, США, 1989), 1-й и 2-й европейских конференциях по управлению (Гренобль, Франция, 1991 и Гронинген, Нидерланды, 1993), международной конференции по управлению "СОЫТИОЬ'94", (Ковентри, Великобритания, 1994), 1-й Российско-Шведской конференции по управлению (Линчешшг, Швеция, 1992), 10-м всесоюзном совещании по проблемам управления (Ташкент, 1989), 5-м Ленинградском симпозиуме по теории адаптивных систем (Ленинград, 1991), Международной школе-семинаре ИФАК по оценке эффективности применения адаптивных стратегий управления (Тбилиси, 1991), XXIII школе-коллоквиуме по теории вероятностей и математической статистике (Бакуриани, 1990); на семинарах в Институте проблем управления (рук. Р.Ш.Липцер, А.И.Яппш, 1986, 1989), в Институте проблем передачи информации (рук. Р.З.Хасьминский, 1989, 1990,), Институте кибернетики (рук. Ю.М.Ермольев, 1987), а также в ряде зарубежных университетов (Пекин, Китай, 1992; Рим, Италия, 1993, 1995; Рединг и Эксетер, Англия, 1994; Париж и Рен, Франция, 1994; Париж и Страсбург, Франция, 1995).
Публикации. Основные результаты работы опубликованы в [1 - 23]. В работах, выполненных в соавторстве, диссертанту принадлежат результаты, относящиеся к информационным неравенствам, а также методика исследования рекуррентных алгоритмов
типа стохастической аппроксимации с усреднением траектории.
Объем и структура работы. Диссертация состоит ив введения, восьми глав и списка цитируемой литературы. Первые две главы посвящены развитию математического аппарата, позволяющего устанавливать информационные нижние границы, проводить исследование асимптотических свойств рекуррентных алгоритмов типа стохастической аппроксимации с обобщенным усреднением траектории и определять условия их оптимальности. В последующих главах этот аппарат применяется при решении конкретных задач стохастической оптимизации, идентификации и адаптивного управления дискретными стохастическими системами.
Диссертационная; работа изложена на стр. машинописного текста и содержит 7 рис., 1131библ.
Краткое содержание работы
Первая глава посвящена развитию математического аппарата, предназначенного для получения нижних информационных границ в задачах оптимизации и адаптивного управления стохастическими системами. Основу развиваемого подхода составляет задача оценивания параметра, как детерминированного (принадлежащего фиксированному шару), так и случайного, а также задача оценивания функции неизвестного параметра. Рассматривается также более общая байесовская постановка, когда требуется оценить значение функции как неизвестного параметра, так и наблюдении. Это обобщение необходимо для получения нижних границ в задачах адаптивного управления. Кроме того, исследована ситуация, когда наблюдения содержат не только случайную, но и детерминированную ограниченную помеху. Приведены разнообразные примеры применения полученных результатов.
Сформулируем некоторые наиболее важные результаты, сохраняя нумерацию утверждений. Через А+ обозначаем матрицу, пссв-дообратную по Муру-Пенроузу к матрице А. Неравенства А > В между квадратными симметрическими матрицами понимаются в смысле неотрицательной определенности разности А — В.
Теорема 4. Пусть 2 и С — евклидовы пространства, ]¥Т — шар радиусаг > 0 в С ир(г |с) — семейство плотностей вероятности на с параметром с £ ]¥Т. Пусть выполнены следующие условия:
а) для почти всех z € Z (по мере Лебега) функция p(z | с) ке-. прерывно дифференцируема по с па Wr;
б) семейство вектор-функций {Vcp{z | с) | с 6 И^} равномерно интегрируемо на любом шаре \г\ < оо;
в) информационная матрица Фишера
т = / vcp(z I c)Vjp(z I c)p-\z I с) dz
удовлетворяет условию supc6Wi([|j!r(c)j| -f ||^+(с)||) < оо. Пусть, кроме того, матрица Ji — 1Г(с)2Г+(с) не зависит от с £ WT, а ее ранг р = raiik Ш(с) = tr Jj > 0. Тогда для любой измеримой функции c(z) : Z'—► С справедливо неравенство
sup /(c(z) - c)TB(c){c(z) - c)p(z | c)dz>
c£\Vr J
Следующая теорема уточняет зависимость нижней границы от характерного размера априорного множества Wr. Оно позволяет уточнить информационные границы в тех задачах, где асимптотически оптимальные оценки являются смещенными, как, например, в задачах непараметрического оценивания. В диссертации показано, что эта нижняя граница является более точной в отношении зависимости от размера априорного множества по сравнению с минимаксными границами, вытекающими из неравенств Ченцова ("Статистические решающие правила и оптимальные выводы" -М.: Наука, 1972) . и Боровкова-Саханенко - Вал 1^>иса (Боровков А.А. "Математическая статистика", - М.: Наука, 1984; Van Trees H.L., "Detection, Estimation and Modulation Theory", Part 1. Wiley, New-York, 1968), а также по сравнению с минимаксной границей Немировского (Автоматика и телемеханика, 1981, Af- 6. с. 90-99).
Теорема 5. ("Тригонометрическая" нижняя граница). Пусть Z и Л — евклидовы пространства, Wr — шар радиуса г > 0 в А, и g(z|a) — семейство плотностей вероятности на Z, зависящих от параметра а € W,. Допустим, что:
а) для почти всех (по мере Лебега) z 6 Z плотность g(z|a) дифференцируема по а на Wr,
б) семейство вектор-функций {У0д(.г|а) : а £ \¥Т} равномерно интегрируемо па компактах 2 £ Z> т.е.
Пт вар / |?«д(*|а)|х{|Ув9(ф)| > К} ¿г = О,
в) при любом а € \¥г информационная матрица Фишера
1>(а) = / (^(ф^фИ)^*^
существует, положительно рпределена и непрерывна по а € ¡¥г-Тогда для любой измеримой функции а(г) : 2 —» А справедливо неравенство
вир Еа{(а(г) - а, и)2} > ш (г/^ М (1^(а) щи) , (2)
абИ'', обКУ,
где
ий 8ир ц#(а)||, «ел, ае»",
ге : [0,оо) —» [0,1) — монотонно возрастающая функция, обратная к которой равна
агссоз(—у/зё) к
ТГ^Те 2'
Матричное информационное неравенство, используемое в работе для получения нижней границы в оадаче отслеживания дрейфующего параметра линейной регрессии (частный случай задачи фильтрации), содержится в следующей теореме.
ТЬорема 6. Пусть случайная величина х имеет функцию распределения ,.а случайные величины у и в, принимающие значения в И*1 и Я1 соотвественно, имеют условную плотность совместного распределения р{у, в \х). Обозначим через Си меру Лебега в Я". Пусть
1) функция р{у,в\х) дифференцируема относительно 9 и строго положительна,
2) существует конечная невырожденная информационная матрица
3) для любого i— 1,..., к предел
lim 0,р(у, в\х) — О
в, —»оо
для £дг(*-1) х Fx - почти всех (у,х)* Тогда для любой измеримой функции в(х, у) справедливо матричное неравенство
Е(<?(г, у) - в)(в(х,у) - в)Т >J~K (4)
В следующей теореме устанавливается информационная граница байесовского тина, которая является непосредственным обобщением нижней границы Ван Т^пса. Этот результат представляет самостоятельный интерес. В работе он применяется для получения информационных неравенств в задачах адаптивного управления. Предварительно дадим следующее
Определение 1. Будем говорить, что действительная функция д{в), в G О, обладает шсе-свойством, если для каждого j она абсолютно непрерывна по Oj для почти всех значений других компонент вектора 9, а ее частные произвдныедд/двизмеримы по в. Вектор-функция д(9) обладает тсе-свойством, если все ее компоненты gi(ß) являются таковыми. Рассмотрим следующие предположения:
AI. 6 С R" содержит тп-мерный шар WT радиуса г > 0; т > 1. А2. Функция плотности распределения вероятности Х(в) (относительно меры Лебега) обладает шсе-свойством; кроме того, она пмеет шар WT в качестве носителя, равна нулю на его границе 8Wr, и положительна внутри Wr. A3. Для любого 9 € в функция /(у|0) представляет собой плотность распределения в R (относительно меры Лебега); кроме того, f(y\6) обладает шсе-свойством для почти всех у, а ее частные производные dffdQj измеримы по {х,в). A4. Действительная функция ф(у,в) обладает шсе-свойством для почти всех у.
А5. Функция С(у>®) со значениями в ВТ1 обладает шсе-свойством для почти всех у и квадратично-интегрируема относительно плотности f(y\0) для почти всех в € Wr, т.е. существует матрица коварнацпй с конечными элементами:
S<{0) = Е«С(у,0) ?(у, 9) = У С(у,в) СТ(у, в) Пу\0) dy.
А6. Для почти всех в € следующая ^-обобщенная информационная матрица Фишера
имеет конечные элементы, причем след Ьх ЕХ((в) > 0. А7. Существует (с конечными элементами) ^-обобщенная информационная матрица Фишера
для плотности распределения А.
Теорема 7. При выполнении предположений А1 - А7 для любой измеримой функции щу) справедливо следующее неравенство:
Е(Ш-Ф(.У>0)У> (5)
- ((«Г шмх'г+[ * + [ё( &уе<(у,в))У/2)2'
Во второй главе исследуется метод стохастической аппроксимации с обобщенным усреднением траектории, в частном случае совпадающий с методом Поляка-Рупперта (Поляк Б.Т. Автоматика и телемеханика, 1990, М& 7, с. 98-107). Этот метод применяется в последующих главах для построения асимптотически оптимальных алгоритмов. Основной результат главы содержится в следующей лемме, позволяющей построить более простой для исследования аппроксимирующий процесс, обладающий теми же асимптотическими свойствами, что и последовательность ошибок оценивания исходного алгоритма с усреднением.
Теорема 11. Пусть последовательности (Д„) и (Д„) определяются системой разностных уравнений
Д„ = Дп-1 - •упГ1Д„_1Г2 + 7п«>п, (6)
Д„ = (1 - ап)Д„_! + а„Д„-1, (7)
где Дп , Д„, ш„ £ Д"1*', Г1 и Гг — невырожденные тп х т- и I х 1-матрицы, п. > 1, начальные значения До и До фиксированы, а числовые последовательности (а„) « (7п) удовлетворяют условиям
а) 7» > О, 7п О при п оо, и (7„_! - -у,,)?"1 = 0(ап),
б) ап > О, ап = о(7„), а итп_00(ап_1 - а„)а~2 = V1 < 2.
Тогда, если Е|Д„| = 7^), то Е|Д„ — Д„) = и, следова-
тельно,
а;^(Дл-Дп)^0, (8)
г<?е последовательность величин Д„ удовлетворяет линейному разностному уравнению
Дя = Дп_! - ап(Д„-, - ГГ1«;»^"1), п > 1, (9)
при нулевом начальном условии Д0 — 0.
Отметим, что уравнение (9) может рассматриваться как уравнение ошибки некоторого вспомогательного алгоритма стохастической аппроксимации. Таким образом, исследование асимптотических свойств последовательности а~^2Ап можно проводить традиционными для метода стохастической аппроксимации методами (см., например, Невельсон М.Б., Хасьминский Р.З. "Стохастическая аппроксимация и рекуррентное оценивание", М.: Наука, 1972).
В третьей главе рассматривается задача стохастической аппроксимации при активном эксперименте: требуется оценить корень г* = £*(@) уравнения регрессии
(10)
до последовательным зашумленным наблюдениям
у» = $(*»)+6, : (и)
значений априори неизвестной функции С} : Л" —» Здесь
я = 1,2,..., а £п — помеха в наблюдениях — представляет случайную величину (которая определена на основном вероятностном пространстве (П,.У,Р) вместе со всеми другими случайными величинами). Суть активного эксперимента состоит в том, что наблюдения производятся в точках хп, выбираемых статистиком на основе имеющихся к моменту времени п наблюдений.
Под алгоритмом оценивания томлен х* понимается пара (Ф,Ф) стратегий формирования точек наблюдения х„ и оценок точки х* соответственно. Обе стратегии представляют собой последовательности ф = {ф„}, ф — {фп} функций со значениями в
фп = Фп{ш\ хи У!,. . . , Хп-1, £„_,) , . ■фп-1 = Фп-1{ъ>',Х1,У1, ... ,Х„_1,уп_1) , (12)
и€П, хк,ук£ Н" (к — 1,п - 1), п = 1,2,... Предполагается, что функции фп, фп-1 суть борелевские относительно совокупности Xi,y¡¡, (к ~ 1,п — 1) для Р-п.н. также /"-измеримы по и £ Й для почти всех хь,уь, (к — 1,п — 1). ш-зависимость этих функций означает, что стратегии фиф могут быть рандомизированными.
Приведем информационные неравенства, полученные в данной главе для следующих двух классов функций регрессии ф (параметрический и непараметрический):
1. "Сдвиговый" класс О.н((2о,г), порожденный функцией <?с : т.е.
йк(<2о, г) ± {¿?с : |с| < г), г > 0, (13)
где
Яс{х) = С}о{х -с),с€й". (14)
2. Класс (2н{р) дифференцируемых функций С}(х), удовлетворяющих условию строгой монотонности:
Атш^адуад7) >Р>0, хеп*. (15)
Теорема 12. Пусть функция (¿о(х) : йл —+ IIм дифференцируема, градиент Уфо(х) равномерно непрерывен, и
О < Ы ЛШщ (Ч(}о{х) VQй(x)T) < БирЛтлх (Уд0(х) уд0(х)т) < оо.
<16)
Пусть, кроме того, плотность распределения р(-) непрерывно дифференцируема и имеет невырожденную информационную матрицу Фишера
5 р(г) 12
Рассмотрим проюволъный алгоритм (ф, ф) оценивания корня уравнения регрессии (10) в классе функций (13) по наблюдениям (11), порождающий последовательности оценок {£л} и точек измерения {аг„}. Тогда для любых К € п > 1 и г > О
дир е9 {[(*„ - *ч<?))ть]2} > ( ы С?)л)
х(1 + г-1 5иР К-1/2(^<?)1|) > \ <)еЯ„(Я°,г) }
и, следовательно,'
Ет Цт ВД, Ф, Яо, г, Н) > |/»|2 , (18)
Г-*тО Л—+00
где
Уп(ф,ф,СЭ0,т,Н)й вир Е(){[(хп-х*тт,
Яейы(Яо,г)
(19)
МФ, <?) = £ Ед (У<?(**) Ш УС?(хк)т} . (20)
1=1
Теорема 13. Пусть плотность распределения р(-) удовлетворяет условиям теоремы 12, и р> 0. Тогда для любого алгоритма (ф,ф) и для любого вектора и € Й^ имеет место следующее неравенство:
Ша вир £„{[(*„ - х'тг1У\р) «И > р-11|«|Г • (21) 11 J >
Заметим, что аналогичный результат можно вывести из информационного неравенства, полученного М.Б. Малютовым для задачи последовательного планирования эксперимента (см. Ермаков С.М. (Ред.) "Математическая теория планирования эксперимента", М.: Наука, 1983).
Теорема 12 показывает, что для малых г > 0, т.е. при большой априорной информации о функции регрессии С? € ниж-
няя граница для любого алгоритма в асимптотическом смысле (т.е.
при я —* оо) полностью определена последовательностью условных информационных матриц {Jn(<^, Qo)}- Таким образом, принимая во внимание хорошо известную в математической статистике программу Фишера, естественно ввести следующие определения.
Определение 2. Стратегия оценивания ф называется оптимальной по отношению к стратегии наблюдения ф в задаче оценивания корня уравнения регрессии (10) в классе (13) по наблюдениям (11), если при любой функции Q € Qjv(Qo,r) последовательность нормализованных ошибок оценивания
Q) (z„ - x'(Q)) ~ Л/-(0, W),
то есть имеет асимптотически нормальное распределение со средним ноль % единичной матрицей ковариации.
Определение 3- Если стратегия ф оптимальна относительно стратегии выбора точек наблюдения ф в задаче оценивания корня уравнения регрессии (10) в классе (13) по наблюдениям (11), и если ф гарантирует максимальное увеличение информационной матрицы Jn{<t>,Q) прип —» оо (в некотором смысле), тогда алгоритм {ф,*1>) называется оптимальным для функции регрессии Q (в этом смысле).
Иногда полезно иметь аналогичное понятие оптимальности на некотором подклассе алгоритмов. Например, обычно рассматривают алгоритмы, которые имеют точки наблюдения в предыдущих оценках (то есть х„ = i„_i, n > 1) или "близко" к ним (то есть |х„ — ¿n-l| —♦ 0, n —+ оо) и при этом X —* X* = X*(Q), n —>00 для любой Q 6 Qn- (Например, алгоритмы типа стохастической аппроксимации и алгоритм Кифера-Вольфовица.) Обозначим класс таких алгоритмов A(Qn)- Заметим, что если для некоторого Q € Qs
suPJjVQ(x)|j < оо, (22)
то для некоторого (ф, ф) 6 A(Qn) получим по теореме Лебега
Шп п-ЩфД) = VQ(x')IF{p)VQ(x*f.
Мы будем предполагать далее, что для любой функции Q € Qn выполнено условие (22).
Определение 4. Алгоритм {ф,ф) £ A(Q*/) позывается оптимальным на классе -Д(С?лг), если для любой функции Q G Qn последовательность нормализованных ошибок оценивания оценок, которую порождает алгоритм {ф,ф), асимптотически нормальна
п1'2 (Зя - *•<(?)) ~ M (0, (VQ(x') lF(j>) VQ(z*)]-1) .
В соответствии с этими определениями обсуждаются вопросы оптимальности алгоритмов активной стохастической аппроксимации при различном уровне априорной информации. Предложены и исследованы алгоритмы с усреднением траектории (аппроксимаци-онный и автоматный), кваоиоптимальные при неизвестной плотности распределения помех. Они основаны на адаптивном подходе, применяемом для оценивания оптимальной функции преобразования наблюдений в некотором априори выбранном семействе функций. Приведены также результаты моделирования аппроксимаци-онного алгоритма.
Четвертая глава посвяшена следующей задаче пассивной стохастической аппроксимации (ПСА). Пусть / : R1 —» Я1 — априори неизвестная функция регрессии, xj,x2)... — точки измерения ее значении, уп — f(x„) + £„, п = 1,2,..., — результаты измерения, содержащие случайную помеху Требуется оценить корень х*(/) уравнения f(x) = 0 по этим измерениям. Предполагается, что функция / дифференцируема 1 — 1 раз, причем (I — 1)-я производная удовлетворяет условию Липшица с константой L на отрезке Q à _ d,x° + dj, х° € fi1, d > О, *'(/) € int Q, l > 2, и f'(z') > Of0 > 0. Класс таких функций / обозначается ft(L). Пусть последовательности {£„} п {г«} независимы в совокупности, однородны и имеют плотности распределения q и р соответственно, причем р(х) > 0 на Q. Пусть q положительна и имеет конечную информацию Фишера
Ir(q)àf(J(z))2g-l(z)dz.
Обозначим 7 = 2(21 -f l)-1. При доказательстве следующего результата использовалась теорема 5.
Теорема 18. При сделанных выше предположениях для любой последовательности оценок х„ — хп{х\,у\,...,х„,уп) справедливо
неравенство:
lim sup (nE, (xB - x*(/))2 > ma^L* (ШГ* ,
Щ зависит только omt. В частности, цг Ci 0,317.
Далее d работе для гладкости 1=2 исследуются свойства рекуррентных ядерных оценок типа стохастической аппроксимации с усреднением траектории:
= , (23)
Zn+1 = z„ - (n + l)-1^ - z„) . (24)
Здесь z„ — вспомогательная оценка метода ПСА, zn — усредненная оценка вдоль траектории алгоритма (23), Pq — оператор проектп-рованпя на множество Q э х'. Отличительной особенностью по сравнению с алгоритмами АСА является наличие ядерной функции К(-), приписывающей каждому наблюдению уп тот или иной вес в зависимости от степени близости точки измерения хп и текущей оценки zn. Мера близости регулируется так называемой шириной окна hn. Наблюдения уп подвергаются в общем случае нелинейному преобразованию <р(-) с целью ослабления влияния помех и увеличения скорости сходимости. Начальные условия zx, z\ фиксированы. Рассматриваются следующие предположения.
(al) Q ~ [а,Ь] — отрезок в R1, а <Ь. (a2) <р: R1 R1 - монотонно неубывающая функция. (аЗ) £„ - независимые одинаково распределенные случайные величины с плотностью q; для всех «ей1 определена функция
ф(и) й Е<р(и + £,)-/¥>(« + t)q(t)dt, (25)
и при некотором г > 2 существует ограниченная на отрезках функция ,
фг{и)йЕ\<р(и + Ь)\Т. (26)
Кроме того, пусть
EM« + 6)-v(6))2<c«2- (27)
(а4) Функция / имеет корень х* Ъ 'п&С), / £ О, где и — С(Ь) -класс функции с лппшпцевой первой производной (/ = 2):
\Г(х)-Ю\<Цх-21 хугеЯ-у кроме того, при некотором /? = /3(/) > О
ф(/(х)){х-х*)>/}\х~х'\\ Угед.
(а5) ф(0) = 0, ф'(0) > 0, и функция ф2{и) (см. формулу (26) при
г = 2) непрерывна в окрестности точки и = 0 . (аб) Точки измерения хп — независимые (между собой п от £т, т = 1,..., п) одинаково распределенные случайные величины с плотностью р € С(1»г), р(х) > ро > 0, г 6 <9-(а7) Ядерной функцией Я" является ядро Епанечникова
К{и) = ^*(и) А тах{0;3(1 - «2)/4> . (28)
(а8) Функция *(х) = ф(/(х))р(х) имеет вторую производную в точке х*, и при некоторых Аь-^г»^ € (0,'1), е > 0 и всех х, г 6 (х* — е, х* + е) удовлетворяет неравенствам
|в(х) - .(*) - ,'(х)(г - х)\ < Су\х - х|1+А'; (29) |ф) - .(**) - »'(х*)(г - х) - ^5и(х')(г - х*)г| <
<<72|г-х*|2<1+А'>; (30)
|,'(2) _ _ ,»(*♦)(* _ < С3|г - х*|1+А5. (31)
Фгорема 19. Пусть последовательность {£„} определяется уравнениями (23), (24), выполнены условия (а1)-(а8), уп — 1 п~м, 7 > 0,
5
шах
/8 +г 5 + Х, 1 ,
\ТГ'5(1Тло)<'1<1' (32)
Кя — кп 1/5, Л > 0. Тогда г„ —+ г* п.«. при п —к» и „Цтп^Е (^ - г') = Б(Л), Вт я4/8Е (л, - х*)2 = Ьг(Л) + «(Л), г<?е асимптотические смещение и дисперсия
Щ й ^Л1, 5(Й) 4 1 Г_2р(х*) ^(О)Л-1
кс зависят от 7 а /I; Г = «'(х*), В = 7!в"(х*)/2.
Ho этой теоремы следует, что метод усреднения траектории, как и в АСА, приводит к автоматической оптимизации скорости сходимости относительно коэффициента усиления. В работе обсуждается проблема реализуемости оптимальной ширины окна и предлагается ее решение для класса линейных алгоритмов на основе адаптивной настройки ширины окна.
В пятой главе на основе информационного подхода решается задача прогнозирования выхода регрессионного объекта вида
У» = сгхп + еп: п= 1,2,.... (33)
Здесь хп £ RN, у„ € R1 — входная и выходная величины соответственно, £п — ненаблюдаемая помеха, с7 — транспонированный вектор неизвестных параметров. В каждый момент времени п доступен вектор наблюдений z„ = (if, -.., yf,...,y%_i)T. В работе получена предельно возможная среднеквадратическая точность прогноза при следующих предположениях об объекте (33):
А1) {£„} — последовательность одинаково распределенных случайных величин с плотностью распределения ?{(•)> А2) Е{£„} = О, Е{£*} = < оо, р£(-) — липшицева, дифференцируема, имеет конечную информацию Фишера 1(р(), В1) {х„} — последовательность независимых случайных векторов
хп, имеющих плотности распределения рх(-1 тг), В2) Е{хпа£} = В, Vn = 1,2,...; р = rank В > О, С) при каждом п = 1,2,... помеха £n+i не зависит от совокупности (хи • • -> fi> • • • jin), a x„+i не зависит от совокупности (xi,...,x„; £i,...,£n)-
Теорема 24. Пусть для регрессионного объекта (33) выполняются условия А - С, о вектор параметров с лежит в таре Wr радиуса г > 0. Тогда для любой оценки у„ — yn(zn) выхода уп ошибка прогнозирования е„ = у„ — у„ удовлетворяет неравенству
. ~2
-1
ш(р()
||Я+||1/2) , (34)
где ||В+|| — норма псевдообратной по Муру-Пенроузу матрицы В+ (наибольшее собственное значение).
Отметим, что (34) представляет нижнюю границу для фиксированного числа наблюдений. Доказательство непосредственно вытекает по теоремы 4.
Следствие. В условиях теоремы 24
Hm n sup (Е{е2 } - а2) > p/Ifa). (35)
п—00 cew,
В работе исследован следующий алгоритм оценивания:
Сп+1 =Сп- Ип<р{с%хп - уп)В+хп, п = 1,2,---- (36)
Здесь с„ — искомая оценка, <p(t) = —— нелинейное преобразование невязки, у„ = [у?'(0)(п + х^В+х„)]~1 — шаговый множитель. Обозначим <p{t) = E{^?(f — £„)}.
Теорема 25. Пусть в алгоритме (36) функция ip(t), вектор хп = и помеха £„ с четной плотностью распределения p^(t) таковы, что функция
№ = M=t Е<p(zTxn - in)zTxn (37)
обладает следующими свойствами:
1. ф(Ь) — выпукла вверх, т.е.
ф{оЛ\ + (1 - a)t2) > аф(Ьj) + (1 - а)ф{г2), 0 < а < 1.
2. Существуют to и Н такие, что ф{{) > yJt/H при t > to •
3. ф{t) = t - at+ о{&2) при i —» 0 (а > 0).
4■ Существуют К\ и К2 такие, что для любого к > 0
<p(t • it) < K\k(p(t) и <p(t) ■ t < K2<?(t).
5. Существуют константы zo > 0, ki и ki такие, что для любого z > Zo выполняются условия
здесь
Л,(«Л«,«) = ехр ^у) «,2 •
R3(z,h,w,u) = (1 - ^'(¿2))ехр (// щ) у>2 • «2,
d = u+hvj; вычисление проводится только по тем значениям аргументов, для которых существует ф'^).
19
6. Е{у>2(и£х„ - £„)|х„|2 |ы„} < *зК|2 + для любого г € Я* и некоторых констант ¿3, ¿4. Пусть, кроме того, Е|хп|4 < оо и Нш1_400р^(х) = 0. Тогда нижняя граница (35) достигается:
Шестах глава также посвящена задаче идентификации линейного регрессионного объекта
й = х?'в< + 6> < = 1,2,..., (38)
но при медленном дрейфе вектора параметров вt, подчиняющемся уравнению
*«= 6.-1 +Г*. * > 1, (39)
с фиксированным начальным условием в0 £ И". Здесь (&) и (т^) — последовательности ненаблюдаемых случайных возмущений, 7 > 0 — малый параметр уравнения дрейфа (39). Таким образом, это задача фильтрации. Целью данной главы являлось установление условий оптимальности алгоритма стохастической аппроксимации с постоянным коэффициентом усиления
0« = 4-1 + - • (40)
Здесь <£>(•) : Я1 —» Ы1 — функция преобразования ошибки предсказания, 5 > 0 — симметрическая положительно определенная матрица, в0 — произвольное (фиксированное) начальное значение.
Установление условии оптимальности оценок состоит из двух этапов: 1) получение нижней информационной границы для МКО
= Е(б( — 04)(01 — 0<)г произвольной оценки вг, что означает нахождение такой последовательности симметрических матриц Б( > 0, что для произвольной последовательности оценок предел 1Ьи»—— В() = 0(7) при 7 —» 0; 2) анализ достижимости нижней границы за счет выбора оптимальной матрицы 5 = 5* и оптимальной функции <р = <р* исходя из условия минимума асимптотической нормированной матрицы коварпацпй ошибки (АНМКО)
К = Шп 1лп . (41)
Отметим, что выбор критерия (41) обусловлен тем, что при малых (фиксированных) у > О значение V = lim<_oo Vt приблизительно равно yV. В работе сделаны следующие предположения: А1. (£<) и (%) — последовательности независимых одинаково распределенных случайных величин со значениями в R1 и Rw соответственно, E£i = 0, Er/i = 0, ErjtfJ = R > 0. А2. (х<) — последовательность независимых одинаково распределенных случайных величин со значениями в R", причем последовательности (&), (tft) и (х<) взаимно независимы, Ех\х\ = D > 0.
Следующие предположения относятся и к алгоритму (40). A3. Матричный коэффициент усиления алгоритма S G R"** положительно определен: S = ST > 0. A4. Определены функции ф(х) = Еip(x -+-&), f(x) = Ец>2(х + причем функция ф(х) лшшшцева, существует производная ф'(0) > 0, и для некоторых К\, Кз, Кг, к, е > 0, 0 < Л < 1 выполнены неравенства
|ф)|< ^(l + lxl2) и \Ф{х) — ф\0)х| < А"з|х|1+а,V х G R1, H®)-f(0)| <ЛГа|®|", V |х| < г.
А5а. Etf < оо, £|xi|4 < оо, и £|»7i|4 < оо; \<p(z)\ < С( 1 -f- |x|j при
некотором С > 0. Найдется такое р > 0, что х ф(х) > рх2. А5Ь. Найдутся такие постоянные а,/3, к,р,6, К\ > 0, что
Ее°1М<оо, Ее^Ч11<оо, и хф{х)>р\х\, V |х| > б.
Отметим, что предположения А5а и А5Ь обслуживают соответственно алгоритмы с неограниченными и ограниченными функциями преобразования ошибки предсказания ¥>(-). Условие |v(x)| < С{ 1 + |х|), С > 0, стационарность процесса (&) и существование второго момента Е£2 обеспечивают корректность определения функций ф{х) и i/(x).
Теорема 26. Пусть выполнены предположения А1 - A4 и либо А5а, либо А5Ь. Пусть V = V(S, <р) — решение уравнения Ляпунова
ф'(0 )(SDV + VDS) = v(0)SDS + R. (42)
Тогда для алгоритма (40) с произвольным канальным условием во
т.е. функция распределения нормированной ошибки оценивания - равномерно сходится к гауссовской функции распределения со средним ноль и матрицей ковариаций V.
Следствие. Пусть существует плотность р( распределения возмущения & , имеющая конечную информацию Фишера
и следующий выбор параметров алгоритма (40) является допустимым в смысле теоремы 26:
ф) = ?(ху =-(ЫР((х)У, 5 = 5*, (43)
где матричный коэффициент усиления Б* является симметрическим положительно определенным решением уравнения
Б^Б'^^Л. (44)
Тогда АНМКО (41) принимает минимальное значение, равное 5", . т.е. при любом выборе параметров 1р, 5 алгоритма (40), допустимом теоремой 26,
У(у>,5)> К(^\5*) = 5*.
Введем следующие предположения (продолжая их нумерацию).
А6. Существуют плотности р((•), р,(-) случайных величин 771, они дифференцируемы, положительны на И1 и имеют конечные фншеровские информации 1( и
= / «) ^р,(и) Р;\и) йи > о. А7. Плотность р(_{-) ограничена, и р7(ы) —♦ 0 при |«| —♦ оо.
Теорема 27. Пусть выполнены предположения А1, А2, Аб, А7. Тогда для любой оценки при каждом I > 2 справедливо неравенство
Ц9,-в№-Ь)Т)>Ви (45)
где матрица = В? удовлетворяет разностному уравнению Риккати
Вг = Л2<?В,_- ¡¿вВ^В^ + (^^В^О + <3, I > 2, (46) с начальным значением В2 = (¡(И+С}'1)'1, содержащему матрицы
Кроме того, = В, где В — единственное устойчивое
решение алгебраического уравнения Риккати
В - к2СВв + к2вВ(В + Я)-1Вв =
Следствие. Пусть выполнены условия теоремы 27. Тогда матрица В* = Цггьу—о у'1 В является решением уравнения
В'ЭВ* = Г^Ч-1. (47)
Таким образом, если случайное возмущение т^ имеет нормальное распределение Л/*(0, В), то из (45) и (46) следует, что алгоритм (40), (43), (44) является асиптотически оптимальным в классе любых оценок.
Главы 7 и 8 посвящены применению информационного подхода к задачам адаптивного управления. В седьмой главе рассматривается задача адаптивного управления многомерным линейным стохастическим объектом, который описывается разностным уравнением
n
Уп=-Т, А{уп-г +• Пп-1 + („, п > 1. (48)
1=1
Здесь (уп), (гц,), (£„) — последовательности выходов, управлений и помех соответственно, уп, «„_!, £„ € Л™, то > 1; А,- = ДОа^И — тп х т матрицы неизвестных параметров, тп — размерность объекта, N — его порядок. Предполагаются априори известными
m, N и открытое множество A Ç. R', s = m х Nm, содержащее составную матрицу параметров А = (Ль..., Ау).
Пусть Vq — распределение начальных величин j/i-лг, —, Уа в RNm, причем
Е|у||2<+°° для всех« = 1(49) Управление Un — борелевская функция
«» = Vnivi• • • » Uni v) •• Ят(*+п) xE-t iT1 (50)
имеющихся наблюдении и, возможно, некоторой вспомогательной случайной величины т), принимающей значения в некотором измеримом пространстве (E,W) и рандомпзпрующей управление, причем т) не зависит от последовательности помех (£„). Распределение г) обозначим 7Y Стратегией управления U называется совокупность {Pv, («„(-)) | n > 1}, где u„(-) — функции (50). Каждая пара (A, U) порождает случайную последовательность (у„) с вероятностной мерой в соответствующем измеримом пространстве; математическое ожидание по этой мере обозначаем Ел,и- Пусть
(а) (п — случайные величины с нулевым средним и невырожденной постоянной матрицей ховарпацип:
Е£„ = 0, EÇng = D > 0 для всех n > 1, (51)
и не зависит от совокупности (yi~n,■ • -,Уо;£ь• • • >£n-i)i n > 1. Тогда при любых управлениях (50)
EAl£;|ï/„|2 = E£2-f Ел<и
n
«Г.-1 - ]С Aiyn-i i= 1
> tiD. (52)
Рассмотрим следующую задачу адаптивного управления: найти такую стратегию управления объектом (48), для которой
1 "
— £ Ед,а|й|2 и V при п -+ оо для всех А 6 Д- (53)
Такая стратегия V* называется адаптивной, а класс всех стратегий и*, обеспечивающих цель управления (53), обозначается Ы*{А). Пусть дополнительно
2
(b) одинаково распределены в соответствии с непрерывно дифференцируемой плотностью <?(•), имеющей конечную невырожденную информационную матрицу Фишера
J q(x)
причем
< оо. ' (54)
J q(x)
Теорема 28. Пусть выполнены условия (48), (49) и предположения (а), (Ь), множество А открытое, и пусть адаптивная стратегия управления U € ¿/'(Л) такова, что функции управления ип (50) при каждом п > 1 и для V^-почти всех rj 6 В. ограничены на любом компакте в Допустим, что стратегия U удо-
влетворяет следующему условию "равномерной устойчивости в среднем":
1 "
sup sup - £ Ел,иЫ2 < °° ■ (55)
n>i л ел nt=i
Тогда для всякого h £ if справедливы неравенства
Ша (Ел,рЫ2 - tr D) > mN tr Гг(Ч), (56)
П-.00 In п t_i
Вт £ (ЕаАуь hf - (h, Dh)) > mN (h, rl{g)h) . (57)
Следующая теорема устанавливает более простые по сравнению с (56), (57) информационные неравенства для адаптивных стратегий управления U, удовлетворяющих более сильному условию "равномерной устойчивости":
sup sup Ед,£/|уп|2 < оо. (58)
п>1 аса
Теорема 29. Пусть выполнены условия теоремы2& и, кроме того, адаптивная стратегия управления U удовлетворяет условию (58). Тогда для всякого h е Rm
Шп п (Ел tr|y(|2 - tr D) > mN tr Г\q), (59)
71—»ОО * ' '
Цш n (ЕА,и{Уи h) - (h, Dh)) > mN (h, r\q)h) . (60)
Введем обозначения: 1тхт — единичная матрица размера тхт (индекс тхт будем опускать, если размер матрицы ясен из записи); ® — кронекеровское произведение; — индикатор, <г(-) — минимальная <г-алгебра. В дополнение к (49) и (а) сделаем следующие предположения относительно объекта управления (48):
(с) множество А — выпуклый компакт, содержащий А как внутреннюю точку и удовлетворяющий следующему условию устойчивости замкнутой системы: при любых А, А' 6 «4 все корни А* характеристического многочлена
расположены вне единичного круга, т.е. |А*| > 1 для всех к]
(й) при всех п > 0 управление «„ измеримо относительно
Я, 2 <7(у1-лг,• • • >Уо;£ь• • -,£п)-
Введем ошибку управления
• " 6п = Уп~{п (61)
и перепишем (53) эквивалентным образом:
£ £.ЕлАЬМ2„-Г^О для всех АеА,Ь.£ 1Г. (62)
В соответствии с теоремами 28, 29 естественно ввести
Определение 7. Будем называть алгоритм адаптивного управления объектом (48) асимптотически эффективным или просто эффективным для задачи (53), если он обеспечивает достижение ■цели (53) при выполнении условия (55), и нормированная ошибка управления ->/п6п сходится по распределению к какому-либо случайному вектору ( с нулевым средним и матрицей ковариаций mNJ~1(q).
В работе исследован следующий алгоритм адаптивного управления объектом (48), основанный на идентификационном подходе и методе стохастической аппроксимации с усреднением:
ип = ап¥п, (63)
ап = (1 - an)an-i + a„a„_i, (64)
й„ = тгл {án_! - 7t.v(Í„)V„T.I} • (65)
Здесь Yn = (yj,...,fn-jv+i)T — вектор наблюдений на п-ом шаге, ап = ((«п)ь • • •, (5П)лг) п а„ = ((а„)ь • • •, (а«)лг) матрицы усредненных оценок и оценок стохастической аппроксимации соответственно, содержащие квадратные m X тп матрицы (ап){, (á„)¡; ап G [0,1] и 7„ > 0 — скалярные коэффициенты усиления; далее, невязка £п — у„ — и„_1+йп_1У„_1; <р : JR"1 —► Я"1 — функция преобразования невязки; 7Гд{-} — оператор проектирования в ближайшую (в евклидовой метрике) точку множества Л. Очевидно, что условие (d) измеримости управления выполнено. Заметим, что при а„ = 1/п усредненная оценка является средним арифметическим оценок стохастической аппроксимации. Сделаем следующие предположения относительно алгоритма оценивания (64), (65):
(el) .|У(х)|<А-(1 + |«|).
Это условие в совокупности с (a), (al) гарантирует существование функций ф(х) = Eip(x + f„) и х(х) = Eyfa + £п)<РТ(х + С*)> которые должны удовлетворять следующим стандартным ограничениям:
(е2) ^(0) = 0, (х,ф(х)) > 0 для всех х ф 0;
(еЗ) функция ф липшпцева, имеет симметричную матрицу производных в нуле ф'(0) > 0, и для некоторых A G (1,2], К < оо, и е> О
|V(x)-V'(0H<iT|x|A, V|i| < е;
(е4) существуют е > 0 и К < оо такие, что для всех |х| < е
(f) 7„ > 0, % — 0, и
7,-1 ~7п =0(ап)> £72<ОО,
7п П=1
(g) ап > 0, 7¿ = о(аг„), а„ = о(7„),
n-оо а2
п
Как показано в гл. 2, из (g) следует, что ап = ип~1 + о(п-1).
Теорема 30. Пусть выполнены предположения (а)-(д). Тогда последовательность оценок йп, порождаемых алгоритмом (63) -(65) адаптивного управления объектом (48) при произвольных начальных условиях, сходится с вероятностью 1 к точке А при п —> оо, причем нормированная ошибка оценивания асимптотически нормальна: у/п (ап — А, Н) ~ Л/\0, Vg) для любых матриц Н = [Н\,...,Нц), Hi Е ВТ1*™, где
Va = VB{v,<p) =
= tr (f^D_1^'(°)~1x(W(or1)T) • (ее)
Теорема 31. В условиях теоремы 30 последовательность нормированных ошибок управления y/ñ(yn — £„) сходится по распределению к некоторой случайной величине £ с нулевым средним и матрицей ковариации W: </п(у„ — Д ^(0, W), где
V2 '
W = W(v,<p) - Nm—tV''(0)-1x(0)(V''(0)-1)t. (67)
Теорема 32. Пусть выполнены условия (al) и (а2), а также условия теоремы 31 при v = 1 и (р(х) = <р*(х) = —J~1{q)(í{x)lq{x). Тогда W(l,v?*) = JVmJ-1(q) < для любых допустимых в
смысле условий теоремы 30 функций (р.
Следствие. Минимальное значение матриц (66) и (67) по V > 1/2 достигается при v = 1.
Теоремы 30 и 31 позволяют применить традиционный подход к определению оптимальной функции преобразования невязки <р в алгоритме (65) (см., например, Цыпкин Я. 3. Автоматика и телемеханика, 1982, 12, с.9-23). Таким образом, в условиях теоремы 32 алгоритм (63) - (65) является асимптотически эффективным алгоритмом адаптивного управления объектом (48). Отметим, что для его реализации необходимо располагать довольно значительной априорной информацией, однако меньшего объема, чем для алгоритма без усреднения траектории, полученного в (Немиров-екпи A.C., Цыпкин Я.З. Автоматика и телемеханика, 1984, N° 12, с.64-77).
В восьмой главе на основе обобщенного информационного неравенства байесовского типа (теорема 7) устанавливаются нижние границы в задаче адаптивного управления нелинейным дискретным объектом при непараметртеской неопределенности. Рассматривается одномерная динамическая система, описываемая разностным уравнением
уп = -9{уп-1) + Ип-1 + для п > 1, у0 6 И1. (68)
Здесь Пп — входная, а у„ — выходая переменные, соответствующие моменту времени 71,71 = 1,2,...; д(-) : Я1 —► И1 —: принадлежащая некоторому классу 0 измеримых функций заданной степени гладкости. Начальное условие уо предполагается случайным, ~Ро — распределение уо в И1. Цель управления объектом (68) формулируется аналогично (53):
1 "
— £ Ед>иУ% —^ о3 при п—юо для всех (69)
л <=х
Рассматриваются следующие предположения относительно помех:
А1. — случайная величина с Е£п = 0 и = а1 > 0; £„ не
зависит от совокупности (уо\ ..., £„-1) для всех п > 1. А2. имеет плотность распределения вероятностей д(-), которая непрерывно дифференцируема, ее производная q' ограничена и имеет информацию Фишера
т=![
-<1х.
Рассматривается гельдеровекпй класс функций 0 = (/(а, Ь). Именно, для некоторых положительных я п Ь
— (д : В} —* Я1 | д пмеет компактный носитель, производная существует, и < Ь\ ,
где | • — норма пространства Гельдера: = ||д||то + \д],,
причем ||з||оо = яир |д(г)|, а к = [з] — наибольшее целое число, меньшее, чем з: к = [в] = шах{г € N : г < в}.
29
Теорема 33. Пусть s > 1, и выполнены предположения AI, А2. Тогда'существует константа Ко(з) > 0, зависящая, быть может, только от з, для которой при любом распределении Vo начального значения t/o и при любой стратегии управления U G U
Lmn-№+1> sup ¿Е
(70)
> Ko(s) ■ £2A2j+1) . (J(q)C(q))-2'«2'+1) ,
где
C{q) = jq\x)dx.
Кроме того, существует константа K\(s) > 0, для которой при любой равномерно устойчивой стратегии управления U, т.е.
sup sup ESiUyl < оо, (71)
справедливо неравенство
ЕЕ n2,/(2j+1) sup ему1-°2) > ^(s) i2/(2'+14^(g)C(9))-2'/(2'+,); »€{?(«,i)
(72)
более того, если этот верхний предел конечен, то
■ Шп n2'/<2'+1> sup Ъ9,и{У1-о*) > ^(S).X2/(2'+1).(J(9)C(g))-2'^2'+1». п_чо° ¡eO(»,L)
(73)
Основные публикации по теме работы
1. Гольденшлюгер A.B., Назин A.B. Оценивание параметров в присутствии случайных и ограниченных помех // Автоматика и телемеханика. 1992. А/"210. С.68-74.
2. Левин И.К., Назин A.B. Оптимальная критериальная идентификация процесса регрессии //В кн.: Теория и применение дискретных адаптивных систем. - М.: Институт проблем управления, 1987. С. 30-37.
3. Назин A.B. О скорости сходимости и выборе параметров автоматного алгоритма // Автоматика и телемеханика. 1982.
7. С.70-80. .
4. Hamm A.B. Информационные неравенства в задаче градиентной стохастической оптимизации и оптимальные реализуемые алгоритмы // Автоматика и телемеханика. 1989. М-А. С.127-138.
5. Назин A.B. Информационные неравенства в задаче адаптивного управления: многомерным линейным объектом // Автоматика и телемеханика. 1992. 4. С. 111-118.'
6. Назин A.B. Асимптотически эффективный алгоритм адаптивного управления многомерным линейным объектом // Автоматика и телемеханика. 1993. Л/"- 7. с. 95-110.7. Назин A.B. Асимптотически квазиэффективные оценки стохастической аппроксимации при неизвестной плотности помех // Докл. РАН. 1994. Т. 338. № 4. С. 465-467.
8. Назин A.B. Асимптотические свойства квазиоптимальных алгоритмов стохастической аппроксимации при неизвестной плотности помех // Автоматика и телемеханика. 1995. N° 11. (Принята к печати.)
9. Назин A.B., Позняк A.C. Адаптивный выбор вариантов. Рекуррентные алгоритмы. - М.: Наука, 1986.
10. Назин A.B., Поляк Б.Т., Цыбаков A.B. Пассивная стохастическая аппроксимация // Автоматика и телемеханика. 1989. Я° 11, С.127-134.
11. Назин A.B., Щербаков П.С. Метод усреднения траекторий^ в пассивной стохастической аппроксимации (линейный алгоритм) // Проблемы передачи информации. 1993. Т. 29. М- 4. С. 35-45.
12. Назин A.B., Щербаков П.С. Метод усреднения в пассивной стохастической аппроксимации // Автоматика и телемеханика. 1994. № 5. С. 48-58.
13. Назин A.B., Щербаков П.С. Реализуемый оптимальный алгоритм пассивной стохастической аппроксимации с усреднением вдоль траектории// Проблемы передачи информации. 1994. Т. 30. ЛГе 3. С. 68-78.
14. Назин А. В., Юдицкий А. Б. Информационные неравенства в задаче адаптивного управления линейным объектом // Докл. АН СССР. 1991. Т. 317. №2. С. 323-325.
15. Наопн А. В., Юдицкий А. Б. Оптимальное и робастное оценивание медленно дрейфующих параметров процесса линейной регрессии. // Автоматика и телемеханика. 1991. № 6. С. 66-76.
16. Juditsky А. В., Nazin А. V. Lower informational bounds for adaptive control problem and efficient algorithms // Proc. 1st European Control Conference. July 1991. Grenoble, R-ance. V.2. P.1534-1539. Hermes, Paris 1991.
17. Nazin A.V. On minim ax bound for parameter estimation in ball (bias accounting) // In: New Trends in Probab. and Statist., V. Sazonoy and T. Shervashidze (Eds.), 1991 VSP/Mokslas. C.612-616.
18. Nazin A.V. Efficient Adaptive Minimum Variance Control for Discrete Stochastic Linear Plant under Unknown Noise Density: NN-Approacb // Proc. CONTROL'94, 21-24 March 1994, Coventry, UK. P. 110-113.
19. Nazin A.V. Quasi-Efficient Stochastic Approximation on the Basis of Neural Networks // Proc. 33rd Conf. Dec. & Contr., Lake Buena Vista, FL - Dec. 1994. P. 1163-1164.
20. Nazin A.V., Polyak B.T., Tsybakov A.B. Passive stochastic approximation. Preprint, Inst. Contr. Sci., 1990.
21. Nazin A.V., Polyak B.T. and Tsybakov A.B. Optimal and robust kernel algorithms for passive stochastic approximation // IEEE Trans. Inf. Theory, Vol.38, No.5, Sept., 1992, p.1577-1583.
22. Nazin A. V., Shcherbakov P.S. NN-approach to design of the optimal stochastic approximation algorithms // Proc. CONTROL'94, Coventry, UK, March 1994. P. 449-453.
23. Nazin A.V., Tikhonov S.N. Asymptotic Averaging Along Stochastic Approximation Trajectories for Identification of ARX Model // Proc. 10th IFAC Symp. on System Identification P.649-653, 4-6 July 1994, Copenhagen, Denmark.