Оптимальный останов процессов обучения и оценивания тема автореферата и диссертации по математике, 01.01.09 ВАК РФ
Лукин, Сергей Петрович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Ленинград
МЕСТО ЗАЩИТЫ
|
||||
1984
ГОД ЗАЩИТЫ
|
|
01.01.09
КОД ВАК РФ
|
||
|
ВВЕДЕНИЕ.
СПИСОК ОБОЗНАЧЕНИЙ.
ГЛАВА I. ВСПОМОГАТЕЛЬНЫЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И СТАТИСТИЧЕСКОГО
ПОСЛЕДОВАТЕЛЬНОГО АНАЛИЗА.
§1.1. Необходимые сведения из теории вероятностей.
§ 1.2. Общая постановка задачи оптимального останова.
ГЛАВА 2. ОПТИМАЛЬНЫЙ ОСТАНОВ АЛГОРИТМОВ ОБУЧЕНИЯ.
§ 2.1. Задача обучения распознаванию образов
§ 2.2. Постановка задачи оптимального останова КСА.
§ 2.3. Оптимальный останов КСА.
2.3.1. Введение
2.3.2. Постановка задачи оптимального останова алгоритмов обучения. Определения.
2.3.3. Оптимальное правило останова
2.3.4. Упрощенное вычисление функции Беллмана
2.3.5. О единственности решения уравнения
Беллмана.
§ 2.4. Свойства цравил останова КСА.
2.4.1. Области останова. Оценки среднего времени достижения.
2.4.2. Асимптотическое поведение множеств ©с и функций
2.4.3. Случай конечного числа состояний.
2.4.4. Алгоритм вычисления решения уравнения Беллмана.
Результаты моделирования на ЭВМ
§2.5. Сравнение правил останова
2.5.1. Оптимальные моменты остановки в классах
Т и /о
2.5.2. Эффективность оптимального правила останова в случае конечного числа состояний.
2.5.3. Сравнение цравил останова КСА
§2.6. Оптимальный останов в задаче обучения распознаванию образов
2.6.1. Введение
2.6.2. Постановка задачи.III
2.6.3. Решение задачи оптимальной остановки.
2.6.4. Упрощенное нахождение множества останова
2.6.5. О единственности решения функционального уравнения.
1°. Для решения разнообразных задач адаптивного управления и обучения распознаванию образов используются многочисленные алгоритмы идентификации, адаптации, классификации. Это хорошо известные 33, 43, 49, 53 ] процедуры метода наименьших квадратов, стохастической аппроксимации, конечно-сходящиеся алгоритмы.
Работоспособность этих процедур часто обосновывается асимптотическими свойствами доставляемых;- ими оценок, обычно это -состоятельность, скорость сходимости и т.д, Вместе с тем для решения практических задач несомненный интерес представляет вопрос об окончании процесса оценивания { обучения, адаптации ) при условии достаточно высокого качества получаемых при этом оценок.
Задачи такого рода возникают в рамках метода статистического последовательного анализа А.Вальда 7, 9, 14, 32, 37, 52, 55, 57] . В работах 12 ] предложены правила останова конечно-сходящихся алгоритмов обучения, гарантирующих высокое качество ( малость вероятности ошибки распознавания ) получаемых при этом оценок, но эти правила не являются оптимальными.
Высокое качество оценивания алгоритма может не являться единственным желательным свойством. В приложениях приходится учитывать закаты машинного времени или стоимость проведения наблюдений ( экспериментов ), т.е. важна эффективность работы соответствующих алгоритмов. В таких случаях может оказаться целесообразным остановить процесс обучения С оценивания ) так, чтобы достигался разумный компромис между противоречивыми требованиями: высоким качеством и достаточно большой эффективностью работы алгоритма.
Изложенные соображения цриводят к формализации момента останова С остановки ) как оптимального, определяя его из условия минимума некоторого функционала.
Характерной чертой рассматриваемых в диссертации задач является то, что момент останова является случайным и определяется на основе данных наблюдения { в главе 2 это } ). Такой способ выбора момента прекращения обучения имеет преимущества { в смысле минимизации функционала J С') по сравнению с детерминированным моментом останова.
В предлагаемой работе найдены и исследованы оптимальные правила останова рекуррентных процедур в задачах оценивания и обучения распознаванию образов.
2°. Перечислим основные положения диссертации, выносящиеся на защиту.
1. Обоснование возможности црименения общих схем теории оптимальных правил остановки к широкому кругу задач обучения и оценивания и исследование свойств соответствующего уравнения Беллмана.
2. Теоремы об упрощении вычисления оптимального правила останова.
3. Алгоритм построения функции Беллмана для задачи оптимального останова процесса обучения в случае конечности множества признаков.
4. Способ аппроксимации оптимального момента останова.
3°. Перейдем к изложению материала диссертации.
Первая глава носит вспомогательный характер. В § I.I приводятся необходимые в дальнейшем сведения из теории вероятностей и статистического последовательного анализа.
В § 1.2 излагаются основные результаты общей теории оптимальных правил остановки, являющихся основой диссертационной работы.
Во второй главе рассматриваются стохастические рекуррентные алгоритмы обучения, предназначенные для нахождения вектора 9х неизвестных параметров опознающей системы. Оценки & неизвестного строятся в дискретные моменты времени 4*0,1,. согласно процедуре
- в, 6tm^i, 9,) = 9{). < >
Здесь элементы обучающей последовательности } принадлежат измеримому множеству И и являются независимыми случайными величинами с распределением F ; 6о произвольный случайный вектор с распределением вероятностей индикатор множества
Предполагается, что выполнены условия теоремы 2.1, цри которых алгоритм { B.I ) является конечно-сходящимся, т.е. хо tfj^^oo J - 1. <В.2)
4^0
В § 2.2 рассматриваются известные 12 | правила останова конечно-сходящихся алгоритмов, не обладающие оптимальными свойствами и обосновывается функционал потерь J , используемый для нахождения оптимального момента останова. В задаче обучения опознающих систем этот функционал имеет вид lbr) = ( в-3 > к.-О где с т? О - штраф за те моменты времени, в которые изменение параметра в из ( B.I ) не производилось, сх^ (0,1 ]- дисконтирующий множитель.
Минимум ( В.З ) ищется в классе Т марковских моментов, т.е. случайных величин со значениями в таких, что событие Г^^З измеримо относительно СГ~ -алгебры ^ -- (Г { 6о, rfJ для любого л/0 .
Определение оптимального момента останова из условия минимума { В.З ) в I гарантирует малость вероятности ошибки распознавания
F[xi ^о } В.4 ) при не слишком больших затратах на обучение.
В § 2.3 доказывается теорема, в которой дается способ отыскания оптимального момента останова в задаче обучения. Теорема является уточнением известных теорем об оптимальном останове, приводимых в литературе [37, 52 ] для более общих задач последовательного статистического анализа.
ТЕОРЕМА 2.2. Цусть алгоритм обучения { B.I ) конечно-сходящийся, тогда момент л!.: ЦШ^рМ) ] <в-5 > является оптимальным в Т и , где из { В.4 ), функция Jj(9) является решением функционального уравнения ( уравнения Беллмана ) в.6 ) в котором оператор /-/ определен на множестве измеримых ограниченных функций -f : f^-^ I)?1 формулой
H&J)= {Sle+IfreWX'VlFtt*]. (B.7) X
В пунктах 2.3.4 , 2.3.5 показано, что неотрицательное решение уравнения Беллмана единственно и может быть найдено методом последовательных приближений где монотонно невозрастающие неотрицательные функции {^ } задаются рекуррентными соотношениями
Ш - w* f W, 4 1- т W н (к в) 1, в.8 )
Вычисление последовательных итераций [Цк ) быстро усложняется, поэтому приходится ограничиваться первыми приближениями функции jjO) .
Приводится упрощенный способ нахождения ^ , при котором приближенное решение уравнения Беллмана позволяет получить оптимальный момент остановки.
ТЕОРЕМА 2.4. Пусть конечно-сходящийся алгоритм ( B.I ) такой, что существует такое S z 1 , что множество чО0 - О рт-Ш] инвариантно при отображении
-fx*:, 9)=,г* v,в)), fv 6) * ш в) для любых Я0*,. , X . Тогда оптимальный момент останова совпадает ( с вероятностью I ) с моментом , где
-"^(Vf/V.: (В.9 )
Этот результат, по-видимому, является некоторым обобщением известного по работам \37, 52 \ так называемого "монотонного случая".
- 10
Указано, что момент из ( В.9 ) и оптимальный в клас
Ти момент В.10 ) аппроксимируют при оптимальный м.о. .
В § 2.4 исследуются свойства оптимального момента в зависимости от значений параметров С и U из ( В.З ). При этом используются такие характеристики стохастических алгоритмов адаптации как среднее время сходимости и среднее число коррекций. Приводятся нетривиальные оценки этих характеристик.
В случае конечного множества признаков jc предлагается алгоритм вычисления решения уравнения Беллмана в произвольной точке # С (Э . Алгоритм удобен для реализации на ЭВМ, применим к произвольным рекуррентным процедурам вида ( B.I ) и представляет собой процедуру обхода вершин некоторого дерева. Основными особенностями приводимого алгоритма являются: I)функция Беллмана строится в заданной точке в результате однократного обхода дерева реализации с.в. j , без использования метода последовательных приближений; 2) для нахождения оператора H(jf,0) ( см. ( В.6 ) ) функция восстанавливается не во всех точках (5) , а только в тех, которые соответствуют значениям вектора , полученного в силу ( B.I ) при всех возможных значениях ОС 6 ЗС . Приведены результаты моделирования этого алгоритма на ЗВМ.
В § 2.5 на классе марковских моментов останова продемонстрирован основной эффект последовательного анализа: уменьшение значения функционала, вычисленного на оптимальном марковском м.о. по сравнению с детерминированным. Приведенная в этом па
- II раграфе теорема 2.9 позволяет получить оценки снизу величины $ = JO*)- JY^*} , где VI - оптимальный детерминированный момент останова, определяемый из условия 37=
-«•и/ т^;.
В случае конечного числа состояний марковской цепи, определяемой алгоритмом { B.I ), и малых штрафах С- удается определить эффективность применения методов последовательного анализа в задаче обучения, которая характеризуется величиной JO*)/ Jf-r*) Теорема 2.10 позволяет получить, что
С- —■>• О—
Установлена связь момента л/* первого достижения последовательностью [&] поглощающего множества ©0 ~ =■ { § 0) ^ 0 3 и немарковского момента , называемого времнем сходимости алгоритма { B.I ). Для конечносходящихся алгоритмов момент t о5 В.II ) ->/ - ~- j j
U =0 К-=0
Л "Г С*=> д/. 2ZJ(хт, бкУ22ЪЮ . где индикатор Т^г, & ) из { B.I ).
ТЕОРЕМА 2.II. Цусть алгоритм обучения ( B.I ) конечно-сходящийся, тогда момент останова
Л/# = miH Л\/й • ^ ^ ©о с вероятностью I совпадает с немарковским моментом * из ( В.II ).
Если в §§ 2.2 - 2.5 исследовался оптимальный останов в задаче обучения с учителем, то в § 2.6 предлагается рассмотреть задачу оптимального останова процесса обучения в случае, когда имеется М вариантов классификации тренировочной последовательности (%{} и нахождение решения в* задачи классификации производится в условиях неопределенности относительно номера варианта. Другими словами, предполагается, что имеется М "учителей" и каждый предлагает, вообще говоря, свой вариант классификации обучающей последовательности изображений, а идентификация параметра (jv = Sx-Cj^) осуществляется по случайно выбранному Цл -у варианту классификации { т.е. систему обучает случайно выбранный из заданного набора ^ -й "учитель" ).
Такой подход к задаче обучения опознающей системы повышает её гибкость и расширяет возможности обучаемых систем.
Нахождение правила останова в этом случае становится более сложным, решение этой задачи связано с идентификацией параметра ^ по обучающей выборке. Соответствующий результат сформулирован в теореме 2.12. Также как и в задаче обучения с учителем в рассмотренной задаче цриведен способ упрощения вычисления оптимального момента останова, указан способ аппроксимации оптимального , предложено обоснование функционала, характеризующего качество работы алгоритма обучения.
В приложении обсуждается задача оптимального останова алгоритмов стохастической аппроксимации в схеме наблюдения
Уж = % 9* ' , % ' ¥(*<■), . < в.12 )
Здесь 9м- - вектор неизвестных параметров, ^Рб) - заданная маличная функция, { ^ ^ } - наблюдаемые в дискретные моменты времени величины, | - помеха наблюдения.
Для получения оценок {${] параметра Q у используется рекуррентная модификация метода наименьших квадратов
Pw-Pt-PiV/L (B-I3)
L4 = (K + 9? /?c/f f, в предположениях:
A. Случайные величины ^ в < В.12 ) стохастически независимы и
М 1/Н, Ml?!?- .
Б, Вьшолнено неравенство г. ' с некоторой постоянной . £
B. Информационная матрица предельно невырождена, т.е. -Вщ ] 1 ) ^ ^^
Эти условия, как известно [43, 44 ] гарантируют сходимость в{ п.н. при начальных данных во , Ро>0 и положительной весовой матрице R
В § 2 обосновывается функционал средних потерь, получаемых от использования момента останова ^ , вида
Tor)-'ZT 1. ( в.14 )
Оптимальный момент останова находится из условия минимума этого функционала в классе | -марковских моментов относительно системы
Первое слагаемое в ( В.14 ) растет при возрастании времени оценивания. Величина т> о играет роль стоимости проведения одного наблюдения ( или одной итерации алгоритма ( В. 13 ) ).
Правила останова, цригодные, по крайней мере в принципе, для решения прикладных задач, удается получить при сведении первоначальной задачи к задаче останова некоторой "марковской'.'
- 14
В § 3 показано, что в результате такой редукции функционал ( В.14 ) запишется J (т) = MLjfe-Hc , где функция 3(h) » аргументом которой является векторно-матричный набор Л вл5) имеет вид
9(ff) = s tQ+li-fftl* (влб)
Л Л
Здесь случайные векторы и матрицы , в предположениях независимости случайных величин в*- и (Ч^ } и их гаус-совости, являются апостериорными { байесовскими ) оценками среднего и ковариационной матрицы вектора 9м- и пересчитыва-ются согласно рекуррентным формулам Байеса-Стратоновича ( см. формулы ( П.18 ) - ( П.21 ) в тексте ).
Оптимальный момент останова выражается в терминах величин [^j из ( В.15 ), которые в силу { В.13 ) и формул { П.18 )~ - ( П.21 ) в тексте, удовлетворяют рекуррентным соотношениям типа цричем система ) Р) образует марковскую случайную функцию и является достаточной [ 52 ] в рассматриваемой задаче оптимального останова. ТЕОРЕМА. П.З. Пусть
1) величины OCj. определяются разностным соотношением
- );
2) величины (j/f) и из ( В. 12 ) удовлетворяют условиям А - В;
3) вектор является гауссовской величиной с заданными
- 15 статистическими характеристиками: средним в и ковариационной матрицей ^ 0 ;
4) случайные величины 4С0 и lJi независимы;
5) начальное данное 9 о в алгоритме ( В. 13 ) такое, что hie*
Тогда оптимальный в / момент останова для функционала ( В. 14 ) определяется соотношением
Г"* = [/{Л\/0: S(h) = ]fCW} . { В.18 )
Здесь функция из { B.I6 ), фикция удовлетворяет уравнению Беллмана нсу,!)и ]) из { В.17 ), (X, 9,6, ) , условная гауссовская плотность Ц ) случайной величины ^ имеет параметры мс) = W ,
Шч-ФЬь-рёУнЬ rpv'+tv.
Там же показано, что средством аппроксимации оптимального м.о. являются моменты 0 { см.утверждение П. 5 )
Средством аппроксимации оптимального являются также моменты ^ , использующие конечный горизонт прогнозирования
МЫ L С В.20 )
Кроме того, J ftTv) ^ ~J(? { см. теорему П.6 ), где и ^ из ( В.19 ) и { В.20 ) соответственно.
В § 4 приводятся условия, при которых оптимальный момент останова допускает упрощенное описание, т.е. для его нахождения используется первое цриближение jj{ (1) функции Беллмана (см. {B.I8)).
Приведены примеры задач, в которых марковский момент останова не уменьшает значения функционала потерь ( В.14 ) по ссра-внению с оптимальным детерминированным.
Чтобы не загромождать текст ссылками на формулы, в доказательствах теорем используются ссылки вида ( Д. 00 ).
Основные результаты диссертации докладывались на семинарах кафедры теоретической кибернетики Ленинградского государственного университета им. А.А.Жданова и изложены в работах ^26 - 30 ] .
- 17
СПИСОК ОБОЗНАЧЕНИЙ А
- равно по определению
Л/. ={1,2,. } u = i.2,., L
1/j1*1 - вещественное евклидово пространство размерности М ОС, = to в (ос^., я:^) ~ вектор с /41 компонентами Щ - вектор ) г и [ а, ( } d если Л < 4 i , если CL7 в X? й [ХЛ}., Я* ) х{)й О*, )
У) = J) - скалярное произведение векторов Я! и ^ | я) = ~ евклидова норма вектора я? и модуль числа Ос
- матрица эрмитово сопряженная матрице /3 (в вещественном случае /3*- , где $Т - транспонированная матрица 6 ) б"1 - матрица, обратная матрице б |6 ] - евклидова норма матрицы 6
Sp Ь ~ след { сумма диагональных элементов ) квадратной матрицы /6 f й 0; у 3 = мл/ £ 0; у }
Q, 7"; ~Р) - вероятностное пространство ^ — элемент Q
С?, со / /1
Jf.-j - индикатор множества {• J.^ ~
A/fe - плотность нормального ( гауссовского ) распределения, где -вектор среднего и /J -матрица кова-риации
- 18 v| - символ математического ожидания М[ ' ] ~ условное математическое ожидание м,{-} = Mf /«ж п.н. - "почти наверное" ( с вероятностью I ) или Р « п.н. - такое обозначение будет использоваться в тех случаях, когда важно подчеркнуть, относительно какой из вероятностных мер выполняется некоторое свойство "почти наверное" п.в. - "почти всюду" - часто употребляется вместо слов "почти наверное" с.в. - случайная величина ( случайные величины ) р - импликация, т.е. логическое высказывание "если о^ , то р> " или " оС есть достаточное условие для у3 " ol^=> jb - эквиваленция, т.е. ol - JP и р> oL Q(t) <—> существует J^//?1 такое, что о^ ^ fay* Ctj. ( $ ^ ) - нижний { верхний ) предел последовательности / J t ^ - единичная матрица /кх ж ,
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
1. Предложены оптимальные правила останова и изучены их свойства для широкого класса алгоритмов метода рекуррентных целевых неравенств и метода стохастической апцроксимации { соответствующий результат для алгоритмов метода стохастической аппроксимации изложен в приложении ).
2. Изучены условия, цри которых оптимальное правило останова допускает упрощенное описание.
3. Реализовано на ЭВМ оптимальное правило останова процедуры обучения в случае конечности множества признаков изображений.
4. Введены и исследованы различные приближения к оптимальному моменту останова и осуществлено их сравнение с детерминированным моментом останова.
ЗАКЛЮЧЕНИЕ
Полученные во второй главе результаты позволяют сделать некоторые выводы относительно оптимального останова конечно-сходящихся процедур в задаче обучения опознающих систем.
Правило останова ( формула ( 2.19 ) ) рекуррентных алгоритмов обучения является оптимальным по отношению к заданному функционалу потерь в классе I - марковских моментов, цринимающих значения в
Приближениями оптимального момента в классах I и
Т являются моменты останова и , соответственно.
Моменты , in. ^ 1 задаются с помощью функций (■■) J из { 2.24 ), являющихся, как показано в теореме 2.2, последовательными по К приближениями сверху функции Беллмана . Можно показать. ( см. утверждение П.З цриложения ), что функции J"* С 6) , получаемые в силу соотношений
Л] Hat. являются последовательными { no h ) приближениями снизу функции Jj(&) .
В теоремах 2.3 и 2.4 приведены достаточные условия цри которых марковский момент останова , использующий И -шаговый (на И. шагов вперёд ) горизонт прогнозирования, совпадает с оптимальным с вероятностью I. Известный в литературе "монотонный случай" предлагается в теореме 2.3 в более
- 137 удобных для исследований терминах, в теореме 2.4 цриводится некоторое его обобщение.
В примере 2.2 иллюстрируется способ нахождения оптимального правила останова в одной задаче обучения, в примере 2.3 рассмотрен случай, когда п.н.
Оптимальный марковский момент можно трактовать как момент первого достижения последовательностью , порождаемой алгоритмом обучения ( см. формулу < 2.4 ) ), множества останова . Вид этого множества задаётся с помощью функции Беллмана . Оценки оптимального , таким образом, можно подучить, используя интегральное уравнение для функции см. ^¥верждение 2.3). Изучены свойства множествами функции в зависимости от параметров ( штраф за "бесполезные наблюдения" ) и £ дисконтирующий множитель ), входящих в функционал потерь. В частности показано, что и , где - поглощающее множество для конечно-сходящегося алгоритма, а - момент первого достижения этого множества.
Таким образом в пределе { при ) оптимальный момент совпадает с моментом первого достижения поглощающего множества, что вполне естественно. При возрастании штрафа множество останова "расширяется" ( см. утверждение
2.2 ) и цри и совпадает с - множеством всевозможных значений настраиваемого параметра.
При сравнении оптимального марковского момента останова с оптимальным детерминированным моментом приведены оценки величины . В теореме 2.10 в случае конечности множества состояний цепи } и малых С установлено, что эффективность применения марковских правил, задаваемая величиной <90.= * J/ ТС^*) , может быть сколь угодно большой. Указан класс задач в которых этот эффект последовательного анализа не наблюдается { см. замечание 2.6, теорему 2.10 ).
Наряду со случайной величиной - гс~с изучается её среднее , при условии Такие характеристики, как среднее время |с [в) и среднее число коррекций , являются важным инструментом исследования конечно-сходящихся алгоритмов обучения и цредставляют собой некоторое обощение уже известных по работам [43, 45 1 характеристик КСА: Т7$) среднего времени сходимости и Я16) - среднего числа коррекций до попадания в поглощающее множество. В теоремах 2.6, 2.7 указана связь этих характеристик с функцией Беллмана ^(в) •
Приведён алгоритм построения функции Беллмана, предназначенный для машинной реализации правила останова в случае конечности множества признаков X . Этот алгоритм не обладает недостатками, связанными со сложностью вычисления и объёмом памяти, присущими процедурам нахождения функции jf(') с помощью метода последовательный приближений или линейного программирования [18, 56].
Особенностью рассмотрение в главе задач об оптимальном останове является необходимость знания распределения вероятностей Р обучающей последовательности и вероятности ошибки классифи
- 139 кации, т.е. задача классификации предполагалась решенной и ставилась только задача останова.
В § 2.6 рассмотрена более содержательная задача обучения, в которой распределение вероятностей f цредполагается известным с точностью до параметра , принимающего конечное число значений. Таким образом, наряду с задачей оптимального останова решается задача классификации ( восстановления параметра расцределения обучающей выборки ).
1. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. - М.: Наука, 1970. - 384 с.
2. Алберт А. Резтресоия, псевдоинверсия и рекуррентное оценивание. М.: Наука, 1977. - 224 с.
3. Аркин В.И., Колемаев В.А., Ш1фяев А.Н. 0 нахождении оптимальных управлений. Труды математического ин-та им. В.А.Стеклова АН СССР, 1964, т.71, с. 21-25.
4. Беллман Р. Динамическое программирование. М.: ИЛ, 1960.225 с.
5. Беллман Р., Дрейфус С. Прикладные задачи динамического программирования. М.: Наука, 1965. - 460 с.б.ЗБеллман Р., Калаба Р. Динамическое программирование и современная теория управления. М.: Наука, 1969. - 120 с.
6. Блекуэлл Д., Гиршик М.А. Теория игр и статистических решений. М.: Изд-во иностр.лит., 1958. - 374 с.
7. Богуславский И.А. Прикладные задачи фильтрации и управления. М.: Наука, 1983. - 400 с.
8. Вальд А. Последовательный анализ. М.: Физматгиз, 1960.234 с.
9. Васильев В.П., Конев В.В. Последовательное оценивание параметров динамических систем при неполном наблюдении. -Изв. АН СССР { Техническая кибернетика ), 1982, $ 6, с. 31 39.
10. Воробейчиков С.Э., Конев В.В. О последовательной идентификации стохастических систем. Изв. АН СССР { Техническая кибернетика ), 1980, В 4, с. 184 - 191.
11. Де Гроот М. Оптимальные стохастические решения. М.: Мир,1974. 491 с.
12. Дереввдкий Д.П., Фрадков А.Л. Прикладная теория дискретных адаптивных систем управления. М.: Наука, 1981. - 216 с.
13. Дочвири В.М. Об оптимальной остановке частично наблюдаемого случайного процесса в схеме Калмана Бьюси. - Труды Тбилисского университета, 1981, т. 225, с. 51 - 61.
14. Дуб Дж.Л. Вероятностные процессы. М.: ИЛ, 1956. - 605 с.
15. Дынкин Е.Б. Марковские процессы. М.: Физматгиз, 1963. -860 с.
16. Катковник В.Я. Кульчицкий О.Ю. Идентификация линейных динамических систем со случайными возмущениями при неполном наблюдении вектора состояний. В кн.: Кибернетика и вычислительная техника. Дискретные системы. Л* Изд-во ДЛИ ,1975, вып. 28, с. 18 22.
17. Катковник В.Я., Кульчицкий О.Ю. Возможность применения методов типа стохастической аппроксимации для адаптивнойстабилизации дискретной линейной динамической модели. -Автоматика и телемеханика, 1976, № 9, с. 113 123.
18. Кемени Дж., Снелл Дж. Конечные цепи Маркова. М.: Наука, 1970, - 272 с.
19. Конев В.В. Границы для среднего времени достижения постоянного порога неупреждающим функционалом от случайного цроцесса рекуррентного типа. Успехи мат. наук, 1984,т. 39, вып. I { 235 ), с. 1246 1253.
20. Конев В.В., Конева Е.С. Об оптимальности последовательной процедуры оценивания параметров рекуррентных процессов.-Изв. АН СССР { Техническая кибернетика ), 1984, В 3, с. 118 123.
21. Королюк Д.В., Сильвестров Д.С. Моменты достижения асимптотически удаляющихся областей для эргодических цепей Маркова. Теория вероятности и её применение, 1983, т. 28, вып. 2, сА 410 - 420.
22. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. -М.: Наука, 1974. 696 с.
23. Лукин С.П. Оптимальный останов в задаче обучения распознаванию образов. Рукопись деп. в ВИНИТИ, № 488&-84. Деп# от 26.07.1984. - 28 с.
24. Лукин С.П., Фомин В.Н. Оптимальный останов в одной задаче оценивания. Рукопись деп. в ВИНИТИ, № 4927-84. Деп. от 10.07.1984. - 15 с.
25. Лукин С.П., Фомин В.Н. Оптимальный останов конечно-сходящихся алгоритмов обучения. Рукопись деп. в ВИНИТИ, № 1338-84. Деп. от 7.03.1984. - 20 с.
26. Лукин С.П., Фомин В.Н. Оптимальное правило останова алгоритмов обучения с поощрением. Вестн.ЛГУ, 1984, № 13, с. III - 113.
27. Лукин С.П., Холопов А.А. Свойства цравил останова конечно-сходящихся алгоритмов. Рукопись деп. в ВИНИТИ, $ 385684. Деп. от 12.06.1984. - 38 с.
28. Мейер П.А. Вероятность и потенциалы. М.: Мир, 1973. -324 с.
29. Майн X., Осаки С. Марковские процессы принятия решений. -М.: Наука, 1977. 175 с.
30. Невельсон М.Б., Хасьминский Р.В. Стохастическая аппроксимация и рекуррентное оценивание. М.: Наука, 1972, - 304 с.
31. Новиков А.А. Последовательное оценивание параметров процессов диффузионного типа. Математ. заметки, 1972, т.12, № 5, с. 627 - 638.
32. Растригин Л.А. Системы экстремального управления. М.: Наука, 1976. - 630 с.
33. Растригин Л.А., Рига К.К., Тарасенко Г.С. Адаптация случайного поиска. Рига: Зинатне, 1978. - 242 с.
34. Роббинс Г., Сигмунд Д., Чао И. Теория оптимальных правил остановки. М.: Наука, 1977. - 168 с.
35. Розенблатт Ф. Принципы нейродинамики. { Перцептрон и теория механизмов мозга ). М.: Мир, 1965. - 480 с.
36. Сильвестров Д.С. Процессы с дискретной компонентой полумарковского типа. Текст лекций. Киев: Киевский ГУ", 1977.50 с.
37. Срагович Б.Г. Адаптивное управление. М.:-Наука, 1981.384 с.
38. Ферманн X. Сходимость цен при оптимальной остановке частично наблюдаемых случайных последовательностей относительно квадратичного критерия.- Теория вероятностей и её применение, 1982, т. 27, вып. 2, с. 364 369.
39. Фомин В.Н. Математическая теория обучаемых опознающих систем.- Л.: Изд-во ЛГУ, 1976.- 288 с.
40. Фомин В.Н. Рекуррентное оценивание и адаптивная фильтрация.- М.: Наука, 1984.- 288 с.
41. Фомин В.Н., Фрадков А.Л., Якубович В.А. Адаптивное управление динамическими объектами.- М.: Наука, 1984.- 448 с.
42. Фомин В.Н., Холопов А.А. Среднее время сходимости рекуррентных алгоритмов ( с поощрением ).- Деп. в ВИНИТИ,1. Ш 3867 76, 22с.
43. Хазен Э.М. Методы оптимальных статистических решений и задачи оптимального управления.- М.: Изд-во Советское радио, 1968. 256 с.
44. Хасьминский Р.З. Устойчивость дифференциальных уравнений цри случайных возмущениях их параметров.- М.: Наука, 1969.- 360 с.
45. Холопов А.А. Сходимость и оценка скорости сходимости рекуррентных процедур адаптации.- Дис. канд. физ.~ мат. наук.- Л., 1979.- 94 с. В надзаг. : Л1У им. А.А.Жданова.
46. Цыпкин Я.З. Адаптация и обучение в автоматических системах.- М.: Наука, 1968. 400 с.
47. Чжун Кай-пяай. Однородные цепи Маркова. М.: Мир, 1964. - 426 с.
48. Ширяев А.Н. Вероятность. М.: Наука, 1980.- 572 с.
49. Ширяев А.Н. Статистический последовательный анализтеория оптимальных правил остановки ).- М.: Наука, 1976.- 272 с.
50. Эйкхофф П. Основы идентификации систем управления. М.: Мир, 1975. - 683 с.
51. Якубович В.А. Рекуррентные конечно-сходящиеся алгоритмы решения систем неравенств. Доклады АН СССР, 1966, т. 166, № 6, с. 1308 I3II.
52. Chow J.S., Robbins Н, A martingale system theorem and applications. In: Proceedings of the Fourth Berkeley symposium on mathematical statistics and probability. University of Oalif. Press, 1961, v.1, p. 93 - 104.
53. Derman C. Finite state Markovian Decision processes. -N.-Y.: A.P., 1970. 384 p.57» Fu K.S. Sequential methods in pattern recognition and machine learning. N.-Y.: A.P., 1968. - 227 P«
54. Greenberg H.J., Loh L.W.T. An Analysis of Cut off Rules for optimization Algorithms. IEEE Trans, oyst. Man. Cyb., SMC-4, n. 1, p. 108 - 112.
55. Kennedy D.P. On a constrained optimal stopping problem.-J.Appl.Prob., 1982, n. 19, p. 631 641.
56. Monahan G.E. Optimal stopping in a partially observable Markov process with costly information. Operat.Res., 1980, v. 28, n. 6 ( Nov. - Des.), p. 1319 - 1334.- 14-7
57. Snell J.L. Applications of martingale system theorems. -Trans. Amer. Soc., 1953» v. 73, p. 293 312.
58. Zielinski R. A class of stopping rules for fixed sequential estimates. Z.Zastosowania Mathematyki, 1982, v. 17» n. 2, p. 277 - 281.- 148