О некоторых методах исследования алгоритмов поиска и оптимизации

Чекмасов, Максим Валентинович

О некоторых методах исследования алгоритмов поиска и оптимизации тема автореферата и диссертации по математике, 01.01.09 ВАК РФ

Чекмасов, Максим Валентинович АВТОР

кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ

Санкт-Петербург МЕСТО ЗАЩИТЫ

1995 ГОД ЗАЩИТЫ

01.01.09 КОД ВАК РФ

Автореферат по математике на тему «О некоторых методах исследования алгоритмов поиска и оптимизации»

Автореферат диссертации на тему "О некоторых методах исследования алгоритмов поиска и оптимизации"

р Г Б ОА 1 о АПР 1935

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

ЧЕКМАСОВ Максим Валентинович

О НЕКОТОРЫХ МЕТОДАХ ИССЛЕДОВАНИЯ АЛГОРИТМОВ ПОИСКА И ОПТИМИЗАЦИИ

Специальность: 01.01.09 - математическая кибернетика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

САНКТ-ПЕТЕРБУРГ 1995 г.

Работа выполнена на кафедре статистического моделирования математико-механического факультета Санкт-Петербургского государственного университета.

Научный руководитель:

доктор физико-математических наук, профессор A.A. Жиглявски{

Официальные оппоненты:

доктор физико-математических наук, ст.науч сотр. Б.В. Седунов кандидат физико-математических наук, доцент А.Н. Коваленко

Ведущая организация: Санкт-Петербургский Технический Университет

Защита состоится 27 апреля 1995 г. в ~~~ часов на заседании диссертационного совета К 063.57.49 по защите диссертаций на соискание ученой степени кандидата физико-математических наук в Санкт-Петербургском государственном университете по адресу: 198904, г. Санкт-Петербург, Старый Петергоф, Библиотечная площадь, дом 2, математико-механический факультет СПбГУ.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного з'ниверситета по адресу: 199034, г. Санкт-Петербург, Университетская набережная, дом 7/9.

Автореферат разослан " <?3" 1995 г.

Ученый секретарь

диссертационного Совета К 003.57.49, кандидат физ.-маг. наук, доцент

А.И. Шепелявый

Общая характеристика работы

Актуальность темы. В современных условиях научно-техничес-<ий прогресс в значительной мере определяется степенью исполь-ювания математических методов в управлении, автоматизации, 1ланировании и проектировании. Многие задачи при этом форму-шруются в виде задач поиска и оптимизации. Поэтому проблемы юиска и оптимизации являются важными проблемами современ-юй вычислительной математики и математической кибернетики. Эбласти приложений, где встречаются подобные задачи, включает в себя такие разные дисциплины, как медицина, информатика, 1скусствениый интеллект, техника. Решение указанных задач не-юсредственно связано с использованием компьютеров.

Большой вклад в развитие теории поиска внесли такие уче-пле, как А. Дорфман, Р. Альсведе, Д. Кнут и Г. Уинн. Ре-|ультаты в области оптимизации в значительной мере определяется работами таких ученых, как Й.Б. Моцкус, Р.Г. Стронгин, П.А. Растригин, С.М. Ермаков, A.A. Жиглявский, А.Г. Жилин-:кас, Ю.А. Сушков и других.

Дель работы. Целью работы является разработка и исследова-гие пассивных методов поиска объектов общей природы и ада-1тивных алгоритмов оптимизации, в том числе двух методов гло-5альной оптимизации, а также формулирование нового подхода к ^.следованию градиентного алгоритма.

Методы исследования. В работе применяются методы вычи-:лительной математики (теория приближений, равномерные сет-си), теории вероятностей (предельные теоремы, вероятностные 1еравенства), математической статистики (экстремальные поряд-:овые статистики).

Научная новизна.

В работе сфор.мулиропаны различные критерии оптимальности тссивных алгоритмов поиска и проведено сравнение целого ряда uiropttTMon по отношению к этим тритериям. Показано, ь част-юсти, что применение расслоенной выборки дает некоторые пре-шущества при построении оптимальных покрытий то сравнению

с простым случайным выбором, который является составной частью некоторых <irur лтогически оптимальных схем покрытий.

- Рассмотрены две новые схемы исследования алгоритмов поиска глобального экстремума. Проведен > теоретическое обоснование использования предложенных схем и тщательное численное сравнение.

- Предложен новый подход к исследованию градиентного алгоритма, основанный на. изучении динамической системы, получающейся из градиентного алгоритма путем подходящей репорма-лизации.

Практическая ценность. С помощью предложенных в работе алгоритмов могут быть решены весьма сложные практические задачи. Все алгоритмы, предложенные в работе, реализованы в виде программ ЭВМ, составляющих единую библиотеку программ по методам поиска и оптимизации. Примеры численных расчетов, реализованных на ЭВМ, приведены в диссертации.

Апробация работы. Результаты работы неоднократно докладывались на семинарах лаборатории статистических методов и моделирования систем НИИММ СПбГУ, кафедры статистического моделирования СПбГУ, кафедры математической кибернетики СПбГУ. Сделаны доклады по теме диссертации на международной конференции "Model-Oriented Data Analysis III" (С.-Петербург, 1092) и международном семинаре "Mathematical Methods and Tools in Computer Simulation" (С.-Петербург, 1994).

Публикации. По теме диссертации опубликовано 4 работы.

Об-ьем работы. Диссертация состоит из введения, трех глав и заключения, изложена на 100 страницах, включая G таблиц. 33 рисунка и списка литературы, содержащего "Г, наименований.

Содержание работы

Во Введении кратко изложена актуальность темы исследования и описание решаемых задач.

Глава 1 посвящена оптимальным пассивным алгоритмам поиска. В § 1 Главы 1 даются понятия и результаты, которые будут использоваться в дальнейшем. В частности, приведены определения понятий теории поиска, равномерных последовательностей, случайных и квазислучайных последовательностей, приведены примеры указанных последовательностей и некоторые их свойства. Теория поиска рассмотрена с геометрической точки зрения и показана ее тесная связь с задачами построения оптимальных покрытий области поиска.

§ 2 посвящен описанию различных критериев оптимальности пассивных алгоритмов поиска (сеток) и сравнению различных сеток по этим критериям оптимальности. Рассмотрены типичные для математической статистики минимаксный, байесовский подходы, а также аналогичные стандартному в теории информации энтропийному критерию. Исследован целый ряд критериев, основанных на многогранниках Вороного, а также характеристики, связанные с интегрированием, наиболее известным из которых является разброс (discrepancy). Рассмотрены характеристики, связанные с покрытием области поиска Л', в частности р-разброс (dispersion) или минимальный радиус покрытия. Приведено обобщение понятия р-разброса по отношению к мере ft, заданной на множестве X. Пусть В € В - множество, принадлежащее некоторой системе В выпуклых множеств одного вида, Хл-- сетка, определенная в Я' и состоящая из N элементов. Тогда предлагаемый критерий представим в виде:

Р= с-(p^XtBfl)(XN))1/ ,

где с = [^(единичного шара в эвклидовой метрике)]1'1*, d — размерность пространства и

Пх.в.лСХ-я) =«"p{/i(B) : В ев, хЛ-П^ = й} •

В случае, к.>гда В - множество шаров, введенное определение р-разброеа совпадает со стандартным.

Пусть Т € Т - некоторая цель поиска, принадлежащая множеству целей Т. Рассмотрена задача выбора множеств разбиения как непересекающихся интервалов в случае размерное :и пространства (I = 1. Покизнно. что при использовании пассивных

методов для поиска цели с априорным распределением тг(4) оптимальным по отношению к энтропии разбиением является расстановка интервалов поиска пропорционально it(t).

Представлены примеры типичных сеток на X = [0,1], проведено вычисление различных критериев для рассматриваемых сеток.

В § 3 рассмотрена задача построения оптимальных сеток для интегрирования характеристических функций от параллелепипедов. Пусть X = 0 - единичный куб в Rd: X = в = [О, l]d; f(x, в) -характеристическая функция точки # = :-,(>d) в X, то есть

f 1 если а^. < 0,- (j = 1,. .., ci), J/i = = !{*(<«} = ^

I 0 dпротивном случае.

Пусть Т(в) = П - интеграл функции f{x,6) по X. Т(в) оцени-j-i

вается линейной оценкой:

1 " 1 ~ jE/M-jrEi.

i=l i: ц <е

Точность этой оценки часто измеряют с помощью так называемого />^-разброса:

D"n = sup «€[0,1]''

Данная величина имеет наибольшую асимптотическую скорость убывания log N/N при N —» оо. Это значение скорости улучшено с использованием вида функции /. Вначале оценивается в

некоторым согласующимся с наблюдениями 0', а затем строится d

оценка Т = П в1-. Делается это следующим образом. i=i

Берется план, состоящий из N =.dk точек вида

(.г,,0,0,...,0) (г = 1

(О, .г,-,0, . . . ,0) (ial,...,H),

4=1 1=1

(0,0,...., а-,-) (¿-1.....к).

где 0 = х0 < < .. . < Хь < 1 = Согласующиеся с на-

блюдениями множества для в = (0\,... представляют собой параллелепипеды вида

Q(ii,...,id) = (1)

где »j,.. .,ij - целые, 0 < ij < к для всех j = 1,.. ,,d. Минималь-

ное и максимальное значения объема Т(в) — П равны соответственно

d d

П*., и IWi-,=l ,=l

В качестве критерия для выбора плана рассматривается минимаксный критерий

И|с(«1,..-,*лг) = «ир|Г-Г(в)|в вир sup |5Г-2"(*)| = в >......<<«ев(1,.....

= \ sup in *•■,+» - п

Расположенные на равном расстоянии точки Х{ = j^j-, i = 1 ,...,& задают гиперкуб в качестве параллелепипеда

с наибольшим значением ошибки |Т — Г(0)[, и поэтому

v"c (гп.....ITi) = 5 (* - Gil) ) " ^ при ^00 ■

Такой выбор точек плана показывает, что скорость сходимости равна, по крайней мере, const х f, к —»• оо. Это наилучшее из возможных значений скорости для минимаксного критерия, и поэтому указанная выше константа может служить критерием асимптотической оптимальности. Рассмотрен численный пример оптимального расположения точек плана для d = 2 и N = 2.

§ 4 посвнщен алгоритмам построения покрытий пространства тарами одинакового радиуса. Пусть Ю.1' - (¡-мерное эиклидопо пространство, /i - мера Лебега, Л — шар в И"*, /i(B) > 0, С = [О, 1)J - полуоткрытый куб в R'', сторону которого параллельны осям

координат, я (С) = 1 - длина, стороны куба. Назовем трансляцией множества К- на вектор а параллельный перенос К- на вектор а и обозначим {К + а}. Определим К как счетную систему шаров В. Если шары В С. 1С организуют полное покрытие куба С (то есть если х € С, то х е В, где В С /С), то система множеств {К + £,■}, где Х( € Zl', полносг-ью покрывает пространство К. . В этом случае определим плотность покрытия как

«=£/«(*). (2)

где суммирование ведется по всем В С. 1С. Очевидно, что <5 > 1. Чем меньше значение плотности покрытия, тем более экономное покрытие мы построили.

Для случая неполного покрытия определим

так, что Ф(/С,С) - относительная мера части куба С, не покрываемой шарами системы К. Если значение Ф(1С, С) мало, то шары системы К покрывают большую часть куба. Определим величину

ф+(£) = й^"<(С)_00ф(х;, с), (з)

которая является относительной мерой непокрытия всего пространства.

В теореме существования оптимальных покрытий ¿-мерного пространства, предложенной Роджерсом, строится оценка математического ожидания величины (3) на основе случайной выборки центров шаров покрытия. В настоящей диссертации показано, что если использовать расслоенную выборку центров шаров покрытия, то полученные оценки могут быть только лучше. Введем обозначения Ф"г и Ф^"' для.математического ожидания величины (3) в случае расслоенной и случайной выборок соответственно. Справедлива следующая теорема.

Теорема 1 Для любого шара В и положительного вещественного числа в Ф^г < ф"1<г и существует такая система Л" трансляций

шара В и такое в, что данное неравенство будет строгим: <

ф""'.

Далее в работе предложен алгоритм построения нерешетчатых покрытий, близких к оптимальным. Пусть имеется куб С = [0, 1)^. il размерность пространства, р - евклидова метрика, N - фиксированное натуральное число. Задача состоит в построении покрытия куба С шарами В радиуса г, 0 < г < 1. В кубе С строится кубическая сетка Ндг, состоящая из Nd элементов вида

.....i,.....id = 0,1.....N-l.

\N N NJ

Описание алгоритма следующее.

Алгоритм 1

1. Точка a-'i = (0,0,. .. ,0) е Едг; полагаем г = 1.

2. Полагаем к = О.

3. Точка z - независимая реализация случайного rf-мерного вектора с равномерным по сетке 3уу распределением.

4. Если p(z,Xj) < г хотя бы для одного j = 1,. .., i, то

• Полагаем к = к + 1;

• Если к > STOP, то переходим к Шагу 6;

• Переходим к Шагу 3.

о. Запоминаем точку х,- = z; полагаем i = г + 1 и переходим к Шагу 2.

6. Останов.

После окончания работы алгоритма предусмотрен следующий механизм проверки получения полного покрытия куба. Все точки сетки E.v проверяются на вхождение Хотя бы в один из шаров покрытия. Если находится точка сетки, не принадлежащая покрытию, покрытие достраивается шаром с центром в Данной точке. После окончания указанной процедуры увеличение радиуса шарив покрытия в соответствии со следующей теоремой обеспечивает получение полного покрытия.

Теорема 2 Пусть С = [0,1]"*. Есл и любая точка сетки с длиной

шага по каждой координате принадлежит U Bc(xi), то любая

¡=1

точка куба С принадлежит U Bc+h\fii(xi)> = 2JV'

<=1

Алгоритм 1 реализован в виде компьютерной программы, с помощью которой получены численные результаты для различных значений размерности пространства d и радиуса шаров г.

Глава 2 посвящена исследованию алгоритмов поиска глобального экстремума. В § 1 Главы 2 рассмотрены общие понятия глобальной оптимизации. Проблема глобальной оптимизации может быть представлена в общем виде следующим образом. Пусть X -некоторое множество, которое называется множеством оптимизации, и /:.¥—♦ R - неизвестная функция из некоторого функционального класса J7, называемая целевой функцией. Тогда задача состоит в аппроксимации величины

Г = sup f(x) (4)

reX

и/или в нахождении точки х, из Л', где / принимает значение, близкое к /*.

В § 2 рассмотрена общая схема построения адаптивных алгоритмов покрытий в предположении, что они построены для оптимизации целевой функции с фиксированной погрешностью 6 > О по ef значениям.

В § 3 рассмотрена схема построения покрытий пространства шарами разного радиуса.

Пусть имеется целевая функция f(x) € Lip (X,L,p), заданная на некотором множестве .V 6 RJ, 6 > 0 - вещественное число, определяющее требуемую точность, и X = . .} - выборка точек в .V. получаемая последовательно. Будем считать, что константа Липшица L известна (в противном случае строится ее оценка). Опишем общую схему алгоритма построения покрытия шарами разного радиуса..

лгоритм 2

1. Вычислим значение целевой функции / в точке положим /; = /(.г,), е, = 6/Ь, « = 2.

2. Возьмем очередную точку .т; 6 X.

3. Если р(< для некоторого j = 1,...,г — 1, то положим с,- = 0, г —» г + 1 и переходим на Шаг 2.

Если р(х;,ху) > е,-, для любого = 1,. . ., г — 1, то переходим на Шаг 4.

4. (а) Вычисляем /(ж,).

(b) Если /(г,-) < то положим = /,*_,, е, = - /(*,•)! + А) и переходим на Шаг 2, изменяя 1 —> + 1.

(c) Если /(г,-) > /*_,, то положим /¡* = /(а;,), е} = -/;*| + 6) для всех 3 = 1,.. .,! и переходим на Шаг 2, заменяя г —> г + 1.

Имеются три естественных правила останова для Алгоритма 2:

(1) число Лг точек последовательности X достигает определенного значения;

(п) число Л = точек а;,-, в которых вычислялась целевая

функция / достигает определенного значения;

(Ш) Шаг 4 не посещался заданное число успешных итераций.

Пусть N - выбранное правило останова. Целью работы Алго-

■V

ритма 2 является построение покрытия Ы £;, р) множества

'=1

Л' шарами разного радиуса. Радиус шара с центром в некоторой точке ж, выборки характеризует перспективность поиска глобального экстремума а окрестности .г,-. Чем больше значение радиуса шара г, тем менее перспективна область поиска в окрестности данной точки. В соответствии с Алгоритмом 2 значения функции вычисляются не во всех точках выборки, а лишь в тех, которые вошли в последовательность центров шлроп покрытия. По результатам работы компьютерных программ, реализующих указанный

алгоритм, представлены графики некоторых характеристик Алгоритма 2.

§ 4 посвящен исследованию точности случайной и расслоенной выборок в методе ветвей и вероятностных границ. Теоретические выводы о точности статистических выводов, построенных по элементам расслоенной выборки, по сравнению с аналогичными выводами, построенными по случайной выборке, проверены численно. Среди прочих, представлены графики функций

М ~an о/ ч E(,'mJ - М)г

Фи, 1/а) = - и Ф(/,2/а) = ——-гтт">

' > М — Етщ ' E(r,N - MY

по критерию среднего и дисперсии, где ri„,j, - соответствующие расслоенной и случайной выборкам порядковые статистики А/ = ess sup»j, а — параметр формы распределения экстремальным значений.

В качестве основного примера для численного сравнения выбрано множество оптимизации X = [0, l]1*, где <1 - размерност! пространства, и целевая функция вида

/(а\г*) = -рг(х,х"). (5]

С точки зрения оптимизации максимизация целевой функции (5] эквивалентна рассмотрению

Р*(Х; Л', р) = f />(r,X)p(cte)

в качестве критерия оптимальности для выбора плана X.

По результатам компьютерного моделирования представлен!, графики, демонстрирующие доминирование расслоенной выбор ки над случайной по рассматриваемому критерию.

В Главе 3 приведено численное исследование различных вариан тов градиентного алгоритма с точки зрения поведения динами ческой системы, которую образует этот алгоритм. § 1 Главы ; посвящен описанию механизма ренормализации области поиске •V, приведены примеры типичных динамических систем.

В I; 2 кратко описаны необходимые понятия эргодической те орич. показатели Ляпунова, обсуждается понятие эргодическо1 скорости сходимости алгоритма.

3 посвящен исследованию градиентного алгоритма и обсуждению численных результатов.

Пусть Л (/х г' неотрицательно-определенная матрица, и пусть целевая функция является квадратичной

/(.г) = / Л,.

Не умаляя общности, можно заменить матрицу А на диагональную матрицу Н, диагональными элементами которой являются расположенные по возрастанию собственные числа матрицы Л. Тогда алгоритм можно записать в виде

ГЫ1 = (/ - , (б)

где I - единичная матрица размера Л х Н. Оптимальная длина шага гц. градиентного алгоритма определяется из условия минимизации

.с1(1~<Ч11)Н(Г-якН)*к

н принимает значение

Использовалась ренормализация, которая оставляет минимизируемую точку в начале координат (О,. ... 0) и просто масштабирует тц на его же норму, чтобы ренормализованный процесс всегда оставался на единичной сфере. Скорость сходимости на итерации А- является отношением норм

11-^1 II

Это выражение можно интерпретировать как обратное к отношении» констант ренормалиэации на каждом шаге.

По результатам исследования алгоритма для квадратичной функции в случае размерности пространства <1 = 3 сделаны следующие выгоды.

(¡) Асимпготичгекая скорость сходимости алгоритма зависит как от функции, так и от начальной точки. Для квадратичной функции скорость зависит от наименьшего и наибольшего значений собственных чисел квадратичной формы, определяющей функцию. Зависимость от начальной точки очень слш.'НЯ!! благодаря наличию фракталоподпбной сгруп'чры

(и) Было высказано предположение, которое не доказано аналитически, что ренормализованный алгоритм притягивается к двумерной плоскости. Наличие фракталоподобной структуры ставит под сомнение возможность найти доказательство этого факта в литературе.

(ш) В предположении притяжения к размерности 2 найден двухточечный аттрактор, чьи значения точно задают скорость, аттрактор зависит от начальной точки.

Введение коэффициента ослабления в градиентный алгоритм, то есть

полностью меняет асимптотическое поведение алгоритма. Для фиксированной И в зависимости от значения 7 ренормализованный процесс притягивается к периодическим траекториям, независящим от начальной точки, то есть показывает хаотическое поведение.

В Заключении кратко сформулированы основные результаты работы и предложены направления дальнейших исследований.

Основные результаты работы

1. Проведена систематизация критериев для пассивных алгоритмов поиска и сравнение различных алгоритмов поиска по данным критериям.

2. Показано, что применение расслоенной выборки дает улучшение по сравнению со случайной выборкой в схемах построения асимптотически оптимальных покрытий пространства шарами одинакового радиуса и приведена схема построения покрытий, близких к оптимальным, использующая квазислучайные сетки.

3. Предложена и изучена схема построения алгоритма глобальной оптимизации, основанная на покрытии пространства (допустимой области) шарами разного радиуса.

О < 7 < 1 ,

Проведено сравнение случайных и квазислучайных методе ветвей и вероятностных границ.

сеток в

5. Проведено численное исследование некоторых свойств градиентного алгоритма, основанных на рассмотрении его как динамической системы в ренормализованном пространстве.

Автор глубоко признателен Анатолию Александровичу Жигляв-

скому и Сергею Михайловичу Ермакову за постоянную помощь

и поддержку при выполнении данной работы.

Список литературы

[1] M.V. Chekmasov., M.V. Kondratovich. Covering based on a stratified sample. // В трудах межд. конф. MODA-3 (W.G. Miiller, H.P. Wynn, A.A. Zhigljavsky (ред.)), Physica-Verlag, 1993, c. 265268.

[2] M.V. Chekmasov. Comparison of random and stratified sampling in some problems of approximation and search. // В трудах межд. сем. MMTCS-94 (S.M. Ermakov (ред.)), Изд. СПбГУ, 1994, с. 50-51.

[3] A.A. Zhigljavsky, M.V. Chekmasov. Optimizing step-length of the gradient algorithms for quadratic programming problems. // В трудах межд. сем. MMTCS-94 (S.M. Ermakov (ред.)), Изд. СПбГУ. 1994, с. 75-77.

[4] М.В. Чекмасов. Применение вероятностных методов для задач построения оптимальных покрытий. // Вестник СПбГУ. 4, 1994, с. 320 123.

[5] A.A. Zhigljavsky, M.V. Chekmasov. Comparison of independent, stratified and random covering sampling schemes in optimization problems. // Mathematical and Computer Modelling, (в печати).