Неперечислительные задачи информационного поиска тема автореферата и диссертации по математике, 01.01.09 ВАК РФ
Пивоваров, Александр Павлович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2012
ГОД ЗАЩИТЫ
|
|
01.01.09
КОД ВАК РФ
|
||
|
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М. В. ЛОМОНОСОВА
МЕХАНИКО-МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ
На правах рукописи УДК 519.71
Пивоваров Александр Павлович
НЕПЕРЕЧИСЛИТЕЛЬНЫЕ ЗАДАЧИ ИНФОРМАЦИОННОГО ПОИСКА
01.01.09 — дискретная математика и математическая кибернетика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
1 0 ■ і" 1
МОСКВА - 2012
005016787
005016787
Работа выполнена на кафедре Математической теории интеллектуальных систем Механико-математического факультета Московского государственного университета имени М.В. Ломоносова.
Научный руководитель — доктор физико-математических наук, профессор
Гасанов Эльяр Эльдарович
Официальные оппоненты:
Ложкин Сергей Андреевич
доктор физико-математических наук, профессор факультет Вычислительной Математики и Кибернетики, МГУ имени М. В. Ломоносова
Майлыбаева Гульнара Абаевна
кандидат физико-математических наук
Каргилл Энтерпрайзис Инк.
аналитик по инфраструктурной безопасности
Ведущая организация — Московский энергетический институт
(Национальный исследовательский университет)
Защита диссертации состоится 8 июня 2012 г. в 16 ч. 45 м. на заседании диссертационного совета Д.501.001.84 при Московском государственном университете имени М.В.Ломоносова по адресу: Российская Федерация, 119991, Москва, ГСП-1, Ленинские горы, д.1, Московский государственный университет имени М.В. Ломоносова, Механико-математический факультет, аудитория 14-08.
С диссертацией можно ознакомиться в библиотеке Механико-математического факультета МГУ имени М.В. Ломоносова (Главное здание, 14 этаж).
Автореферат разослан 25 апреля 2012 г.
Ученый секретарь диссертационного совета Д.501.001.84 при МГУ
доктор физико-математических наук, , - . „ т,
профессор ^ А.О. Иванов
Общая характеристика работы
Актуальность темы. Диссертация посвящена исследованию задач информационного поиска и принадлежит важнейшему разделу дискретной математики и математической кибернетики — теории управляющих систем. Задачи информационного поиска (ЗИП) — один из наиболее часто встречающихся на практике видов задач. При написании практически любой программы для ЭВМ требуется решать те или иные задачи поиска. Постоянная необходимость решения таких задач привела к появлению множества специализированных структур данных и алгоритмов поиска. В книге Дональда Кнута "Искусство программирования для ЭВМ" \ рассчитанной, в том числе, на инженеров, собраны некоторые из наиболее часто используемых на практике алгоритмов поиска и структур данных.
ЗИП могут иметь самую разную природу. Распространённый вид ЗИП — геометрические задачи информационного поиска. В таких задачах в качестве объектов, хранящихся в базах данных, а также в качестве запросов выступают геометрические фигуры. В качестве примера таких задач можно привести задачу о метрической близости2, задачу о доминировании3, задачу интервального поиска4,5, задачу двумерного интервального поиска с фиксированной стороной6. В работе Шеймоса и Препараты7 собрано воедино множество разнообразных геометрических задач информационного поиска и подходов к их решению. Для задач информационного поиска, в которых возникает потребность в последовательном поиске одного и того же ключа в нескольких линейно упорядоченных множествах, оказывается полезным использование техники частичного каскадирования8, позволяющей снизить время поиска за счёт увеличения объёма требуемой памяти.
Важным параметром задач информационного поиска является возможность добавлять и удалять элементы из базы данных. По этому параметру задачи можно разделить на статические и динамические. Динамическим
'Кнут Д. Искусство программирования для ЭВМ. Т. 3. Сортировка и поиск. - М.: Мир, 1978, 846 с.
2Gasanov Е. Е. On Functional Complexity oi Two-dimensional Manhattan Metrics Closeness Problem, Emerging Database Research In East Europe. Proceedings of the pre-conference workshop of VLDB 2003, 51-56.
3JaJa J., Mortensen C. W., Shi Q. Space-Efficient and Fkst Algorithms for Multi-dimensional Dominance Reporting and Counting, Proc. ISAAC (2004), 558-568.
4Chazelle B. Lower Bounds for Orthogonal Range Searching: II. The Arithmetic Model. Journal of the ACM (1990), 200-212.
5WiUard D. E. Applications of the fusion tree method to computational geometry and searching. In Proceedings of the Sri Annual ACM - SIAM Symposium on Discrete Algorithms (1992), 286-295.
6McCreight E. M. Priority search trees. SIAM Journal of Computing (1985), 14(2), 257-276.
7Препарата Ф., Шеймос M. Вычислительная Геометрия: Введение, Москва «Мир», 1989, 478 с.
8Chazelle В., Guibas L. J. R-actional cascading: I. A Data Structuring Technique, Algorithmic 1 (1986), 133-162.
задачам информационного поиска посвящены работы Овермарса9, Мор-тенсена10 и других авторов.
В монографии Гасанова и Кудрявцева11 рассматриваются статические задачи поиска, в которых в ответ на запрос надо перечислить элементы базы данных, удовлетворяющие запросу — так называемые перечислительные задачи поиска. Для формального описания и оценки алгоритмов поиска в вышеупомянутой работе вводится понятие информационного графа (ИГ), использование которого показывает свою эффективность для оценки таких характеристик алгоритма поиска, как время поиска в среднем, время поиска в худшем случае и затраты памяти, необходимые для реализации алгоритма.
В диссертации автором исследуются другие варианты ЗИП, а именно ЗИП в смысле поиска представителя и вычислительные ЗИП (ВЗИП). Поиск представителя отличается от перечислительной ЗИП тем, что в такой задаче не требуется перечислять все записи базы данных, удовлетворяющие запросу, а требуется найти хотя бы одну такую запись, которая и называется представителем. Решение ВЗИП подразумевает вычисление некоторой интегральной характеристики множества записей БД, удовлетворяющих запросу. Это может быть, например, количество таких записей. Также возможен вариант, когда каждой записи БД приписан некоторый ранг и требуется вычислить, к примеру, максимальный ранг записей, удовлетворяющих запросу.
Неперечислительные задачи поиска возникают в прикладных задачах и требуют особого рассмотрения, так как алгоритмы решения соответствующих им перечислительных задач могут оказаться для них крайне неэффективными. Для проведения такого рода исследований требуются специальные модели для неперечислительных ЗИП и алгоритмов их решения. В диссертации вводятся такие модели для задач поиска представителя и вычислительных задач информационного поиска, и приводятся эффективные алгоритмы решения таких задач.
Цель работы. В диссертации ставится задача разработки моделей для неперечислительных задач информационного поиска, таких как задачи поиска представителя и вычислительные задачи информационного поиска.
Целью работы является исследование неперечислительных модификаций некоторых известных задач информационного поиска в рамках пред-
9Overmars M. H. The design of dynamic data structures, Ph. D. thesis, University of Utrecht, The Netherlands, 1983.
10Mortensen C. W. FUlly Dynamic Orthogonal Range Reporting on RAM. SIAM Journal of Computing (2006), 35(6), 1494-1525.
иГЬсанов Э. Э., Кудрявцев В. Б. Теория хранения и поиска информации. ФИЗМАТЛИТ, Москва, 2002, 288 с.
ложенных моделей. Полученные результаты представляют не только самостоятельный интерес, но также подтверждают эффективность используемых моделей информационного поиска.
Ставится задача оценить явно объём структур, получаемых с помощью техники частичного каскадирования в зависимости от различных параметров.
Для некоторых геометрических вычислительных задач, в частности, для задачи суммирования по полугрупповой операции в двумерной задаче о доминировании ставится цель получить верхнюю оценку для функции зависимости времени поиска в худшем случае от объёма требуемой памяти.
Научная новизна. В диссертации проводится исследование именно неперечислительных задач информационного поиска и применимости к ним информационно-графовой модели данных. Ранее в рамках этой модели широко исследовались только перечислительные задачи информационного поиска, поэтому возможность её использования для задач поиска представителя и вычислительных задач информационного поиска, вообще говоря, не очевидна.
В работе получены следующие основные результаты.
1. Разработаны модели для неперечислительных задач информационного поиска, таких как задачи поиска представителя и вычислительные задачи информационного поиска. В понятии информационного графа произведено отделение базисной части, так называемого информационного графа общего вида, отвечающей за процедуру обхода графа, и для этих графов предложен один общий метод получения мощностных нижних оценок. Впервые автоматная идеология была внедрена в информационно-графовую модель данных и была показана эффективность ее использования для моделирования вычислительных задач поиска.
2. Для задачи поиска представителя в задаче о метрической близости предложен алгоритм поиска с линейным от размера базы данных объемом памяти, логарифмическим временем поиска в худшем случае и константным временем поиска в среднем.
3. Развита техника частичного каскадирования путем введения варьируемого параметра, отвечающего за максимальную ширину пробелов между мостами, соединяющими соседние каталоги, и впервые произведена оценка размеров получаемых структур данных.
4. Для суммирования по полугрупповой операции в двумерной задаче о доминировании и в двумерной задаче интервального поиска с фиксированной стороной разработано несколько параметризованных семейств алгоритмов поиска, с помощью которых получены рекордные верхние оценки для функции зависимости времени поиска в худшем случае от объёма тре-
буемой памяти. Причем впервые такие оценки имеют вид асимптотических (и обычных) неравенств, а не оценок роста сложности по порядку.
Основные методы исследования. В работе использованы методы теории информационного поиска, вычислительной геометрии и теории сложности управляющих систем.
Теоретическая и практическая ценность работы. Работа имеет теоретический характер. Введённые модели могут использоваться для описания алгоритмов решения прикладных задач информационного поиска с целью последующего сравнения их характеристик.
Полученные в работе алгоритмы для решения задач поиска представителя в двумерной задаче о доминировании и двумерной задаче о метрической близости, а также суммирования по полугрупповой операции в двумерной задаче о доминировании и двумерной задаче интервального поиска с фиксированной стороной могут быть использованы в прикладных задачах.
Апробация работы. Результаты настоящей работы докладывались
• на научно-исследовательском семинаре кафедры Математической теории интеллектуальных систем механико-математического факультета МГУ «Теория автоматов» под руководством академика В.Б.Кудрявцева, 2009-2011 гг. (неоднократно);
• на семинаре механико-математического факультета МГУ «Вопросы сложности алгоритмов поиска» под руководством профессора Э. Э.Гасанова, 2008-2011 гг. (неоднократно);
• на семинаре механико-математического факультета МГУ «Кибернетика и информатика» под руководством академика В. Б. Кудрявцева, 2011 г.;
• на семинаре факультета ВМиК МГУ «Дискретная математика и математическая кибернетика» под руководством проф., д.ф-м.н.
B.Б.Алексеева, проф., д.ф-м.н. А.А.Сапоженко, проф., д.ф-м.н.
C.А.Ложкина, 2012 г.;
• на конференции «Ломоносовские чтения» (2008, 2011, 2012 гг.);
• на Международной конференции «Современные проблемы математики, механики и их приложений», посвященной 70-летию ректора МГУ академика В.А.Садовничего (2009 г.);
• на X Международном семинаре «Дискретная математика и ее приложения» (2010 г.);
• на X Международной конференции «Интеллектуальные системы и компьютерные науки» (2011 г.);
• на Международной конференции студентов, аспирантов и молодых ученых «Ломоносов-2009», «Ломоносов-2010» (2009, 2010 гг.).
Публикации по теме диссертации. Основные результаты диссертации опубликованы в пяти статьях [1]—[5] и материалах конференций [6]—[10], список которых приведен в конце автореферата.
Структура и объем диссертации. Диссертация состоит из введения и трех глав. Объем диссертации 103 стр. Список литературы содержит 23 наименования.
Краткое содержание работы
Первая глава диссертации посвящена модификации и исследованию информационно-графовой модели данных.
В разделе 1.1 даётся определение информационного графа общего вида (ИГОВ), используемого далее как основа для определения информационных графов (ИГ), вычислительных информационных графов (ВИГ) и упрощённых вычислительных информационных графов (УВИГ). Для ИГОВ доказывается теорема 1, предоставляющая один способ получения мощностных нижних оценок для ИГОВ.
Определение информационного графа общего вида
Определим понятие информационного графа общего вида (ИГОВ). Для этого нам потребуются следующие множества: множество запросов X, множество Р одноместных предикатов, заданных на множестве X, множество С? одноместных переключателей, заданных на множестве X (переключатели — это функции, область значений которых является начальным отрезком натурального ряда).
Пару Т = (Р, С) будем называть базовым множеством.
Определение ИГОВ с точки зрения его структуры.
Пусть нам дан ориентированный граф с выделенной вершиной, которую мы назовём корнем.
Выделим в графе некоторые вершины и назовём их точками переключения (корень может быть точкой переключения).
Если /3 — вершина, графа, то через обозначим полустепень исхода вершины р.
Каждой точке переключения /3 сопоставим некий символ из С. Это соответствие назовём нагрузкой точек переключения.
Для каждой точки переключения /3 рёбрам, из неё исходящим, поставим во взаимно однозначное соответствие числа из множества {1, грр}. Эти ребра назовём переключательными, а это соответствие — нагрузкой переключательных рёбер.
Ребра, не являющиеся переключательными, назовем предикатными.
Каждому предикатному ребру сети сопоставим некоторый символ из множества Р. Это соответствие назовем нагрузкой предикатных ребер.
Полученный нагруженный граф назовем информационным графом общего вида над базовым множеством Т — С?).
Определение функционирования ИГОВ.
Скажем, что предикатное ребро проводит запрос х е X, если предикат, приписанный этому ребру, принимает значение 1 на запросе х; переключательное ребро, которому приписан номер п, проводит запрос х 6 X, если переключатель, приписанный началу этого ребра, принимает значение п на запросе х; ориентированная цепочка ребер проводит запрос х £ X, если каждое ребро цепочки проводит запрос х; запрос х е X проходит в вершину 0, если существует ориентированная цепочка, ведущая из корня в вершину /3, которая проводит запрос х.
Результатом функционирования ИГОВ на запросе х € X считается набор вершин, в которые проходит запрос х.
Понятие ИГОВ определено.
Пусть /3 - некоторая вершина ИГОВ. Тогда обозначим рр(х) предикат на X, такой что <рр(х) — 1 для тех и только тех запросов х, которые проходят в вершину /?. Предикат ч>р(х) называется функцией фильтра вершины /3.
Переключатель д, приписанный переключательной вершине /3 считаем вычисленным на запросе х, если запрос х проходит в вершину /3. Аналогично предикат /, приписанный некоторому ребру, выходящему из предикатной вершины /3, считаем вычисленным на запросе х, если запрос х проходит в вершину /3.
Сложностью ИГОВ II на запросе х назовем число Т(Ц, х), равное сумме числа переключателей и предикатов, вычисленных в процессе обработки запроса х. Эту величину также называют временем работы и на запросе х. Верхней сложностью (или временем работы в худшем случае)
называют величину Т(и) = тгсх.х5ХТ{и,х). В случае, когда на Х введено вероятностное пространство, а переключатели и предикаты являются измеримыми функциями, с помощью действий, дословно совпадающих с описанными в монографии Гасанова и Кудрявцева, можно показать, что Т(11, х) является случайной величиной относительно х и можно рассматривать Т(11) = Мг Т(и, х) — сложность ИГОВ и в среднем (или время работы I/ в среднем).
Объёмом С}{и) ИГОВ Л назовем число ребер в ИГОВ II.
Пусть X - некоторое множество запросов, 2 - множество, которое мы будем называть множеством ответов и задана функция А: X —> Нас будет интересовать случай, когда область значений функции А конечна.
Пусть дан ИГОВ II. Обозначим множество его вершин как Для любого запроса х €Е X обозначим множество достижимых вершин V на этом запросе как ]¥(х) = {/3 € И7: <рр(х) — 1}. Будем говорить, что II является допустимым для функции А: X —> если существует такая функция В: 2^ -» что для любого х е X выполнено —
Теорема 1. Пусть X - множество запросов, 2 - множество ответов и задана функция А: X —» Z. Пусть также задано некоторое базовое множество Т = (-Г, О) и и - некоторый ИГОВ над Т, допустимый для функции А.
1. Тогда для любого непустого множества Хо Q X выполнено: тахх€Аг0 Т(11, х) ^ |Л(Хо)|], где т - максимальная полустепень исхода среди переключательных вершин и (но не менее 2), либо 2, если таких вершин нет.
2. Пусть относительно X задано вероятностное пространство и функция А и Т измеримы относительно этого пространства, А{Х) — {^1,..., ирг = причём р\ ^ ... ^ р^ В этом случае имеют место следующие оценки на сложность в среднем:
Т{и) > тах таа;1<г<И(х)| г • Рг • ( Г^бт г] -
\ г=1 ^
где щ = 1, а при г ^ 2 выполнено щ = г].
В разделе 1.2 формализуются задача поиска представителя и понятие решения для таких задач. В дальнейшем эта формализация используется для формулировки результатов в главе 2, посвящённой как раз задачам поиска представителя.
С точки зрения, определения, задача поиска представителя не отличается от определения задачи информационного поиска в перечислительном смысле, вводимого в монографии Гасанова и Кудрявцева. Для-полноты описания, мы повторим здесь это определение.
Пусть X — множество запросов, У — множество записей, р — бинарное отношение на X х У называемое отношением поиска. Тройку 5" = (X, У, р) будем называть типом задач информационного поиска. Тройка I — {X, V, р) > где V - конечное подмножество У (называемое в дальнейшем библиотекой) называется задачей информационного поиска (ЗИП) типа £> (пишем I е 5). Пусть задана некоторая ЗИП I = (X, V, р). Введём функцию ,71 (х): X —у 2У, заданную соотношением ^¡(х) = {у £ V \ хру}. Эту функцию будем называть функцией ответа на запрос для задачи I.
Описывать алгоритмы решения задач поиска представителя предлагаг ется также с помощью обычных информационных графов (ИГ). Здесь мы приведём определение понятия ИГ, однако сделаем это с использованием информационных графов общего вида.
Пусть Р — некоторое множество предикатов, определённых на X, а С? — некоторое множество переключателей, определённых на X. Будем называть пару Т = (I*1,0) базовым множеством для ИГ.
Определим ИГ над базовым множеством Т = (Р, С) следующим образом. Будем называть информационным графом (ИГ) такие графы С/, что II, во-первых, является ИГОВ над базовым множеством (Р, б), во-вторых, выделено некоторое множество вершин и, называемых листьями и каждому листу приписана некоторая запись из У. Объём и сложность в среднем и худшем случаях для ИГ считаются так же, как и для ИГОВ.
Определим функционирование ИГ. Будем считать ответом графа II на запрос х множество записей Л/(х), состоящее из тех и только тех записей у б У, что в II есть лист, которому приписана запись у и при этом запрос х проходит в этот лист.
При этом для перечислительных задач требовалось равенство Жх) = для всех х & X. Если же рассматривать задачу I как задачу поиска представителя, то определение графа решающего задачу меняется: граф II решает задачу поиска представителя для I, если выполнены следующие условия: 7и{х) С ¿7} (ж) и Л(х) ± 0 Л(х) Ф 0.
Раздел 1.3 содержит определение вычислительной задачи информационного поиска (ВЗИП), определение УВИГ и ВИГ. Для модельной задачи одномерного интервального поиска в смысле подсчёта доказываются теоремы 2 и 3, с помощью которых обосновывается необходимость введения ВИГ.
Формализация вычислительных задач информационного поиска
Дадим строго определение вычислительной задаче информационного поиска (ВЗИП). Пусть X — множество запросов, У — множество записей, р — бинарное отношение на X х У называемое отношением поиска. Пусть также задано множество которое мы будем называть множеством ответов. Наконец, задана функция £ : 2У X — функция ответа, определённая на 2У - множестве подмножеств У (достаточно, чтобы £ была определена для всех конечных подмножеств К). Будем называть пятерку 51 — {X, У, Я, р, £) типом вычислительных задач информационного поиска. Пятерка I = (X, V, р, £), где V - конечное подмножество У (наг зываемое в дальнейшем библиотекой) называется вычислительной задачей информационного поиска (ВЗИП) типа 5 (пишем I е Б). Фактически задача I = (X, V, Z, р, £) состоит в том, чтобы для заданного запроса х € X найти такой ответ г £ г, что г = £ ({у 6 V: хру}). Будем обозначать этот ответ как гг(х) = £ ({у € V: хру}) и называть правильным ответом для ВЗИП I на запрос х.
Определение упрощённого вычислительного информационного графа (УВИГ).
Пусть Р — некоторое множество предикатов, определённых на X, а <3 — некоторое множество переключателей, определённых на X. Пусть X — некоторое множество. Будем называть тройку Т — (Г, б, базовым множеством для УВИГ.
Определим УВИГ над базовым множеством Т — {Р, С?, 2) следующим образом. Будем называть упрощённым вычислительным информационным графом (УВИГ) такие графы II, что ¿7, во-первых, является ИГОВ над базовым множеством (Р, С), во-вторых, выделено некоторое множество вершин II, называемых листьями и каждому листу приписан некоторый элемент множества Объём и сложность в среднем и худшем случаях для УВИГ считаются так же, как и для ИГОВ.
Определим функционирование УВИГ. Элемент г е приписанный листу а некоторого УВИГ II будем считать ответом II на запрос х £ X, если запрос х проходит в лист а. Этот ответ г обозначим как гц{х) и будем называть функцией ответа УВИГ II. В случае, если запрос х проходит в два листа с*! и аг, которым приписаны ответы и г^ соответственно и при этом г\.ф 22, то считаем, что ги{х) не определено. Также гц{х) не определено в случае, если х не проходит ни в один лист УВИГ V.
Будем говорить, что некоторый УВИГ и над базовым множеством Т = (.Р, С, 2Т) решает ВЗИП I — (X, V, ¿Г, р, £), если для любого запроса х € X
функция ответа УВИГ Zu(x) определена и равна значению zj(x).
Определение вычислительного информационного графа (ВИГ).
Пусть, как и ранее, F — некоторое множество предикатов, определённых на X, a G — некоторое множество переключателей, определённых на X. Пусть М — некоторое множество, которое мы будем называть множеством состояний ВИГ и то — некоторый выделенный элемент М, который мы будем называть начальным состоянием. Пусть дополнительно определено множество if функций изменения состояния вида h : М —>• М, такое, что любые две функции из Я коммутируют относительно операции суперпозиции. Пусть, наконец, определено множество ответов Z и функцию вычисления ответа по состоянию а : М —> Z. Будем называть шестерку Т = (F, G, Я, М, то, а) базовым множеством для ВИГ.
Определим ВИГ над базовым множеством Т = (F, G, Я, М, то0, а) следующим образом. Будем называть вычислительным информационным графом (ВИГ) такие графы U, что U, во-первых, является ИГОВ над базовым множеством (F,G), во-вторых, выделено некоторое множество вершин U, называемых листьями и каждому листу приписан некоторый элемент множества Я. Объём и сложность в среднем и худшем случаях для УВИГ считаются так же, как и для ИГОВ.
Определим функционирование ВИГ. Пусть есть некоторый ВИГ U над базовым множеством Т — {F,G,H,M,mo,a). Рассмотрим запрос х £ X. Пусть c*i,..., ар - это все листья, в которые проходит запрос х и этим листьям приписаны функции hi,...,hpeH соответственно. Назовем состояние ти{х) = hi о ■ • • о hp(mo) финальным состоянием ВИГ U на запросе х. Если запрос х не проходит ни в один лист, положим ти(х) = то- Будем называть zjj{x) — а{ти{х)) функцией ответа ВИГ U.
Как и для УВИГ, будем говорить, что некоторый ВИГ U над базовым множеством Т' — {F, G, Я, М, то0, а) решает ВЗИП I = (X, V, Z, р, £}, если для любого запроса isl функция ответа ВИГ 2ц(х) равна значению zj(x).
Объёмная сложность вычислительных задач поиска
Пусть задана некоторая ВЗИП I = (X, V, Z, р, £). Пусть задано некоторое базовое множество для УВИГ Т = (F,G,Z). Обозначим Uuvis(I, Т) множество всех УВИГ над базовым множеством Jr, которые решают задачу I. Обозначим и^гд(1, F) множество всех древовидных УВИГ над базовым множеством Т, которые решают задачу I. Объёмной сложностью задачи
I при базовом множестве J- назовем число
Quvig(I, Т) = mm{Q(U): U е Uuvi9{I, JГ)}.
Число
Qvig(I, J7) = mm(Q(Í7): U € U™\I,F)}
назовем древовидной объёмной сложностью задачи I при базовом множестве Т.
Если к — натуральное число, S — тип вычислительных задач информационного поиска, то обозначим
1(к, S) = {I = (X, V, Z,p,t)eS: \V\ = к}.
Будем исследовать функцию Шеннона, характеризующую объёмную сложность (либо древовидную объёмную сложность) класса ВЗИП Х(к, S):
Quvig(k, S, Т) = sup Quvi3(I, J7), I£Z(k,S)
QTg(k,S,r) = sup Q™i3{I,T).
l£Z{k,S)
Аналогичные функции Qvl3(k, S, J") и 0%э(к, S, 7") введем и для ВИГ -с той лишь разницей, что использоваться должны базовые множества для ВИГ Т = (F, G, Н, М, т0, а).
Введем тип вычислительных задач информационного поиска заданный следующими соотношениями:
£>Ш1 — (Xintl, Yintl,%,Pintl>Zintl), где (1)
Xinti = {(®1,®г) е [О, I]2: XI < х2}, Yintl = [0,1], (2)
V(arj, х2) € Xinti, Уу € Yinti ■ (»i, х2) pintl у & хх ^ у < х2, (3)
= (4)
Рассмотрим множество предикатов Fina и переключателей G¿nti, заданные следующим образом: Finti = {fid(x) = l} , Ginti = Gi U G2,
I i / ч Г1, если xi < a, 1
Gi = < S¿,a(® = i о , гдеаеМЬ,
I 12, если Х\ > а I
_ i , . . 11, если х2 < а, 1
Gi = \ 92<¡a{x) = { ' 2 , гдеаеМ}.
I 12, если х2^ а I
Рассмотрим также множество состояний Mina = Z, выделенный
его элемент Шо = 0, набор функций, меняющих состояние, Hinti =
{ha : Z Z: o € Z}, где Va e Z, Vm € Z: /ia(m) = m + a; и функцию Ofcrti: M¿níi Z, такую что Vm € Z: cr,:„u(m) = m.
Определим два базовых множества T\ntx и jfntl, над которыми мы будем строить УВИГ и ВИГ соответственно:
Ппп = (Finn,Gintl,Z), (5)
•^шп — {Finti, Ginti, Hinti, Minti, то, (Jinti). (6)
Теорема 2. Рассмотрим тип вычислительных задач информационного поиска определяемый соотношениями (1)-(4). Рассмотрим базовое множество jFJ.ntl, определённое соотношением (5). Для любого натурального числа к справедливо:
2 ~ ^ Sp ^»ntii -^Inti) ^ к2 + 3к,
4к - 4 < Quvl9(k, Sintl, Fla) ^ 6к log2 к + 4k + 2 log2 к+ 2. Следствие 2.1. В условиях теоремы 2 выполнено:
Q^l9(k, Simi, Fla) ~ к2 (при к -» оо), к < Quvi°(k, Sintióla) Д Ä log2 к (при к -> оо).
Теорема 3. Рассмотрим тип вычислительных задач информационного поиска S-%¡f, определяемый соотношениями (1)-(4)■ Рассмотрим базовое множество jFfntí, определённое соотношением (6). Для любого натурального числа к справедливо:
Ак - 4 ^ Q^(k, Sinfín) < Q%9(k, Smtl,?ltl) < 4fc + 2.
Следствие 3.1. В условиях теоремы 3 выполнено:
Qvi9(k, Sinti, Tin) ~ Q7(k, Sinti, Fin) ~ 4к (при к^ оо).
Вторая глава диссертации посвящена задачам поиска представителя. В разделе 2.1 рассматривается поиск представителя для двумерной задачи о доминировании.
Рассмотрим тип задач информационного поиска Sd<m2 = (Xdcm.2-, Ydom2, Где Xdom2 = Ydom2 = [О, I]2, а ОТНОШвНИе ПОИСКа > задаётся следующим соотношением: (a,b) ^ (с, d) а ^ с и b > d. Это так называемая двумерная задача о доминировании.
В качестве базового множества рассмотрим Таот2 = (Зс1от2),
где ^2 = {/|а I а 6 [0,1]}; /|а(х) = I & х2 > а для любых ж = (х1,х2) 6 [0,1]2; С<ьгт2 = | а € [0,1]}; =
Пусть Р - конечное множество точек из единичного квадрата [0,1]2. Определим множеств М(Р) соотношением АТ(Р) = {р € Р:Ур' е Р \ {р} неверно, что р ^ р'}. Это множество будем называть нижним слоем множества Р. По определению N(P) все его элементы несравнимы (две точки а, Ь е [0,1]2 называются сравнимыми, если а ^ Ъ или Ь ^ а).
Теорема 4. Пусть задана некоторая задача I = {Хаот2, V, е где V - некоторое конечное подмножество У^от2- Тогда существует ИГ 17 над базовым множеством Тдот.2, который решает задачу поиска представителя для I и имеет следующие характеристики:
где к = 1^(^)1 - размер нижнего слоя множества V, СЦи) - объём и, а Т(11) - сложность V в худшем случае.
В разделе 2.2 рассматривается поиск представителя для задачи о метрической близости.
Рассмотрим тип задач поиска, описывающий двумерную задачу о метрической близости: = <[0,1]2, [0,1]2, />§), где х р£ у ра{х,у) = тах(|®1 - ух\, \х2 - уз\) < Я/2, Я е (0,2).
Будем рассматривать базовое множество — (Р, С), где Р = Ро и
Ри Ро = {Ґ(х) = 1}, = І У Є У}, С = С, и <?2, Сі =
{9т(х) = т(і(ха) - 1) + г{х2) | т Є Н}, где г(х) = тах(1, [та;]), С?2 =
Теорема 5. Пусть дана задача I = ([0,1]2, V, Є 5ц. Если вероятностная мера на X задаётся ограниченной функцией плотности вероятности р(х) ^ с, то для любого т Є М: 1 /то < Я/2 существует ИГ и над базовым множеством Т*, решающий задачу поиска представителя для I, удовлетворяющий условиям:
для любых х—(х\, х2) Є [0,1]2.
= Зк, 11°б2(А + 1)] + К Пи) < + 1)1 + 1
(тпЯ — 1)(2 + Я) (тЯ - 2)2
|2
Т(и) < 1 + 4с-
(2+[1оё2|УЦ), Г(С0< 9 + 4[Ъ& \У\\,
Следствие 5.1. Если последовательность Як удовлетворяет условию
= 0 (б^)' то последовательности задач 1к = ([О, I]2, V, рак), где ¡VI = к, существует последовательность ИГ ик, решающих соответствующие задачи поиска представителя, такие, что выполнено:
Я(ик) < 4к, Т{ик) ~ 1, Т{ик) ^ 9 + 4[Ъ82 к].
Третья глава диссертации посвящена вычислительным задачам информационного поиска.
В разделе 3.1 рассматривается итеративный поиск и техника частичного каскадирования. Техника частичного каскадирования впервые упоминается в работах Чазелле и Гуибаса. В диссертации рассматривается только статический вариант этой техники, однако, в отличие от предыдущих работ по этой теме, частичное каскадирование рассматривается отдельно от каких бы то ни было моделей поиска. Важным отличием от предыдущих результатов на эту тему является то, что полученные результаты имеют вид обычных оценок, а не оценок по порядку. Кроме того, оценки получены при различных значениях дополнительного параметра, ограничивающего максимальную ширину моста. О возможности варьирования этого параметра в работе Чазелле и Гуибаса упоминается, однако все вычисления производятся при фиксированном его значении.
Под расширеннъши действительными числами будем понимать элементы множества К = Еи{—оо, +оо}. Каталогами будем называть неубывающие последовательности расширенных действительных чисел. Например, последовательность —оо, —5,0,0,7, +оо, +оо - каталог из семи элементов. Один каталог будем называть подкаталогом другого, если он как последовательность является подпоследовательностью второго. Каталог —5,7,+оо,+оо - подкаталог указанного выше каталога. Пусть С - каталог. Тогда каталог, получающийся из него удалением дубликатов будем обозначать и (С). Например, если С = —оо,-5,0,0,7,+оо,+оо, то II(С) = -оо, -5,0,7, +оо.
Пусть есть два каталога С — {сг}™=1 и В = Пару индек-
сов р = (г, у), такую что 1 < г < тг, будем называть переходом
между каталогами Си Д если с* = с^-. Про элементы с* и й^ будем говорить, что они принадлежат переходу р. Для удобства будем называть некоторый переход х-переходом, если значение соединяемых этим переходом элементов равно х. Последовательность переходов В — {рк = ($к,3к)К=1
где а ^ 2 будем называть мостом если номера элементов и в первом и во втором каталоге строго возрастают.
Будем говорить, что элемент Сі каталога С принадлежит к-му ярусу моста В (1 < к ^ я-І) в том случае, если ік < г < ік+і- Очевидно, каждый элемент каталога С принадлежит не более чем одному ярусу моста В, но может не принадлежать, ни одному ярусу если для него выполнено одно из условий: элемент принадлежит одному из переходов моста, либо элемент лежит выше верхнего перехода моста, либо элемент лежит ниже нижнего перехода моста. Аналогично, будем говорить, что элемент с^- каталога £) принадлежит к-му ярусу моста В, если ^ < з < ік+1-
Шириной к-го яруса моста В будем называть суммарное количество элементов в каталогах С и И, принадлежащих к-му ярусу моста В. Шириной моста В будем называть максимальную ширину некоторого яруса данного моста. Отрезок [с^, с;,] (= й^]) будем называть отрезком покрытия моста В.
Графом каталогов будем называть тройку Ь — (С, С, Ті), где Є = (V, Е) - граф без петель и кратных ребер (V - множество вершин графа (3, а Е множество рёбер С), С — ~ набор каталогов, поставленных в соот-
ветствие вершинам.Ті = {ЯЄ}Є(=Е ~ набор отрезков Яе = [ое,Ье] (ае, Ъе Є К и ае < Ье), поставленных в соответствие рёбрам <3. Локальной степенью вершины V графа каталогов Ь — (С1,С,И) будем называть величину с£(и) = таххе^\{е Є Е: V Є е, х Є [ае,6е]}|. Локальной степенью графа каталогов Ь — (Є,С,ТІ) будем называть величину й{Ь) — тахУЄу<і(у). Как видно из определения, локальная степень графа каталогов зависит только от Є и Ті, но не зависит от С.
Системой мостов будем называть четвёрку 5 = (С,А,ТІ,В), где (Є,А,ТІ) образуют граф каталогов (Л = {А„}„еу - некоторый набор каталогов), а В = {Вє}єЄе ~ набор мостов, такой что выполнены условия: для любого ребра {г;, ги} = е Є Е мост Ве является мостом между каталогами 4 и А„, либо между каталогами Ат и Д,; для любого ребра е Є Е отрезок покрытия моста Ве равен отрезку і?є; для любого х Є М каждый мост из В содержит не более одного ж-перехода.
Систему мостов 5 = (Є, А, Ті, В) будем называть строгой, если каждый элемент любого каталога , приписанного любой вершине г; Є V, либо не принадлежит ни одному переходу ни одного моста из В, либо принадлежит только одному переходу одного моста из Б; Некоторый элемент каталога Ау будем называть свободным в том случае, если он не принадлежит ни одному переходу ни одного моста из В. Шириной системы мостов 5 = ((З, А, Ті, В) будем называть максимальную ширину моста среди В. Система мостов 5і = (Є, А, Ті, В) называется согласованной с графом
каталогов Ь — (С?, С, 71) если для любого V € V каталог II(Су) является подкаталогом Аг1.
Теорема 6. Пусть имеется граф каталогов Ь — ((7, С, 72.), где й — (V, Е) и |У| = п, \Е\ = тп. Пусть (1 = й{Ь) - локальная степень графа каталогов Ь. Пусть зафиксирован нечётный натуральный параметр до ^ Ы+1.
Тогда существует строгая система мостов Б — (С, Л, И, В), согласованная с графом каталогов Ь и при этом выполнены следующие условия:
(а) ширина системы мостов 5" не превосходит параметра до;
(б) имеет место неравенство Х^еУ \А„\ ^ (1 + 1^(^)1 + 4т), гдес=с(д0) = ^щ;
(в) для любого V а V значение каждого из элементов Аь либо равно значению некоторого элемента из Сю для некоторого и) € V, либо равно нижнему или верхнему концу некоторого отрезка Я Е
(г) суммарное количество свободных элементов во всех каталогах Л в точности равно Х^ек 1^(^)1-
Следствие 6.1. Пусть выполнены условия теоремы 6. Тогда существует система мостов 5 = ((?, Л, 71, В) (уже не обязательно строгая), согласованная с графом каталогов Ь и при этом выполнены следующие условия:
(а) ширина системы мостов Б не превосходит параметра до;
(б) имеет место неравенство И«! ^ (1 + сЖиеЪ' 1^(^)1 + 4ттг), где с = с{до) =
(в) для любого V £ V значение каждого из элементов Ау либо равно значению некоторого элемента из Сш для некоторого либо равно нижнему или верхнему концу некоторого отрезка В. € 71;
(г) любой каталог Ау содержит не более одной записи с некоторым значением
Если к тому же все отрезки Яе £ 7%. равны между собой, то имеет место слегка изменённое ограничение на суммарное количество записей во всех каталогах: | Д,| < (1 + с) +2п + Атс.
В разделе 3.2 рассматривается суммирование по полугрупповой операции для двумерной задачи о доминировании. В работе строится три семейства алгоритмов, решающих задачу суммирования по полугрупповой операции для двумерной задачи о доминировании. Теорема 7 содержит описание семейства алгоритмов, получаемых несколько изменённым методом дерева регионов. Теорема 8 посвящена модификации этого метода с
помощью многократного локального применения техники частичного каскадирования. В теореме 9 производится модификация, подразумевающая одно глобальное применение техники частичного каскадирования.
Пусть I — некоторая вычислительная задача информационного поиска, J- — некоторое базовое множество для ВИГ. Будем обозначать как Ы(1, J-) множество ВИГ над базовым множеством J-", решающих задачу I. Сложностью задачи I при базовом множестве J- и объёме q назовём число T(I, F, q) = min{T(U) : U G U{I, J=) и Q(U) ^ q}, где T(U) - сложность U в худшем случае, a Q{U) - объём U. Если нет таких ВИГ U G U{I,T), y которых Q{U) < g, то считаем T(I, T, q) = oo. Пусть к - натуральное число, S = {X, У, Z, р, £) - тип вычислительных задач информационного поиска. Введём следующее обозначение: Х(к, 5) = {/ = {X, V, Z, р, Ç) G 5: |V| = к}. Таким образом, 1(к, S) - множество всех ВЗИП типа S, база данных которых содержит ровно к элементов.
Наконец, введём величину T(k,S,JF,q) = max/6i(ktS)T(I,F,q), характеризующую максимальную сложность задач типа S с базой данных из к элементов при решении её вычислительными информационными графами над Т и объём которых не превышает q.
Пусть Z = (Z, 0) - коммутативная полугруппа с нулём. Операцию 0 будем для простоты именовать суммой. Рассмотрим тип вычислительных задач информационного поиска Sfom2 = (Xdom2, Ydzorn2, Z, pd(rm2, Çdom2), где Xdom2 = [о, l]2, y£m2 = [0, l]2 X Z, ОТНОШеНИе ПОИСКа Pdom2 Определено таким образом, что для любых х = (хъ х2) G Xdom2 и у = (уь у2, У») G Ydom2 соотношение х Pdom.2 У справедливо тогда и только тогда, когда одновременно выполнены условия Х\ > Ух И Х2 > У2- Элементы множества записей У можно рассматривать как точки на плоскости, которым дополнительно приписаны веса из Z. Функция ответа * ^ —^ ^ определена на конечных подмножествах множества У следующим образом (значение на бесконечных подмножествах У определять не требуется): пусть V — {у\ ..., ук} С У и у* = (уЪуЪ у*г), тогда ^{V) = у\ 0 ... 0 у\. Отдельно определим ^£^2(0) равным нейтральному элементу Z.
Вычислительный информационный граф (ВИГ) для решения задач типа S,£m2 будем строить над базовым множеством ?Ё„П2 = {Fdom2,Gdom2,HZ,MZ,m§,aid). Здесь Fdom2 {fW- а е е {1,2}}, где для любого х = (х\,х2) € X зна-
чение f^a(x) равно 1 тогда и только тогда, когда Xi ^ а. Предикат g, значение которого равно 1 на любом запросе х, будем называть тождественно единичным предикатом. Множество переключателей Gdom2 — {(/<а: а € [0,1], г G {1,2}}, где для любого
, . ' , , . II, если Х{ < а;
запроса х = (Х1,Х2) €Е X Имеет место д<а{х) = <
12, если Хг > а
Множество состояний ВИГ Мг совпадает со множеством элементов рассматриваемой полугруппы Z, и начальное состояние т^ -нейтральный элемент 2, множество функций, меняющих состояние Нг = {Л*: /г2(6) = бфг УЬ е Z}zez и функция выдачи ответа <тц{г) = г для любых состояний г £ Z.
Теорема 7. Существуют такие 7(&),/3(&) = о(1) при к —¥ оо, что для любой коммутативной полугруппы с нулём 2 = (¿Г, ф), для любых натуральных к ^ 3 и в таких, что 2 ^ в < к, имеет место:
г (к, З1т2, + юл) (1 + 7(*))) ^ ^ 1оё2 к-(1+№)-
Теорема 8. Существуют такие ^(к),Р(к) = о(1) при к —¥ оо, что для любой коммутативной полугруппы с нулём 2 = ф), для любых натуральных к^Ъ, э таких, что 2 ^ в < к и нечётного д', такого что д' ^ 5 если в = 2 и д' ^ 9 если в ^г 3, имеет место:
Г (к, + (-9 + 20с>) + <
< {Ш+(1+^+1)1 ^*+25)(1+т)>
где с! = з если в = 2 и с! = если в ^ 3.
Теорема 9. Существуют такие 7(к),/3(к) = о(1) при /г —¥ оо, что для любой коммутативной полугруппы с нулём 2 = ф) выполнено:
1. Для любых натуральных к ^ 4 и я таких, что 3 ^ в < к и нечётного д" ^ 17, имеет место:
г (к, (7(1+^10'2А: + (14 + 1960")*) . (1 + 7(*))) <
< + Г«* + 1)1)(1 + [1оё2(д" + 1)1) + 25,
г<?вс"=Дз.
2. Для любых натуральных к ^ 3 и любого нечетного g" ^ 13, имеет место:
Т (*, Sg^, 6(1 + c")fclog2 к ■ (1 + 7(к))) <
< 5 iog2 к (1+riog2(/+i)i) ■ (1+m),
где с» = j^j.
В разделе 3.3 рассматривается суммирование по полугрупповой операции для двумерной задачи интервального поиска с фиксированной стороной.
Пусть Z = (Z, ф) - коммутативная полугруппа с нулём. Рассмотрим тип вычислительных задач информационного поиска Sf^t2. = (Xint2., Y£t2,, Z, pint2., Ç?nt2.), где Xint2. = {(x[,x'(,x2) G [0, l]2 : x[ < x'(}, Yinti' — [0, l]2 x Z, отношение поиска рш2' определено таким образом, что для любых-х = (x'i, х'{, х2) € Xint2* и у = (г/1, У2, у*) 6 соот-
ношение х рм2' У справедливо тогда и только тогда, когда одновременно выполнены условия х^ ^ у\ < х" и у2 х2. Элементы множества записей Y?a. можно рассматривать как точки на плоскости, которым дополнительно приписаны веса из Z. Функция ответа Z определена на конечных подмножествах множества Y^t2. следующим образом: пусть V = {у\...,ук} С Y&2. я у1 = (уЪуЬуЪ), тогда = у\®...@у%. Отдельно определим £?i2,(0) равным нейтральному элементу Z.
Вычислительный информационный граф (ВИГ) для решения задач введённого выше типа будем строить над базовым множеством = (Fint2',Gint2',Hz,Mz,mfî,<jid). Положим Fint2- = {/¿: а £ [0,1],г € {1', 1",2}}, где для любого х = (х'1,х'{,х2) G Xint2, значение fl (х) равно 1 тогда и только тогда, когда х[ < а; значение ¡1 (х) равно 1 тогда и только тогда, когда х'[ ^ а; значение /f (х) равно 1 тогда и только тогда, когда х2 > а. Предикат /д, значение которого равно 1 на любом запросе х, будем называть тождественно единичным предикатом. Множество переключателей Gint2* = {дга: а S [0,1],г € {1', 1", 2}}, где для любого запро-
, , „ . ___ . II, если х', > а;
ca х = (х[,х{,х2) в Xintv имеет место д* (х) = < , ;
12, если х{ ^ а
,». . ! 1, если x'-! < а: ,, . |1, если х2 < а; 9Ï (х) = < 0 „ . ; 92а{х) = < ' . Множество со-
12, если Xi ^ а 12, если х2 Э а
стояний ВИГ Mz совпадает со множеством элементов рассматриваемой полугруппы Z, и начальное состояние mf - нейтральный элемент Z, множе-
ство функций, меняющих состояние Hz — {hz: hz(b) = b@zMb 6 Z}zez и функция выдачи ответа ац{г) = z для любых состояний zgZ.
Теорема 10. Для любой коммутативной полугруппы с нулём Z = (Z, ф) и любых натуральных k^3u2^s<k имеет место:
Т (k, Sfnt2., Tfnt2,, 3635 к logs к) < 59 т-f- log2 к.
Благодарности
я
выражаю глубокую благодарность своему научному руководителю профессору Гасанову Эльяру Эльдаровичу за постановку задач и помощь в работе. Выражаю благодарность заведующему кафедрой математической теории интеллектуальных систем академику, профессору Валерию Борисовичу Кудрявцеву и всему коллективу кафедры за творческую атмосферу, способствующую исследовательской работе.
Публикации автора по теме диссертации
Из списка ВАК:
1: Пивоваров А. П. Поиск представителя в задаче о метрической близости, Интеллектуальные системы, том 12, вып. 1-4, стр. 333-350 (2008).
2. Пивоваров А. П. Моделирование вычислительных задач информационного поиска, Интеллектуальные системы, том 14, вып. 1-4, стр. 237-260 (2010).
3. Пивоваров А. П. Об одном способе получения нижних оценок сложности информационных графов, Интеллектуальные системы, том 15, вып. 1-4, стр. 571-580 (2011).
4. Пивоваров А. П. Техника частичного каскадирования для итеративного поиска в линейно упорядоченных множествах, Интеллектуальные системы, том 15, вып. 1-4, стр. 249-264(2011).
5. Пивоваров А. П. Функциональная сложность задачи подсчёта для двумерной задачи о доминировании, Интеллектуальные системы, том 15, вып. 1-4, стр. 581-610 (2011).
Не из списка ВАК:
6. Пивоваров А. П. Суммирование по полугрупповой операции для двумерной задачи интервального поиска с фиксированной стороной, Материалы X Международной конференции «Интеллектуальные системы и компькъ терные науки» (5 - 10 декабря 2011 года). М.: 2011. С. 68 - 71.
7. Пивоваров А. П. Поиск представителя в задаче о метрической близости, Международная конференция «Современные проблемы математики, механики и их приложений», посвящённая 70-летию ректора МГУ академика В.А.Садовничего (30 марта - 2 апреля 2009 г., Москва). Материалы конференции. С. 369.
8. Пивоваров А. П. Информационные графы с автоматными функциями, Сборник тезисов XVI Международной конференции студентов, аспирантов и молодых учёных «Ломоносов-2009», секция «Вычислительная математика и кибернетика» (Москва, 13-18 апр. 2009). С. 66.
9. Пивоваров А. П. Математическая модель неперечислительных задач поиска, Материалы Международного семинара «Дискретная математика» (Москва, 1-6 февраля 2010 г.). С. 407-410.
10. Пивоваров А. П. О сложности вычисления ответа одномерного интервального поиска, Тезисы докладов Секции «Математика и механика» Международной конференции студентов, аспирантов и молодых учёных « Ломоносов-2010 ».
Подписано в печать 23,04,2012. Формат 60x90 1/16. Печать ризографическая. Бумага офсетная. Тираж 100 экз. Заказ № 707
Отпечатано в типографии ООО "Паис-Т" 107023,г. Москва,ул. Большая Семеновская,49 (495) 366-29-59,(495) 366-90-22,(499) 369-18-73