Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых систем тема автореферата и диссертации по математике, 01.01.09 ВАК РФ

Кривцов, Александр Николаевич АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Санкт-Петербург МЕСТО ЗАЩИТЫ
1998 ГОД ЗАЩИТЫ
   
01.01.09 КОД ВАК РФ
Автореферат по математике на тему «Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых систем»
 
Автореферат диссертации на тему "Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых систем"

Р Г Б Г; 1

^лк^ЙЕ^РБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

на правах рукописи

КРИВЦОВ Александр Николаевич

ПРОБЛЕМЫ ФОРМАЛИЗАЦИИ РУССКОГО ЯЗЫКА 3 ПРОЦЕССАХ УПРАВЛЕНИЯ ПОИСКОВЫХ, ОБУЧАЮЩИХ И ЕСТЕСТВЕННО-ЯЗЫКОВЫХ СИСТЕМ

01.01.09 - математическая кибернетика Э5.13.11 - математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Санкт-Петербург, 1998

Работа выполнена в Санкт-Петербургском государственном университете факультете прикладной математики - процессов управления.

Научные руководители:

- доктор физико-математических наук, профессор В.А.Тузов,

- кандидат технических наук, доцент С.В.Хорошенко. Официальные оппоненты:

- доктор физико-математических наук, профессор И.Л.Братчиков,

- доктор физико-математических наук, доцент Гарнаев А.Ю. Ведущая организация:

Санкт-Петербургский Экономико-математический институт России* Академии Наук.

Защита диссертации состоится «1998 г. в /т2 часов на' дании Диссертационного Совета К-063.57.16 по защите диссертаций на сои ние ученой степени кандидата физико-математических наук в Са Петербургском государственном университете по адресу: 199004, Са Петербург, В.О., 10-я линия, д.ЗЗ, ауд. 6й .

С диссертацией можно ознакомиться в библиотеке имени А.М.Горь Санкт-Петербургского государственного университета по адресу: 199 Санкт-Петербург, Университетская набережная, 7/9.

Автореферат разослан </£&> мя/гмЛ. 1998 года.

Ученый секретарь Диссертационного Совета, доктор физико-математических наук, _ профессор 1 ■^тЩ'С-

В.Ф.Горьковой

Актуальность темы. Данная работа посвящена проблемам, которые связаны с представлением знаний о русском языке в вычислительной машине и которые возникают при обработке компьютером текстов на русском языке

Эти проблемы не новы. Однако, семантическая сложность русского языка, многообразие и многозначность его грамматических конструкций накладывают множество ограничений на способы компьютерного представления знаний о языке, предметные области его использовашга в вычислительных системах и зависят от возможностей существующих информационных технологий. По существу, это проблемы формализации русского языка для компьютера, которые сводится к решению трех подзадач: морфологического, синтаксического и семантического анализа текста.

Решение этих подзадач позволяет говорить о разработке такой системы базы знаний, которая, сможет использовать естественный (русский) язык в автоматизированном или полуавтоматизированном режиме.

Предметом анализа настоящей диссертационной работы являются методы и формы представления информации о русском языке для компьютера.

Цель диссертационной работы состоит в обосновании предлагаемых принципов формализации русского языка для компьютера, доказательстве утверждений, лежащих в основании этих принципов путем разработки прототипа диалоговой системы обработки произвольной текстовой информации и выдачи результатов этой обработки в доступном для человека виде.

Комплекс актуальных проблем, возникших в ходе исследований, обусловил решение следующих основных задач:

1) выделить, обосновать и доказать основополагающие принципы и утверждения, необходимые для машинной формализации русского языка;

2) разработать механизм задания информации и разработать морфологический анализатор текстов на русском языке;

3) рассмотреть возможные способы применения разработанного морфологического анализатора в поисковых и обучающих системах;

4) описать семантику синтаксиса предложений русского языка, выделить информативную для машины ее основу и разработать синтаксический анализатор произвольных текстовых конструкций;

5) разработать прототип диалоговой системы морфологической и синтаксической обработки текстов;

6) описать и обобщить полученные результаты проведенного анализа по проблемам формализации русского языка в процессах управления автоматизированных естественно-языковых систем.

Научная новизна вытекает из сформулированных выше цели и задач исследования. Принципиальной новизной является сам комплексный подход к решению проблем по формализации русского языка для компьютера, в результате которого получается такая система знаний компьютера о предметной области (о русском языке), благодаря которой компьютер способен «общаться» с человеком на естественном языке, вычисляя и обрабатывая произвольные грамматические конструкции.

Основные результаты. Проведенные исследования позволили создать систему, способную анализировать морфологию и синтаксис произвольных текстов на русском языке. Она реализует следующие возможности:

1) производит морфологический разбор произвольно задаваемого слова;

2) получает полную парадигму любого слова вместе с морфологическим описателем для каждой формы слова этой парадигмы;

3) строит для любого слова его морфологический шаблон и вычисляет набор слов, соответствующий этому шаблону;

4) осуществляет выделение в произвольной конструкции (предложение, текст) составляющих ее отдельных слов и получает по ним морфологическую информацию;

5) приводит выделенную морфологическую информацию к грамматическому типу, соответствующему грамматическому типу предложения;

6) выделяет ведущую функцию конструкции, определяет ее аргументы и осуществляет сборку конструкции в виде единой законченной суперпозиции, получая таким образом синтаксический шаблон конструкции;

7) позволяет по грамматически верному произвольному вопросу на русском языке для произвольной конструкции получить грамматически верный ответ в естественном виде, адекватный синтаксису этой конструкции;

8) при работе в диалоге с пользователем не требует ограничений на его словарный запас: пользователь может быть «не понят» системой лишь в том случае,

если в вводимой конструкции имеется слово, информация о котором не заложена в электронный морфологический словарь (что для 100000-го словаря основ и возможности генерации более 2.5 млн. словоформ практически маловероятно), либо п том случае, если пользователь в запросе задаст заведомо ложную информацию, искажающую грамматическую конструкцию ( экспериментальная версия системы предполагает общение с грамотным пользователем; в противном случае, искаженная информация игнорируется системой).

Теоретическая значимость результатов работы заключается в предложении нового подхода решения проблем компьютерной формализации русского языка и его перспективности при разработке эффективных автоматизированных систем по обработке текстовой информации.

Практическая ценность полученных результатов состоит в разработанных методах и алгоритмах формализации русского языка (на уровне синтаксиса предложений) и созданных на их основе анализаторов произвольных текстовых конструкций. Готовые алгоритмы и программы могут быть применены в разрабатываемых поисковых, обучающих и других естественно-языковых системах.

Апробация работы. Приведенные проблемные вопросы прошли апробацию в выступлениях на научных конференциях факультета ПМ-ПУ СПбГУ (1996г., 1997г.), научно-практических конференциях Академии МВД (январь и ноябрь 1997), Международной конференции по современным технологиям в образовании (Санкт-Петербург, 1997г.), научно-практических семинарах Междисциплинарного Центра дополнительного профессионального образования СПбГУ (декабрь 1997, январь 1998) и др.

Публикации. По основным вопросам диссертации опубликованы 3 печатные работы, список которых приведен в конце автореферата.

Структура и объем работы. Диссертационная работа в композиционном отношении состоит из введения, четырех глав, заключения, списка основной литературы, включающего 29 наименований и двух приложений. Общий объем работы 94 страницы машинописного текста.

Содержание работы

Во введении обоснована актуальность решаемых проблем, сформулированы цели исследований и дана общая постановка задачи.

Главы 1 и 2. соответственно, посвящены краткому обзору наиболее популярных существующих поисковых и обучающих систем; раскрываются и анализируются механизмы и способы реализации этих систем; делаются обобщающие выводы по наиболее проблемным вопросам их применения в ракурсе темы диссертации. Основные выводы в ходе этих исследований следующие:

1. Не существует систем, в которых решена проблема полной формализации русского языка, объединяющая морфологический, синтаксический и семантический анализ.

2. Механизмы анализа в существующих поисковых и обучающих системах предполагают, в основном, анализ по ключевым словам, фразам, предложениям, формам и т.п.

3. Если и существует возможность реализации сложного запроса, то механизм его формирования основан, в основном, на использовании логических операторов типа И / ИЛИ / НЕ но конкретной предметной области, реализованной в данной системе, или на механизмах установки жестких связей, образующих, так называемую, интеллектуальную (семантическую) сеть.

4. Такие способы реализации подобных систем не позволяют вести произвольный диалог между компьютером и пользователем на русском языке и ограничены базой знаний только предметной области системы или программы.

Глава 3 состоит из двух параграфов, в которых конкретизируются и детализируются задачи исследований.

Общая задача исследований разбивается на подзадачи, которые можно сформулировать гак:

- определить необходимый минимальный состав «вживляемой» в компьютер базы знаний о русском языке;

- определить способы представления этой базы знаний в компьютере;

- разработать механизм морфологического анализа текстов на русском языке и исследовать способы его применения в естественно-языковых системах;

- формализовать механизм синтаксического анализа, исследовать качество и возможности такой формализации;

- разработать элементы формализации семантического анализа текстов на русском языке и исследовать состоятельность такой формализации;

- экспериментальным путем убедиться в правильности догмы о возможности формализации русского языка с достаточно точным приближением к полному семантическому анализу.

Глава 4 посвящена модели формализации русского языка для компьютера и содержит три параграфа.

В параграфе 4.1 приводятся базовые сведения и понятия предлагаемой модели и общей схемы формализации языка.

Основная цель формализации синтаксиса языка - научить компьютер извлекать информацию из языковых конструкций так, чтобы извлеченная информация была близка по адекватности ее смысловой реальности. Для этого необходимо найти такой способ представления информации, при котором она становится доступной для машины. Чем больше доступной для машины информации и чем лучше и точнее она описана на языке машины, тем больше вероятность адекватности правильного вычисления языковой конструкции машиной.

Языковая конструкция, с точки зрения математики, это множество, элементами которого являются более элементарные языковые конструкции. Это множество может состоять как из многих (предложение, текст, речь), так и из одного элемента (слово). Смысл конструкции определяется совокупным смыслом ее подконструкций. Чтобы выявить этот смысл, конструкцию необходимо разбить на ее составляющие и определить заложенную в них информацию. Но и подконструкция - не есть величина постоянная: ее смысл зависит от многих аргументов (от формы слова, от способа связки-подчинения этого слова с другими словами в предложении, от семантического назначения слова). Таким образом, языковая конструкция - не просто множество, а множество действующих функций нескольких аргументов, связанных между собой. Активизация связей приводит к активизации процесса, результатом выполнения которого является смысловая информация, прямо зависящая от аргументов этих функций.

Компьютер невозможно научить осмысливать информацию так, как это делает человек. Близкий к такому машинный анализ возможен лишь в том случае, если формализована и первичная, базисная для машины информация, и формализованы правила конструирования этой информации (семантика синтаксиса языковых конструкций ). Таким образом, формализация языка для

компьютера распадается на две подзадачи: формализацию первичной конструкции и формализацию сборки конструкции из ее составляющих.

Необходимым условием формализации русского языка является наличие формализованного словаря. Причем такого, в котором, кроме словарного запаса, не несущего самого то себе никакой информации для машины, должно быть его формальное описание. Именно это формальное описание слова (описатель) является информативным для компьютера, и именно оно является достаточным условием машинной формализации. Предлагаемая общая схема формализации языка сводится к доказательству следующих утверждений:

1. Язык есть алгебраическая система М}, где А - функции, М - структура данных языка.

2. Адекватная грамматика приписывает каждому предложению структурное описание в виде суперпозиции функций.

3. Каждая часть речи играет вполне определенную роль в организации синтаксической структуры предложения.

5. Грамматика неразрывно связана с семантикой языка.

6. Необходимым и достаточным условием формализации языка является формализованный словарь.

7. Формализовашшй язык не различает понятий физического и ментального мира.

8. Слово - имя (название) функции Дх 1, хп), которая связывается с этим словом и называется его семантикой. Каждое свое конкретное значение слово получаст только после подстановки конкретных значений своих аргументов; /( х01,..., хОп). Смысл слова вычисляется в процессе выполнения функции /

9. Предложение - единая законченная суперпозиция функций. Т.е. предложение - это выражение в математическом смысле этого слова: Р(/7(х/),..., /п(х1) ). Смысл предложения вычисляется в процессе выполнения суперпозиции.

10. Слово разбивается на морфы. Формализация семантики словообразования не только позволяет существенно сократить словарь описываемых слов, но и даст возможность автоматического построения новых слов.

Параграф 4.2 посвящен решению проблем, связанных с представлением, обработкой и вычислением морфологической информации. В нем решается

прямая задача морфологического анализа, описывается механизм генерации словоформ, определяется решение обратной задачи и приводятся возможные способы применения морфологического анализатора в поисковых системах.

Прямой задачей является генерация по основной форме слова [единственное число, именительный падеж - для склоняемых частей речи, инфинитив - для глаголов) всей парадигмы этого слова. Обратная задача - по произвольной форме слова восстановить его основную форму, получив морфологический описатель этой произвольной формы.

Решение прямой задачи сводится к переложению на машинный язык всего механизма генерации, описанного в словаре А.А.Зализняка.

Решение обратной задачи сводится к непосредственному анализу и кодированию информации, содержащейся в этих таблицах.

Применение морфологического анализатора в поисковых системах предполагает использование разработанного механизма поиска по полной парадигме эднокоренных слов. Такой механизм предполагает работу двух алгоритмов: кодирования и декодирования исходных текстов и поисковых запросов, также работающих по определенным правилам.

Алгоритмы кодирования и декодирования, в совокупности с морфологическим анализатором, осуществляют две функции в системах управления процессом поиска текстовой информации. Первая из них - преобразование исходного текста, вторая - непосредственно поиск.

Параграф 4.3. посвящен решению проблем, связанных с разработкой синтаксического анализатора, описанию роли частей речи в формализованном лредложении, описанию механизма машинной сборки синтаксических конструкций и способов построения синтаксических шаблонов для систем поиска текстовой информации

В задачи синтаксического анализатора, кроме разбиения конструкции на составляющие, входит еще четыре взаимосвязанных подзадачи:

1) определить роль частей речи в предложении;

2) выяснить и формализовать основные значения падежей и предлогов;

3) выделить грамматические типы, определить необходимый их набор )ля описания синтаксического заголовка слова;

4) определить механизм машинной сборки конструкций.

Эти задачи не являются чисто синтаксическими. Потому что синтаксис и семантика - неразрывные части языка. И поэтому прямое использование только чисто синтаксической структуры невозможно: синтаксический анализатор должен использовать какую-то часть семантической информации, однозначно определяющую способ сборки конструкций.

Для синтаксического формального языка не информативны такие понятия как главный или второстепенный член предложения, подлежащее, сказуемое, определение, дополнение или другие составляющие, которые определяют грамматическую конструкцию этого предложения. Всякое слово рассматривается анализатором как некоторая фунщия / значение которой определяется ее аргументами х1,...^сп: /(х],...^п). Формализованное предложение - это конечный набор функций, связанный в единую суперпозицию. Это означает, что предложение - также некоторая функция Р, аргументами которой являются другие функции Щх1,...^сп), связанные между собой посредством определенных для та грамматических типов: Р(/7(х1,...^хп),/2(х1,...^п),...1/к(х1,...гх1ф.

Грамматический тип, определяемый только предлогом и предложной формой, позволяет определить синтаксические заголовки слов. Но эта информация будет неполной, если не определить формализованную для анализатора роль частей речи в грамматической конструкции предложения. Все части речи равнозначны, нет главных и второстепенных членов предложения. Каждый член предложения - фунщия со своими аргументами. Роль и поведение этих фунщий определяется значением их аргументов.

Особая роль при формализации синтаксиса предложений отводится глаголам, предлогам, союзам и знакам препинания.

ГЛАГОЛ в личной форме - ключевое звено любой конструкции как на семантическом, так и на синтаксическом уровне. В формальном языке глагол -сложная функция многих аргументов. Его аргументы зависят от аргументов объектов, с которыми глагол оперирует в данной конструкции предложения. Аргументы глагола фактически носят явный семантический характер и для чисто синтаксического анализа их описание достаточно затруднительно.

ПРЕДЛОГИ служат для определения аргументов и являются средствами сборки конструкций. Различаются простые и сложные предлоги. Простые предлоги - константы для функций, характеризующих физический объект.

Их синтаксическая роль состоит в уточнении аргумента вызывающей функции. Сложный предлог - двухаргументпая функция, первым аргументом которой является физический объект в какой-либо падежной форме, а вторым аргументом может быть целое предложение («Человек ушел из дома, ВСЛЕДСТВИЕ необходимости выполнения срочного задания» = «Ушел(КТО? -человек, ОТКУДА? -из дома, ПОЧЕМУ? -аследствие(ЧЕГО? -необходимости, (ЧЕГО? -выполнения срочного зада-шя"))). Для синтаксического анализатора имеет значение то, какое отношение шражает предлог к физическому объекту: пространственное (КУДА?. «Пошел « Iее»), временное (КОГДА?: «Пришел в полдень»), причинное (ПОЧЕМУ?¡«Пришел и? «сж-II»с/им»), целевое (ЗАЧЕМ?: «Остановились для ноччега»). Эти отношения определяется не только падежной формой, но и семантикой физического объекта. Па-южную форму легко вычисляет морфологический анализатор. Связка типа 1РЕДЛОГ + ПАДЕЖНАЯ ФОРМА позволяет однозначно определить основной гадежный вопрос. Сложнее с определением вопросов в косвенных падежах. !дееь необходимо семантическое описание предлогов либо в явном виде (что фактически невозможно предусмотреть для всех случаев), либо внесение в юрфологический заголовок слова конкретизирующей семантической информации об этом слове.

СОЮЗЫ, также как и в естественном языке, в формализованном синтакси-[еском служат для установления связей между однородными словами в ростом предложении и между простыми предложениями в составе сложно-о. Для синтаксического анализатора важна информация о наличии какого-либо оюза в произвольной конструкции и его семантическое назначение.

Для синтаксиса простого предложения достаточна формализация информация о) сочинительных союзах. По значению они делятся на три раз-яда, описание которых указывает анализатору способ сборки конструкции и днородные аргументы конструкции.

Различают соединительные союзы (с.с.): они имеют значение соединения i это, и то), и поэтому образуют составной аргумент по признаку его одно-одности, определяемый падежной формой. Тип такого аргумента формально Ыглядит так: если xl х2, но f(xl) = Дх2), то связка f(xl) [с.с.1 f(x2) даст аргумент-ую функцию fi(x) = /(xl) + f(x2).

Ко второму разряду относятся противительные союзы (п.е.): они имеют тачение противопоставления (не то, а это), поэтому:

если xl * х2, но f(xl) = f(x2), то связка f(xl) }n.c.l f(x2) даст аргументную функцию ß(x) = {/(xl), если f(x2) = -f(x2) и f(x2), если f(xl)=-f(xl) ¡.

К третьему разряду относятся разделительные союзы {p.c.): (либо то, либо это ). Их можно представить так:

если л/ t- х2, но f(xl) = f(x2), то связка f(xl) [p.c./ J(x2), также как и и первом случае, даст функцию fl(x) = f(xl) + f(x2).

ЗНАКИ ПРЕПИНАНИЯ в формализованном синтаксисе простых предложений служат для уточнения и конкретизации аргументов. Роль точки («.») однозначна: для анализатора она всегда является признаком окончания конструкции. Все, что находится за ней, считается новой конструкцией. Двоеточие («:») также однозначно: оно служит признаком того, что в конструкции участвуют несколько одинаковых аргументов, по типу соответствующих первому, стоящему до двоеточия. Более специфична для анализатора роль запятой («,»). С одной стороны, запятая служит признаком наличия в конструкции множества аргументов одного типа и тогда она играет роль, аналогичную роли союза «и». С другой стороны, запятая уточняет и разделяет сложные аргументы. Например, «На берегу стоячи белая береза, раскидистый дуб, высокая сосна». Приведя данное предложение В формализованный вид: «стояш(ЧГО? -{береза (КАКАЯ? -белая), дуб (КАКОЙ? -раскидистый), сосна (КАКАЯ? -высокая)}, ГДЕ? -на берегу), получим конструкцию, в которой однотипные сложные аргументы ЧТО? имеют каждый свои конкретные аргументы. Вместо запятой может употребляться точка с запятой «;», играющая аналогичную роль.

Один из способов реализации синтаксического анализатора простых предложений - использование абстрактно представленного глагола, как ведущей функции в управлении предложением и описание всех возможных его аргументов. В этом способе предполагается, что ведущая функция в любом предложении - функция многих аргументов, число которых конечно. Следовательно, любое слово можно представить как абстрактную функцию характеризующую часть речи и выраженную полным набором аргументов. Каждый аргумент имеет свое семантическое описание, информация о ко торой «вшита» в код анализатора. Так, для абстрактной глагольной функции С определено 40 таких аргументов:

6(х1,...^с40)~({10 аргументов основных падежей}, ГДЕ?, ЗАЧЕМ? КАК? {4 аргумента типа КАКОЙ? }, КОГДА?, { 4 аргумента типа КОТОРЫЙ? }, КУДА?, ОТКУДА?, ЮЧЕМУ?, {4 аргумента типа СКОЛЬКО?1, {12 аргументов типа ЧЕЙ?}).

Аргументы типов КАКОЙ?, КОТОРЫЙ?, СКОЛЬКО?, ЧЕЙ? - косвенные ар-ументы функции б, так как они являются подаргумептами аргумептов-ноических объектов для С.

Любое предложение в тексте конечно. Поэтому также конечен и на-ор аргументов, определяемый этим предложением. И так как всякая аб-трактная функция предложения выражена полным набором аргументов, то абор аргументов предложения обязательно является подмножеством аб-трактного набора. При таком подходе анализатору останется лишь выделить ргументы предложения и подставить их на место абстрактных аргументов ве-ущей функции. При этом «лишние» аргументы игнорируются, так как они не чествуют в рассматриваемом предложении.

Описание семантики синтаксиса предложений позволило разработать ме-анизм сборки синтаксических конструкций в синтаксические шаблоны.

Под синтаксическим шаблоном понимается такой способ пред-тавления информации о предложении в компьютере, по которой анали-чтор способен построить грамматически верную конструкцию предло-сепня.

В качестве синтаксического шаблона можно применить скобочную запись »формации о предложении. Формально такое предложение преобразуется в ункцию вида Р(х1,..^п, уК.,уп). Это означает, что аргументами какой-либо ве-ущей функции являются не только простые аргументы х1,..,хп - слова, кото-ые не оказывают действия на другие слова в предложении, но и сложные аргу-енты у] = Л(х),..., ук = [к(х) - функции, представляющие собой совокупность юв или выраженные целым предложением. Каждый аргумент ведущей функ-•ш Р или аргументы функций-аргументов [ взаимно и однозначно сопоста-шы с основными информационными признаками элементов синтаксической мструщии - информационными значениями аргументов: А1,..,Ат. Это те эедложно-падежные вопросы, благодаря которым происходит сборка кон-грукции. Именно по этим информационным признакам и будет происходить >иск и отождествление, задаваемой для поиска и получаемой по его резуль-

татам, информации. Таким образом, синтаксический шаблон исходного пред ложения примет вид:

Р(А'1 =хц, А)=уг), I = у =.ч+1,...,т, ц ~ 1,...,п, г-И если на вход анализатора будет подана информация вида

А1 Р(А1 = х1 ,..,Ая =хп, А] =у1,.., Ат =ук) = VI, (*)

ИЛИ А) Р(А1 =х! ,..,-4® =хп, А} =у1,.., Ат = ук) = у2, (**)

то результатом К ее обработки будет получение на выходе того аргумента л: ши у, которому однозначно соответствует информационный признак А: для А1. Щ V/ ) = хц> для А]. \*2) = уг Такое представление синтаксического шаблона имеет ряд дополнитель ных преимуществ для систем поиска. С одной стороны, чем полнее буде описана информация, подаваемая на вход анализатора в (*) или в (**), тем од нозначнее будет ответ. С другой стороны, необязательно подавать на вход пол но описанный запрос, достаточно лишь его обозначить через часть других ар гументов, например, А1Р(А1 =х1) = VI

В этом случае результатом обработки такого запроса будет возможна: совокупность различных аргументов функции Р, так как признак А/ может со ответствовать нескольким аргументам, например, Д (уЗ) = { х1, у1: если А'1 = А} = А1}. Проиллюстрируем вышесказанное примером: «Человек пошел в лес за грибами» ~ /'пошел (КТО? человек,¡ВО ЧТО?, КУДА?} в лес, {ЗА ЧЕМ?, ЗАЧЕМ?, КУДА?} - за грибами)».

Если теперь на вход анализатора подать запрос «КУДА пошел человек за грибами) то на выходе получим однозначный ответ «елее». Если на вход подать запрос «КУДА поше человек», то результатом ответа будет множество {«елее», «за грибами»}.

Еще одно преимущество такого формального представления синтаксиче ского шаблона заключается в том, что для анализатора не информативен пс рядок аргументов ведущей функции: аргумент и его признак может нахс диться в любом месте внутри скобок функции Р. Из этого следует, что, ш пример, для синтаксического шаблона «пошел (КТО? -человек, {ВО ЧТО?,КУДА?} в лес, {ЗА ЧЕМ?, ЗАЧЕМ?, КУДА?} за грибами)» равнозначны естественно-языковы конструкции:

«11еловгк пошел в лес за грибами» - «пошел человек в лес за грибами» - «Чаини в лес за грибами пошел» - «в лес за грибами пошел человек» - «за грибами в лес пошел чем век» = «за грибами человек пошел плес» и т.д.

В разделе заключение данной диссертационной работы делаются обоб-цающие выводы результатов исследований и разработок, суть которых сводится к следующему: полученные результаты по компьютерной формализации лорфологпи и синтаксиса русского языка подтвердили гипотезу о том, что ;уществует реальная возможность задать информацию о русском языке так, что сомпьютер будет способен вычислять и строить грамматически верные кон-ггрукции слов и предложений. Способы задания информации не предполагают кпользование для этих целей каких-то универсальных средств программиро-шния. Важно не средство задания информации (как реализовать?), а те принци-ш и механизмы, которые заложены в схему управления информацией о рус-жом языке (что реализовать?).

Принципиальное отличие представленного подхода от других, су-цествующих в семействе работ и средств по решению естественно-языковых фоблем, заключается в том, что практически все известные методы предпола-ают использовать знания, заложенные в них экспертом, не выходя за рамки 1тих описаний, обтекая сложные вопросы пополнения знаний или недостатка шформации о языке. В данном подходе компьютер использует в качестве наций о языке совокупность основных данных (словарь основ) и правил вывода (анализаторы). В результате - новое знание может быть вычислено 'компьютером. По произвольной, заранее неизвестной (не заданной) инфор-1ации может быть вычислена и получена информация, адекватная естествен-ю-языковому праобразу и пригодная для последующего анализа.

Таким образом, доказаны следующие утверждения:

1. Под формализацией русского языка для компьютера подразумевается такие способы и механизмы задания информации о значении слов и \равилах вывода, благодаря которым компьютер способен, не «понимая» начения и смысла, вычислить (построить) грамматически верную конструкцию, адекватную ее семантике.

2. Формализация для компьютера должна начинаться с формализации юрфологии русского языка. Минимальной задачей формализации морфоло-ии является способность компьютера вычислять полные парадигмы л 10-ых, произвольно взятых из электронного словаря, слов русского языка.

Электронный морфологический словарь является основным источником информации для компьютерной обработки морфологии русского языка.

3. Синтаксис и семантика формального машинного языка - две неотъемлемые друг от друга части. Причем такие, что семантика синтаксисг лежит в основе семантического формального языка, составляет его ядро. Смысловая адекватность конструкции тем выше, чем больше семантической информации заложено в ее составляющие, но она не зависит от семантики сборки этог конструкции. Иначе, правила сборки предложения, текста, речи - независима* базовая информация, благодаря которой формируется смысл конструкции, зависящий от смысла входящих в нее слов.

4. Всякая текстовая конструкция понимается как единая законченная суперпозиция действующих функций. Каждая функция в ней - абстрактный объект с конечным набором аргументов. Значение аргумента определяегся семантической ролью частей речи в формализованном синтаксисе и особенностями управления предложно-падежными вариантами слова.

5. Работа по формализации морфологии и синтаксиса подтвердила гипо тезу о том, что необходимым условием формализации семантики языка является словарь, в словарные статьи которого включена закодированнау семантическая информация о слове.

В приложения вынесена наиболее значимая информация о частных харак теристиках некоторых популярных поисковых систем (приложение 1) и описа ние формализации семантики синтаксиса предложений - описание аргументе] абстрактной глагольной функции (вопросы косвенных падежей) - приложение 2

Основные результаты диссертации опубликованы в работах:

1. Кривцов А.Н. Текстовые анализаторы в системах обработки документов. // Ред. ж Вестник С.-Петерб. гос. ун-та. Мат., мех., астр. С.-Петерб. 1997; -Деп. в ВИНИТИ 08.08.1997 №2641.

2. Алексеев С.А., Кривцов А.Н., Лебедев И.С., Удахин P.C., Хорошенко C.B. Систем; событийного управления объектами при разработке сетевых контролирующих программ. / Ред. ж. Вестник С.-Петерб. гос. ун-та. Мат., мех., астр. С.-Петерб. 1997; -Деп. в ВИНИТ! 08.08.1997, №2640.

3. Кривцов Л.Н. Поиск документов в базе данных. // Научный сборник СГТВУРЭ ПВ( №5, с. 130, 1998.