Метод математической формализации русского языка в задаче автоматического реферирования текстов тема автореферата и диссертации по математике, 01.01.09 ВАК РФ
Корхова, Ольга Владимировна
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Санкт-Петербург
МЕСТО ЗАЩИТЫ
|
||||
2001
ГОД ЗАЩИТЫ
|
|
01.01.09
КОД ВАК РФ
|
||
|
ВВЕДЕНИЕ.
ГЛАВА I. ЗАДАЧА АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ.
§1. Постановка задачи.
§2. Различные подходы к решению задачи автоматического реферирования. п.1 Метод составления выдержек. п.2 Метод формирования краткого изложения. п.З Выводы по
§2.
§3. Методы оценки рефератов.
§4. Средства систем автореферирования, формирующих краткое изложение.
ГЛАВА II. СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА РУССКОМ ЯЗЫКЕ.
§1. Базисные функции и базисные понятия.
§2. Семантика предложения. п.1 Морфологическая обработка предложения. п.2 Распространенные и нераспространенные предложения. п.З Семантика предложно-падежных форм. п. 4 Объектный анализ предложения. п. 5 Семантика однородных членов предложения. п. 6 Склейка семантической формулы предложения с определенным центральным словом. п. 7 Семантика причастных и деепричастных оборотов. п. 8 Склейка семантической формулы предложения. Общий случай.
§3. Семантика текста.
ГЛАВА III. РЕШЕНИЕ ЗАДАЧИ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ.
§1. Построение семантической сети.
§2. Построение концептуального графа.
§3. Генерация реферата. Дальнейшие перспективы систем автореферирования.
Быстро развивающиеся в последние годы глобальные сети (Internet) по своему информативному содержанию начинают постепенно вытеснять другие средства массовой информации, такие как радио, телевидение, прессу. Действительно, традиционным СМИ трудно что-то противопоставить информационным сайтам типа «Россия on-line», где информация о событиях со всего света поступает почти сразу после свершения события. Единственное, что сдерживает «паутину» от полного вытеснения традиционных СМИ с рынка подачи информации, это недоступность (для нашей страны, прежде всего, в материальном и техническом смысле) глобальных сетей для широких слоев населения. Однако, информативная сторона «паутины» - далеко не самая основная. Помимо пассивной информации о текущих событиях в сети находятся огромные образовательные, аналитические, научные, развлекательные и другие полезные (и малополезные) ресурсы. С каждым годом, месяцем, неделей количество этих ресурсов неуклонно растет, вместе с этим растет и потребность пользователя в эффективных автоматических средствах их обработки (см. [1, 2, 3,4]): поисковых системах, машинных переводчиках, средствах автоматического реферирования, тематических классификаторах и т.п. Нельзя не отметить, что средств таких на сегодняшний день немного, а эффективных (обеспечивающих скорость и качество одновременно) практически нет. Согласно [5] современные поисковые системы, вместе взятые, индексируют 1 сайт из 400-550, т.е. 0,15-0,25% от общего количества ресурсов! Таким образом, подавляющее большинство сайтов («глубинная» часть Web -[5]) в поисковых системах не представлено.
Тем не менее, даже те ресурсы, которые доступны поисковым системам (проиндексированы), достаточно велики. И, так как поисковых систем, организующих поиск информации по смыслу запроса, до сих пор не создано1, релевантных ответов на запрос встречается относительно немного. Зато выда
1 Во всяком случае, таковых нет среди общеизвестных поисковых систем, имеющих дело с большим количеством проиндексированных ресурсов. ется много «мусора» - ответов, абсолютно не релевантных запросу [6, 7]. Во многих случаях эта нерелевантность не очевидна пользователю, и такие ответы приходится анализировать «вручную» - просматривать ресурс самому. Особенно тяжело дело состоит с публикациями научного характера. Такого рода публикации часто бывают слишком велики (более 20 страниц), вследствие чего тратится большое количество времени на просмотр ненужных тебе статей (хорошо, если у них указано хотя бы содержание!). Проще переложить эту работу на плечи автоматического помощника, который сможет уловить основную тему статьи, ход мысли автора и составить краткий реферат по публикации, взглянув на который, пользователю стало бы сразу ясно, то ли это, что он искал, или нет. Такими помощниками являются на сегодняшний день средства автоматического реферирования текстов. Очевидно, что область их применения не ограничивается приложением к системам автоматического поиска в глобальных сетях. Составление краткого реферата может оказаться необходимым при просмотре электронной почты, чтении информационных и аналитических статей и даже при подготовке собственной статьи к публикации (см. дополнительно о реферировании [8, 9]).
Можно с уверенностью сказать, что задача автоматического реферирования текстов на естественных языках появилась одновременно с возможностью представлять тексты в электронном виде. Настоящая работа предлагает систему автоматического реферирования текстов на русском языке, основанную на построении базы знаний в виде семантической сети. Полная постановка задачи автоматического реферирования, а также возможные методы решения этой задачи описаны в Главе I.
Выше уже отмечалось, что система автоматического реферирования, о которой идет речь в данной работе, опирается на знания в форме семантической сети. Принцип построения семантической сети на основе входного текста изложен в Главе III. Там же описан механизм концептуальных выжимок из входного текста при помощи построенной семантической сети.
Естественный язык - вещь достаточно сложно формализуемая и структурируемая, тем не менее, некоторая формализация (пусть не абсолютная) языку необходима для проведения семантического анализа и построения семантической сети (которая, собственно, также представляет собой формальную структуру). Мною и Корховым А. В. был разработан алгоритм семантического анализа предложения, построенный на принципах формализации русского языка, изложенных в[10, 11, 12, 13]. При разработке указанного алгоритма использовался семантический словарь, построенный Тузовым В. А. Данный алгоритм подробно освещен в первой части Главы II.
Алгоритм формализации предложения может быть использован в некоторых задачах, связанных с обработкой текстов на русском языке (например, в задаче машинного перевода - [14, 15]), однако для большинства прикладных задач формализации предложения оказывается явно недостаточно. Например, для таких задач как автоматический поиск или автоматическое реферирование, необходимо установление связей между предложениями (корефе-ренциальные, анафорические, неопределенные связи), позволяющих объединить текст в единый смысловой объект. Вопросы, связанные с этой проблемой, изложены во второй части Главы II. Основные принципы семантики текста, используемые там, основываются на идеях, почерпнутых в [16,17, 18, 19, 20] и др.
Итак, настоящая работа преследует две основных цели:
1. Построение алгоритма семантического анализа текста на русском языке с последующим синтезом на его основе семантической сети, а затем и концептуального графа.
2. Использование построенной семантической сети в прикладной задаче автоматического реферирования текстов на русском языке.
Для достижения поставленных целей выполнялись следующие задачи:
1. Разбиение множества слов русского языка на базисные классы (см. §1 Главы II).
2. Алгоритм свертки простого распространенного предложения на русском языке (включая причастные и деепричастные обороты, однородные члены предложения) в семантическую формулу (см. §2 Главы II).
3. Выявление связей между предложениями текста (см. §3 Главы II).
4. Построение базы знаний, а затем и семантической сети на основе входного текста (см. §1 Главы III). При этом для построенной базы знаний должны соблюдаться все основные свойства баз знаний - внутренняя интерпретируемость, структурированность, связность.
5. Собственно, задача реферирования построенной семантической цепи (обнаружение основных понятий и связей, удаление излишних или производных) с построением концептуального графа (см. Главу I, §2 Главы III).
6. Синтез реферата (см. §3 Главы III).
На защиту выносятся:
1. Построенная иерархия базисных существительных русского языка, задающая структурные и ассоциативные связи между объектами (информационными единицами).
2. Разработанный алгоритм семантического анализа предложения (включая анализ предложно-падежных форм на предмет выяснения их се-мантико-грамматического типа), осуществляющий преобразование предложения на русском языке в формальную структуру - семантическую формулу предложения.
3. Концепция решения задачи автоматического реферирования текстов с использованием семантически-ориентированного подхода к анализу текста.
Новизна настоящей работы состоит в попытки построения системы автоматического реферирования без использования каких-либо статистических методов (как-то вычисление весового коэффициента расположения, весового коэффициента ключевой фразы, учет показателя статистической важности и т.п.). Реферирование проходит по принципу качественного отбора узлов семантической сети (количество и качество связей узла, его связь с «сильным» узлом и т.п.) С уверенностью можно сказать, что ранее для русского языка таких систем создано не было, или они не получили должной известности (ссылок на подобного рода работы после продолжительного поиска найдено не было).
По результатам настоящей работы была создана работающая программа, позволяющая проводить автоматическое реферирование небольших (10-20 страниц) текстов на русском языке, используя указанные принципы. Пользователь может задавать %-ное (5-30%) или объемное (в килобайтах) сжатие входного текста.
Заключение.
В работе рассматривалась задача автоматического реферирования текстов на русском языке. При решении задачи использовался метод математической формализации русского языка.
В ходе проведенных исследований были получены следующие теоретические и практические результаты:
1. Построена иерархия базисных объектов (существительных). Работа была проведена в 1998-2000 под руководством В.А. Тузова. Иерархия представляет собой ориентированное дерево типа РОД-ВИД.
2. Разработан алгоритм семантического анализа простого распространенного предложения на русском языке. Семантический анализатор преобразует предложение на русском языке в формульную структуру с ясно выраженными логическими связями между словами. Построенный алгоритм обладает следующими достоинствами:
1) Построена динамическая объектно-ориентированная морфологическая структура. Для каждого слова предложения можно быстро добавить и убрать морфологические и лексические альтернативы, просмотреть морфологические описатели и т.п.
2) Определены критерии распространенного и нераспространенного предложения в зависимости от аргументов семантических формул входящих в него слов (свойство включенности). Определения даны с точки зрения семантики предложения.
3) Проводится анализ предложно-падежных форм. В зависимости от базисного класса присоединяемого объекта (существительного) и некоторых свойств присоединяющего слова вычисляется семантико-грамматический тип предложно-падежной формы. Анализ предложно-падежных форм особенно важен для определения семантико-грамматического типа свободных форм.
4) Проводится анализ предложений с однородными членами.
5) Разработан механизм определения центрального слова предложения. Для предложений с определенным центральным словом разработан соответствующий алгоритм анализа и «склейки» семантической формулы. Предложен метод анализа предложений с пустым центральным словом. В таких предложениях определяется основной и/или вспомогательный объект. От их морфологических и семантических свойств зависит вид семантической формулы предложения. Выявлено 20 видов предложений с пустым центральным словом.
6) Осуществляется анализ причастных и деепричастных оборотов. Они анализируются как предложения с определенным центральным словом (причастием или деепричастием, соответственно).
Семантическому анализатору присущи следующие недостатки:
1) Не рассматриваются (пока) предложения, содержащие тире.
2) Анализатор имеет некоторое количество ошибок при анализе предложений, содержащих ряды однородных членов.
3) Не анализируются (выпадают из анализа) вводные конструкции и обращения.
Построенный семантический анализатор реализован в программе на языке С++.
3. Реализованы такие методы семантического анализа текста, как разбиение множества объектов текста на «старое» и «новое», установление ко-референциальных и анафорических связей, морфологическое и синтаксическое сопоставление предложений.
4. Предложена схема построения семантической сети для текста на русском языке. При этом используются результаты (конечные и промежуточные), полученные в ходе семантического анализа. Семантическая сеть представляет собой граф, в вершинах которого находятся информационные единицы текста (объекты с описаниями), а ребрами являются связи между этими информационными единицами. Связи бывают трех типов: структурные, логические и ассоциативные (введено 6 видов ассоциативности). Ассоциативные связи между информационными единицами задают семантическую метрику.
5. Представлен способ преобразования семантического графа в концептуальный. В вершинах концептуального графа стоят темы (информационные единицы с определенным тематическим весом). В зависимости от своего веса темы подразделяются на основные, второстепенные, малозначительные и незначительные. Связи между темами (ребра концептуального графа) также имеют веса. Величина веса связи между двумя темами текста указывает на силу отношений этих тем в тексте.
6. Предлагается концепция решения задачи автоматического реферирования с использованием полученного концептуального графа. В зависимости от параметров сжатия выбираются темы и связи, которые затем генерируются в текст на естественном языке. Процедура коррекции позволяет добиться того, что размер полученного реферата будет находиться в заданных пользователем границах.
Представленные результаты имеют большое практическое значение. В частности, построенную семантическую сеть можно использовать в других задачах теории искусственного интеллекта и компьютерной лингвистики, например, в задаче машинного перевода или в задаче автоматического поиска. Концептуальный граф может быть применен для тематической сортировки документов.
В заключение хочу выразить благодарность своему научному руководителю профессору Тузову Виталию Алексеевичу за предоставленные им материально-технические средства, моральную поддержку, а также всех, кто помогал мне советом.
1. Жигалов В.А. Об опыте разработки системы построения ЕЯ-интерфейсов к базам данных 1. Труды Международного семинара Диа-лог-98 по компьютерной лингвистике и ее приложениям. Том 2. Казань, 1998.
2. Васильев В.В. Компьютерное понимание текстов. М., 1988.
3. Иомдин J1. Автоматическая обработка текста на естественном языке: модель согласования. М., 1990.
4. Боярский К.К., Каневский Г.В., Лезин А.И., Попова А.И. Формализация знаний в гуманитарных исследованиях II Экономико-математические исследования: математические модели и информационные технологии, СПбНЦ РАН, 2000, с. 248-264.
5. Жигалов В.А. Как нам обустроить поиск в сети? // Открытые системы. Вып. 12. М., 2000.
6. Корхов A.B. Использование формализации естественных языков в задаче автоматического поиска. Деп. в ВИНИТИ, М.: № 3892-В99.
7. Корхов A.B., Корхова О.В. Алгоритм решения задачи автоматического поиска с использованием метода формализации русского языка. Деп. в ВИНИТИ, М.: № 70-В01.
8. Корхова О.В. Метод формализации русского языка в построении баз знаний и автореферировании II Труды XXXII научной конференции факультета ПМ-ПУ СПбГУ. СПб., 2001.
9. Мартемьянов Ю.С. Проблемы актуального членения в исследованиях по автоматическому переводу и реферированию. М., 1981.
10. Тузов В.А. Математическая модель языка. Л., Изд-во ЛГУ, 1984.
11. Тузов В.А. Языки представления знаний. С.-Петербург, изд-во СПбГУ,1990.
12. Тузов В.А. Компьютерная лингвистика (опыт построения компьютерных словарей). В печати (изд-во СПбГУ).
13. Каневский Е.А., Клименко E.H., Тузов В.А. Об одном подходе к классификации прилагательных II Труды Международного семинара Диалог-2000 по компьютерной лингвистике и ее приложениям. Том 2. Протвино, 2000, с. 162-167.
14. Корхова О.В. Формализация естественных языков как метод машинного перевода. Деп. в ВИНИТИ, М.: № 3893-В99.
15. Нелюбин Л.Л. Компьютерная лингвистика и машинный перевод. М.,1991.
16. Мельчук И.А. Опыт теории лингвистических моделей "Смысл-текст ". М., 1999.
17. Мельчук И.А. Русский язык в модели "Смысл-текст ". М.-Вена, 1995.
18. Апресян Ю.Д. Лексическая семантика (избранные труды). Том 1. М., 1995.
19. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М., 1989.
20. Сидоров Г.О., Гельбух А.Ф. К вопросу установления и разрешения скрытой анафоры II Труды Международного семинара Диалог-99 по компьютерной лингвистике и ее приложениям. Том 2. Таруса, 1999, с. 288-297.
21. Хан У., Мани И. Системы автоматического реферирования // Открытые системы. Вып. 12. М., 2000.
22. Borko Н., Bernier C.L. Abstracting Concepts and Methods. Academic Press, New York, 1975.
23. Hutchins J. Summarization: Some Problems and Methods II Proc. Informatics 9: Meaning-The Frontier of Informatics, K.P. Jones, ed. Aslib, London, 1987, pp. 151-173.
24. Salton G. et al. Automatic Text Structuring and Summarization II Information Processing & Management. Vol. 33, No. 2, 1997, pp. 193-207.
25. Wyllys R.E. Extracting and Abstracting by Computer II Automated Language Processing, H. Borko, ed. John Wiley & Sons, New York, 1967, pp. 127-179.
26. Hahn U., Reimer U. Knowledge-Based Text Summarization: Salience and Generalization Operators for Knowledge-Based Abstraction II Advances in Automatic Text Summarization, I. Mani and M. Maybury, eds. MIT Press, Cambridge, Mass., 1999, pp. 215-232.
27. Guha, R. V., D. B. Lenat, K. Pittman, D. Pratt, and M. Shepherd. Cyc: A Midterm Report II Communications of the ACM 33 , no. 8, 1990.
28. Lenat, D. B. and R. V. Guha. Building Large Knowledge Based Systems. Reading, Massachusetts: Addison Wesley, 1990.
29. Lenat, D. B. Cyc: A Large-Scale Investment in Knowledge Infrastructure II Communications of the ACM 38, no. 11, 1995.
30. Mani I. et al. The Tipster Summac Text Summarization Evaluation II Proc. 9th Conf. European Chapter of the November 2000.
31. Боброва A.B. Грамматика русского языка. M., 1999.
32. Болотова JI.C. и др. Системы искусственного интеллекта. М., 1998.
33. Скрэгг, Г. Семантические сети как модели памяти II Новое в зарубежной лингвистике. Вып. 12. М., 1983.
34. Ермаков А.Е., Плешко В.В. Ассоциативная семантическая сеть: статистическая модель восприятия и порождения текста II Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Том 2. Аксаково, 2001.
35. Лезин Г.В., Боярский К.К., Каневский Е.А., Попова А.И. Программирование концептуальной обработки текстов II Информационные технологии в гуманитарных и общественных науках. Вып. 3. СПб, 1996, с. 19-27.
36. Лезин Г.В., Боярский К.К., Каневский Е.А., Попова А.И. Анализ текстов: представление и обработка концептуальной информации И Труды международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям. Ясная Поляна, 1997, с. 170-174.
37. Mani I., Bloedorn Е. Summarizing Similarities and Differences Among Related Documents // Information Retrieval. Vol. 1, No. 1, 1999, pp. 35-67.
38. Radev D.R., McKeown K.R. Generating Natural Language Summaries from Multiple Online Sources II Computational Linguistics. Vol. 24, No. 3, 1998, pp. 469-500.
39. Ando R.K. et al. Multidocument Summarization by Visualizing Topical Content II Proc. ANLP/NAACL 2000 Workshop on Automatic Summarization, 2000, pp. 79-88.
40. Lienhart R., Pfeiffer S., Effelsberg W. Video Abstracting II Comm. ACM. Vol. 40, No. 12, 1997, pp. 54-62.