Разработка и исследование структурных методов распознавания в задачах принятия решений и экспертных системах тема автореферата и диссертации по математике, 01.01.11 ВАК РФ

Ковалев, Андрей Владимирович АВТОР
кандидата технических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
1992 ГОД ЗАЩИТЫ
   
01.01.11 КОД ВАК РФ
Автореферат по математике на тему «Разработка и исследование структурных методов распознавания в задачах принятия решений и экспертных системах»
 
Автореферат диссертации на тему "Разработка и исследование структурных методов распознавания в задачах принятия решений и экспертных системах"

МОСКОВСКИЙ ОРДЕНА ОКТЯБРЬСКОЙ РЕВОЛЮЦИИ И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ИНСТИТУТ СТАЖ И СПЛАВОВ

На правах рукописи

КОВАЛЕВ Андрей Владимирович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ СТРУКТУРНЫХ МЕТОДОВ РАСПОЗНАВАНИЯ В ЗАДАЧАХ ПРИНЯТИЯ РЕШЕНИЙ И ЭКСПЕРТНЫХ СИСТЕМАХ

Специальность 01.01.11 - "Системный анализ и

автоматическое управление"

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва 1992

Работа выполнена в Московском институте стали и сплавов.

Научный руководитель: член-корреспондент РАН, доктор технических наук САЛЫГА К И.

Официальные оппоненты:

член-корреспондент РАН, доктор технических наук ТЕРЯЕВ Е. Д., кандидат технических наук ЛОГИНОВ В. Э.

Ведущая организация: НПО "Черметавтоматика", г. Москва.

Защита диссертации состоится " " 1992 г.

в час. на заседании специализированного совета Д. 053. 08.07 Московского института стали и сплавов по адресу: 117936, г.Москва, ГСП-1, Ленинский проспект, 4.

С диссертацией можно ознакомиться в библиотеке МИСиС.

Автореферат разослан " 19д2

Справки по телефону: 237-84-45.

Ученый секретарь специализированного совета, кандидат технических наук

СЕРГЕЕВ Л. Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. При разработке систем управления сложными производственными процессами исследователи сталкиваются с задачами, которые не поддаются полной формализации. Это связано с разнородностью факторов, влияющих на протекание процесса, недостоверностью, неполнотой и противоречивостью получаемой информации, сложностью и разнообразием стадий, входящих в процесс, а также невозможностью представления желаемых целей в виде функционального критерия. До настоящего времени не удалось получить достаточно адекватные модели, причем непрерывное и трудно контролируемое изменение параметров объекта, например, вследствие износа оборудования, колебаний свойств исходных материалов, требует частой повторной идентификации модели, а частые изменения требований к продукции по качеству, количеству и моменту его выдачи препятствуют определению управляющих воздействий в темпе работы объекта и делают бесполезным использование сложных математических моделей для управления. Таким образом, стремление к повышению адекватности модели путем ее усложнения вступает в противоречие с требованиями быстродействия.

Попытки решения трудноформализуемых задач привели к возникновению в середине 70-х годов нового направления в исследованиях по искусственному интеллекту, получившего название экспертные системы или системы поддержки принятия решений. Данные системы способны эффективно и быстро решать задачи управления в условиях нечеткого определения свойств объекта и внешних воздействий при неполноте и недостаточности информации

о состоянии объекта. Именно эти условия, в которых приходится осуществлять управление объектами в черной металлургии и которые снижают эффективность традиционных АСУТП и АСУП, делают целесообразным применение экспертных систем.

Методы исследования. В диссертации использовались элементы теории распознавания образов, системного анализа, методы классификации и прикладного статистического анализа, методы алгебры логики и теории выбора и принятия решений.

Цель работы. Целью диссертационной работы является разработка и исследование структурных методов распознавания образов и их применение при создании программного комплекса для построения систем принятия решений и экспертных систем диагностического типа. Для достижения указанной цели в диссертации были поставлены и решены следующие задачи:

- исследование проблемы построения и функционирования систем принятия решений на основе имеющихся статистических данных и знаний экспертов в условиях неполноты и противоречивости информации;

- постановка обобщенной задачи классификации в применении к системам принятия решений;

- разработка методики синтеза правил классификации и принятия решений в виде бинарного дерева на основе поэтапной декомпозиции исследуемого признакового пространства;

- анализ алгоритмов получения решающих функций и разработка методов их оценивания при синтезе правила классификации;

- исследование предлагаемых методов, оценка вероятности ошибки классификации и структурной сложности дерева решений;

- разработка архитектуры и функционального наполнения программного комплекса для построения экспертных систем диаг-

ностического типа.

Научная новизна работы состоит в следующем:

- введено понятие обобщенной задачи классификации, которое значительно расширяет этот класс задач, учитывая неполноту, противоречивость и избыточность данных;

- разработаны алгоритмы поэтапной структурной декомпозиции признакового пространства и методика синтеза бинарного дерева решений;

- обоснована методика многокритериального оценивания решающих функций при синтезе правила классификации;

- разработаны концепция и архитектура комплекса инструментальных средств по созданию систем принятия решений и экспертных систем диагностического типа.

Практическая ценность. Материалы диссертационной работы были использованы при выполнении научно-исследовательских работ, проводимых в лаборатории проблем идентификации объектов управления Московского института стали и сплавов в 1988 -1991 гг., а именно: тема N 327003 "Разработать на основе структурно-аналитических методов идентификации и алгоритмов классификационной обработки данных пакет прикладных программ для решения задач оптимизации управления и проектирования систем управления дискретно - непрерывными производствами (в том числе для объектов металлургической промышленности )", "Разработка методов, алгоритмов и программ диагностики качества изделий электронной техники в рамках системы слежения за данными поставщика".

На базе разработанных алгоритмов создан программный комплекс "Диагност", позволяющий обрабатывать большие объемы статистической и экспертной информации, который был использован

при построении ряда систем принятия решений и технической диагностики.

Апробация работы. Результаты диссертационной работы обсуждались на:

- Международной конференции ИФАК "Оценка методов адаптивного управления, используемых в прикладных задачах" (Тбилиси,

1989),

- семинаре "Программное обеспечение в компьютеризации" (Москва, 1990),

- Всесоюзной конференции "Создание и применение гибридных экспертных систем" (Рига, 1990),

- Всесоюзном совещании по экспертным системам (Суздаль,

1990),

- Всесоюзной конференции "Идентификация, измерение характеристик и имитация случайных сигналов" (Новосибирск, 1991),

- Всесоюзной конференции "Гибридные интеллектуальные системы" (Терскол, 1991),

- Международной конференции "Технология программирования 90-х" (Киев, 1991),

- 45-й научной конференции студентов и молодых ученых МИСиС (Москва, 1991),

- научных семинарах лаборатории проблем идентификации объектов управления ШСиС.

Публикации. По теме диссертации опубликовано 7 печатных работ.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения, списка использованной литературы из 118 наименований и приложений. Материал диссертации изложен на 167 страницах машинописного текста с рисунками и таблицами.

ОБОБЩЕННАЯ ПОСТАНОВКА ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ • В ПРИМЕНЕНИИ К СИСТЕМАМ ПРИНЯТИЯ РЕШЕНИЙ

Анализ известных алгоритмов классификации на основе деревьев решений показывает, что основные недостатки данных алгоритмов при использовании их в системах принятия решений являются следствием следующих факторов: во-первых, постановка задачи классификации должна быть расширена с учетом наличия избыточности, противоречивости, а также и неполноты информации, заключенной в исходных данных. Во-вторых, информация о предметной области может быть представлена не только в виде таблиц экспериментальных данных, но и в виде набора логических высказываний, которые могут быть подготовлены при опросе экспертов. В-третьих, требования к получаемому правилу классификации должны включать не только минимизацию структурной, алгоритмической сложности правила и вероятности ошибки классификации, но и возможность работы при неизвестных значениях некоторых признаков, используя при этом эвристические алгоритмы поиска решений по дереву. "Гибкость" решателя и его информационная емкость может быть увеличена за счет учета избыточной информации содержащейся в экспериментальных данных. Таким образом необходимо дать новую постановку задачи классификации (распознавания образов) с учетом вышеуказанных факторов, ориентированных на применение алгоритмов распознавания в реальных задачах принятия решений. Данную расширенную постановку задачи будем называть обобщенной.

Введем необходимые определения.

ОПРЕДЕЛЕНИЕ 1. Признаком ZCl'<^XL/ ¿-{о, где Я - общее число признаков, - множество значений признака, называется измеренная в какой-либо шкале характеристика или параметр объекта иэ предметной области. Совокупность всех признаков образует признаковое пространство X = • t которое в общем случае является многомерным и разнотипным. Тип признака зависит от шкалы в которой измеряются значения этого признака, т. е. от структуры множества значений X¿. Рассматриваются пять основных типов:

1) булевский (B00L) - признак измерен в логической шкале и принимает только два значения: "нет", либо "да", множество значений Xt в этом случае самое простое: Xt' ■=• / 0, fj.

2) действительный (REAL) - признак может принимать любое вещественной значение между минимальной и максимальной границей. В этом случае Xt" представляет подмножество действительных чисел, наделенных обычной евклидовой метрикой: У с ^

• У(с ~ £ ^fnin,

3) целый (INTG) - признак может принимать любое целое значение между минимальной и максимальной границей: 2.

Xt' ~ Е Хтах 7.

4) перечислимый (NAME) - признак измерен в шкале наименований и принимает конечное число значений, между которыми нельзя установить отношение порядка: XС -

где £ - число значений признака. В этом случае множество XL не наделено никакой структурой, составляющие его значения имеют вид качественных описаний, никак не связанных между собой;

5) порядковый (ORDER) - признак измерен в порядковой шкале, принимает конечное число значений, между которыми можно установить отношение порядка: Х{ » j4/, > ^ ~ ^ ~ "' ~

Данные пять типов выбраны потому, что с одной стороны любое измерение, выполненное в различных шкалах, можно свести к одному из этих типов, а с другой - представление и обработка данных в ЭВМ для каждого из этих типов различны, что не позволяет объединить некоторые типы, например B00L и NAME, или INTG И ORDER.

Каждому признаку приписана стоимость Сс~ , отражающая сложность, время, стоимость получения информации по данному признаку. Данная относительная величина задается экспертом и используется в задачах, где накладываются стоимостные, временные и др. ограничения на получение решения.

ОПРЕДЕЛЕНИЕ 2. Объектом называется определенное состояние предметной области, которое задается значениями признаков данного объекта Oj - . • • , j - £ M , где т - число объектов, Xji - значение с -го признака для J -го объекта. Объект представляет собой точку в признаковом пространстве. Часть значений признаков у объекта может быть неопределена, т.е. где NIL означает, что значение признака неиз-

вестно, в данном случае мы будем говорить о неполноте данных об объектах.

ОПРЕДЕЛЕНИЕ 3. Классом называется некоторая область пространства признаков Kj с X П , где J - номер класса, J - f; S > S - общее число классов.

ОПРЕДЕЛЕНИЕ 4. Примером (фактом) ~ (о^^ называется конкретный объект, о котором известно какому классу он принадлежит, т.е. Kzj^Eабор фактов образует таблицу экспериментальных данных (сокр. ТЭД), которую можно представить в виде матрицы

Для того, чтобы в дальнейшем оперировать с понятиями из-

быточности и противоречивости введем эти понятия в рамках рассматриваемой задачи.

ОПРЕДЕЛЕНИЕ 5. Под противоречивостью фактов понимается наличие одинаковых объектов, которые принадлежат' разным классам, т.е. ^¿с = ^,

Число противоречивых примеров обозначим через /^/^^Противоречивость фактов может являться следствием двух причин, во-первых, недостаточного признакового описания, т.е. когда имеющихся признаков недостаточно, чтобы описать различия для данных объектов, такая ситуация подлежит исправлению за счет введения новых характеристик, описывающих объект. Во-вторых, наличие одинаковых объектов, которые одновременно следует относить к нескольким классам. Последняя ситуации является нормальной и свидетельствует, например, о наличие нескольких состояний одновременно.

ОПРЕДЕЛЕНИЕ 6. Под избыточностью информации понимается такое свойство ТЭД, когда удаление из рассмотрения некоторых признаков не влечет за собой появление противоречивости информации, т. е. 3 ¿: /¿г] (Т„п /ъ) ~ К (Ъпо) Избыточность является следствием наличия зависимости между признаками.

Рассматриваемые методы синтеза правил принятия решений используют информацию, которая задается экспертом в виде логических высказываний (экспертных правил).

ОПРЕДЕЛЕНИЕ 7. Решающая функция сокр. РФ) - это условное выражение булевского типа, которое в зависимости от типа привнаков, входящих в РФ, может иметь различный вид (здесь X <=- ХК - вектор некоторого подпространства

^ Л

X к £ п )• Сопряженными на некоторой подтаблице ТЭД

- и -

называются РФ, значения которых совпадают на данной подтабли-це, т.е.

'■"""rj

Мы будем рассматривать наиболее простые РФ. Это диктуется соображениями их более простой интерпретации для эксперта, простоты вычисления, общность рассмотрения при этом не теряется:

1) простые одномерные РФ, используются для признаков типов REAL, INTG и ORDER

Xi < 0о

ORDER » i

X; ^ <?0 Xi <

2) линейные РФ - для типов REAL и INTG

¿fx) =

Tt^/ l O, UHqve.

3) перечислимые РФ - для типов ORDER и NAME

•7-1 J L о, Uverve

4) логические РФ - для типа BOOL

ОПРЕДЕЛЕНИЕ 8. Экспертное правило Rj (х) представляет собой простое логическое высказывание, составленное из РФ с применением операций алгебры логики: А - конъюнкции,. V - дизъюнкции, 1 - отрицания и импликации.

ОПРЕДЕЛЕНИЕ 9. Правило классификации (сокр. ПК) - это отображение F' X j] которое ставит в соответствии лю-

бому объекту Oj из признакового пространства набор вероятных номеров классов /ji} / > к которым может принадлежать данный объект.

Обобщенная поставка задачи классификации формулируется следующим образом. Пусть задано пространство признаков Xti-Xi *-"*)(h , в этом пространстве расположены «S классов ki; ... , Задана ТЭД 1п>л + г > состоящая из ^объ-

ектов, каддому из которых поставлен в соответствие классЛ^и множество экспертных правил Требуется по

и построить бинарное дерево решений, определяющее

правило классификации /"?*/_,...X/,).

ТЭД может содержать статистические данные об изучаемой предметной области, которые включают описание конкретных примеров с указанием заключения специалистов о принадлежности их к тем или иным классам. Примеры могут составляться непосредственно экспертами исходя из их профессионального опыта, что подчас представляет для эксперта более простую задачу, чем составление набора правил, используемых для диагностирования ситуаций.

МЕТОДОЛОГИЯ СИНТЕЗА БИНАРНОГО ДЕРЕВА РЕШЕНИЯ НА ОСНОВЕ АЛГОРИТМОВ ПОЭТАПНОЙ ДЕТАЛИЗАЦИИ

Основная идея синтеза бинарного дерева решений как процедуры распознавания основана на выделении в пространстве признаков отдельных "близких" групп объектов (кластеров). Проблема состоит в том, что структура признакового пространства неоднородна и нет возможности ввести единую меру близости между объектами. Эта задача решается путем нахождения по ТЭД решающих функций отдельно по каждому признаку, при этом информация о классах может не использоваться, а РФ определяются, используя алгоритмы кластерного анализа и методы обобщения понятий. Таким образом, границы областей, определяемые РФ, проходят "вдали" от скоплений объектов, что повышает устойчивость синтезируемого правила классификации к случайным помехам при измерении признаков. Выбор РФ для подстановки в рассматриваемую вершину дерева решений осуществляется уже с учетом информации о классах объектов в результате оценивания специально разрабо-

танными критериями.

Алгоритм построения бинарного дерева решений представляет собой рекурсивный процесс разбиения признакового пространства на фрагменты с помощью РФ, получаемых по информации, заключенной в ТЭД. Формально алгоритм синтеза правила классификации представляется следующим образом:

1) производится проверка соответствия правил и примеров:

производится проверка ТЭД на неполноту и противоречивость. В случае обнаружения несоответствий эксперту предлагается их устранить, если это возможно;

2) происходит выбор вершины и соответствующей ей подтабли-цы (первой вершине соответствует вся ТЭД). Если промежуточных вершин больше нет, то построение заканчивается. Если в

"Тт^ присутствуют объекты одного класса ^ , т. е. ^

то переход к пункту б), иначе:

3) построение по множества РФ ^Р* , являющихся претендентами на выбор в вершину ; если множество<^><пусто, то это означает, что неразличимые объекты принадлежат разным классам > далее - переход к пункту 6);

4) вычисление критериев №(*)) Для -¡?(х) ^^ и выбор наилучшей РФ по максимуму взвешенной суммы

¿7 (/?*)) - £ & ■ (?))

л/

где - число используемых критериев;

5) формирование вершины и подтаблиц с использованием вершину подставляется все РФ, сопряженные с ней на

п формируются таблицы для правого и левого поддерева верши-

6) описание листа: в лист заносится информация о номерах классов J-f, • - ■ jjfo > а по оставшейся определяются РФ, характеризующие данные классы, по признакам, не используемым в РФ на пути к этому листу. Переход к пункту 2).

Для определения по ТЭД множества РФ используются различные алгоритмы классификации и кластерного анализа. В зависимости от типов исследуемых признаков эти алгоритмы подразделяются на следующие группы.

Для признаков типа REAL, INTG, ORDER РФ могут быть найдены с помощью одномерных гистограммных методов .

где Q0 - порог, равный половине нулевого (либо минимального)

mm max

гистограммного интервала L хг] на признаковой оси ^. на практике для получения гистограмм и восстановления функций плотности распределения обычно используются методы непараметрической статистики.

РФ линейного типа могут быть получены с помощью многомерных гистограмм к \

/сю- »"J"

где порог ¿70 определяется на оси вдоль максимальной дисперсии исследуемых объектов.

Аналогично для данного типа РФ используются линей-ные-дискриминантные функции, например, Фишера .

где Х^ и Х(2)- выборочные средние двух классов, a -общая ковариационная матрица. В теории распознавания образов разработано множество алгоритмов восстановления линейных РФ для двухклассовой задачи дихотомии в евклидовом пространстве. Это и вариации алгоритмов стохастической аппроксимации, методы

потенциальных функций и зероятностные методы минимизации функции эмпирического риска. Все данные методы требуют информации о принадлежности объектов тем или иным классам, а также группировки всего множества классов на два подмножества, которые являются исходными для задачи дихотомии. Группировка предполагает комбинаторные методы перебора классов, что затрудняет использование алгоритмов классификации при определении множества РФ.

КРИТЕРИИ ОПЕНКИ РЕШАЮЩИХ ПРАВИЛ

Перейдем к описанию критериев, по которым происходит выбор РФ иэ множества Ф . В реальных задачах можно определить набор признаков и составить ТЭД с информацией, достаточной для построения правила принятия решения, которое безошибочно классифицирует обучающую выборку. В этом случае важным становится не минимизация вероятности ошибки, а упрощение структуры дерева решений. В работе предлагается использовать следующие критерии.

1. Критерий "разбитых" классов. Класс считается "разбитым" если принадлежащие ему объекты оказываются в подпространствах, соответствующих леЕой и правой вершинам-последователям дерева. Этот критерий является "штрафующим" и вычисляется

-/ — -, . -Где £ - тэоттиттиа Ятттхтэь-оа и* *лтгтпл

т

как сумма

- 16 -

2. Критерий сопряженности правил. Число сопряженных решающих функций с одинаковым распределением объектов в порождаемых подпространствах

г?2 {/с*)) -/и&М^о-Ао,.)^^/

3. Критерий равномерности разбиения. Критерий характеризует "близость" объектов в фрагментах, соответствующих левой и правой вершинам дерева:

У

где Ттп > Ттг> ~ Фрагменты, соответствующие левой и правой вершинам-последователям дерева, т0 , Щ - число объектов в Т„оП значения РФ для объектов и .

4. "Стоимость" РФ. Обобщенные затраты - временные, материальные и т.д., необходимые для реализации РФ. Определяются затратами на получение и подготовку информации о признаках, входящих выданное РФ. Критерий может быть определен как

где С' - затраты на определение -го признака, € -число признаков, входящих в данное РФ.

РФ или набор РФ, помещаемых в вершину, определяется путем многокритериального выбора, например, лексикографическим или мажоритарным выбором, по взвешенному критерию и т. п.

Использование предложенной методики при построении дерева решений обеспечивает эффективность структуры дерева и уменьшение общей вероятности ошибки классификации (критерии 1,3), поддержку избыточности информации (критерий 2), снижение затрат на использование решающей системы (критерий 4).

- 17 -

ОЦЕНКА ВЕРОЯТНОСТИ ОШИБКИ КЛАССИФИКАЦИИ И СТРУКТУРНОЙ СЛОЖНОСТИ ДЕРЕВА РЕШЕНИЙ

Задача построения правила классификации в вероятностных терминах формулируется следующим образом: на основании результатов } независимых случайных наблюдений элементов вероятностного пространства ( ? & Р ), где - борелевская сигма-алгебра, а Р - вероятностная мера на множестве X , необходимо построить функцию /--' X X лтакую, чтобы вероятность

не превышала порога допустимой вероятности ошибки классификации Р&огг .

Одной из самых простых оценок является эмпири-

ческая оценка Р0ш (?), которая получается, если предположить, что пространство /^'совпадает с обучающей выборкой

<•• и вероятность Р каждого из элементарных со-

бытий /¿л,/равна ^/т . Тогда

1 О/Щ)?*/»,]

где /»7 - число неправильных классификаций на обучающей выборке.

Величина (?) является весьма грубой оценкой веро-

ятности ошибки классификации (далее ВОК) Р0ш (?) , и это нижняя оценка (?) < Рои(?).

Существует и верхняя оценка ВОК ¡ои(?), которая справедлива с вероятностью ¿Г , но она также сильно завышена:

В работе получена более точная оценка БОК, которая может служить одним из критериев качества правила классификации:

П íc )- п • РЛС?)* число

Перейдем к оценке структурной сложности дерева решений. Оптимизация структуры дерева связана с минимизацией общих затрат на классификацию объектов, включающих объем памяти для хранения дерева, скорость получения решения и т. д..

Для представления функционала качества дерева решений введем обозначения:

Р(^) - вероятность появления данного класса или фрагмента с объектами класса ;

£ - общее число листьев дерева;

1-С^с) - величина пропорциональная длине пути от листа 7f¿ до корня бинарного дерева решений ("стоимость" классификации по £ - ветви);

цена с-го классификатора в^ -ой ветви дерева;

¿1 - длина пути от листа до корня дерева.

Тогда о^рнка структурной сложности бтает иметь вид:

Введеный функционал

учитывает различные характеристики дерева решений, в том числе сложность дерева решений, распределенность объектов по классам (фрагментам), сложность решающих правил, стоящих в узлах дерева, и "стоимость" включения отдельных признаков в процесс распознавания. Веденная оценка структурной сложности позволяет сравнивать между собой правила классификации в виде деревьев решений, полученные различными алгоритмами. Используя оценку С}с(р) можно экспериментально устанавливать наилучшие параметры синтеза дерева решений, такие как коэффициенты взвешенного критерия выбора РФ,

- 19 -

допустимый уровень ошибок классификации и др.

Кроме обобщенного критерия структурной сложности ОМ практическую ценность имеют такие характеристики, как:

относительное увеличение числа фрагментов (листьев) по сравнению с оптимальным (равное общему числу классов £):

6 еср) = (г-*)/*

лир)-

увеличение длины внешнего пути ш от длины дерева решений с -С

где С ' 3 - знак округления в сторону увеличения;

¿А/, - отклонение от минимально возможного числа ярусов дерева /5 ^(Р) = - Г где И/о ■= тах ¿V - длина самой длиной ветви дерева.

. с

На основе введенных оценок проводились сравнения предлагаемого метода синтеза правил классификации на модельных и реальных задачах с такими методами, как метод индукционного построения дерева решений по наиболее информативным признакам Р. Куинлана, метод обобщения логических закономерностей Лбова Г. С., структурно-аналитический метод распознавания Си-роджи И. Б. Установлено, что предлагаемые алгоритмы приводят к получению более сложных, с точки зрения структуры, правил классификаций, которые в то же время превосходят другие алгоритмы по точности классификации и устойчивости к помехам, возникающим при измерении реальных значений признаков.

- 20 -

АРХИТЕКТУРА И ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ ИНСТРУМЕНТАЛЬНОГО КОМПЛЕКСА "ДИАГНОСТ"

Основная цель разработки комплекса - получение удобного алгоритмического и программного инструмента для исследования заданной предметной области и построения систем принятия решений в виде дерева. Программная реализация пакета "Диагност" представляет собой набор функциональных модулей и утилит в среде MS DOS для IBM- совместимых ПЭВМ, интегрированных в одну интерфейсную оболочку. Среди функциональных модулей - система управления базой знаний (СУБЗ), осуществляющая извлечение, хранение, анализ и обработку знаний, представляемых в виде формализованной структуры предметной области, обучающих примеров и эвристических правил; система управления генерацией решателя и синтезом экспертных систем; система эксплуатации готовых экспертных систем.

Один из наиболее важных модулей - СУБЗ снабжена набором функциональных структурных редакторов, которые осуществляют, помимо прочего, контроль за непротиворечивостью и полнотой данных. Взаимодействие пользователя с системой наполнения базы знаний схематично представлено на рис. 2. При генерация дерева решений в интерактивном режиме система позволяет отслеживать все этапы построения дерева и в любой момент проводить необходимые коррективы, связанные с изменением набора решающих правил и значимостью критериев. Взаимодействие основных компонентов пакета на этапе генерации представлено на рис. 3.

"ДИАГНОСТ" может быть использован для построения экспертных систем, работающих на IBM PC в нескольких схемах диалога, с возможностью получения информации как от пользователя через

Инженер по знаниям

1 г

Структурный Ь Редактор |

Контроль непротиворечивости

Статистика

j

Синтаксический контроль

J L

База знаний

Признаки

Классы

Факты (примеры)

Логические правила

Рис. 1. Структура системы управления базой знаний

Блок генерации

I--— — — — — — — — -1

Блок тестирования

Рис. 2. Структура модуля генерации дерева решений

клавиатуру, так и от внешних датчиков, программных модулей и баз данных. С помощью пакета могу быть построены правила классификации для последующего использования в других системах, требующих принятия решений, например, для интеграции в АСУ ТП.

ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ ПРИ ПОСТРОЕНИИ СИСТЕМ ДИАГНОСТИКИ И УПРАВЛЕНИЯ

Данная работа выполнялась в рамках научно-исследовательских работ лаборатории проблем идентификации объектов управления в соответствии с постановлением ГКНТ СССР от 05.07.85 г. N 363 и приказом Минвуза СССР от 19.09.85 г. N 377-5 "Разработать на основе структурно-аналитических методов идентификации и алгоритмов классификационной обработки данных пакет прикладных программ для решения задач оптимизации управления и проектирования систем управления дискретно-непрерывными производствами (в том числе для объектов металлургической промышленности) и передать в СОФАП".

Разработанные в работе методы, алгоритмы и пакеты программ по анализу экспериментальных данных и построению систем принятия решений прошли аппробацию и использованы при разработке различных систем управления и обработки данных: при создании АСУ ТП отжигом стальных рулонов в колпаковых печах на Новолипецком металлургическом комбинате; при построении системы анализа и прогноза температурных режимов разливки плавок на УНРС Волжского трубного завода; для построения системы отбраковки ненадежных микросхем.

- 23 -ЗАКЛЮЧЕНИЕ

Основные результаты диссертационной работы состоят в следующем:

1. Исследована проблемы построения и функционирования систем принятия решений на основе имеющихся статистических данных и знаний экспертов в условиях неполноты и противоречивости информации, введено понятие обобщенной задачи классификации в применении к системам принятия решений.

2. Разработана методика синтеза правил классификации и принятия решений в виде бинарного дерева на основе поэтапной декомпозиции исследуемого признакового пространства.

3. Обоснована методика многокритериального оценивания решающих функций при синтезе правила классификации.

4. Исследована оценка вероятности ошибки классификации и структурной сложности дерева решений.

5. Разработана архитектура и функциональное наполнение программного комплекса для построения экспертных систем диагностического типа. На базе данного комплекса построены конкретные системы диагностики и принятия решений.

Основные результаты диссертации опубликованы в следующих работах:

1. Салыга В. И., Обручев В. Л., Ковалев А. В. Построение адаптивных систем распознавания. //Тез. докл. мегвд. конф. ИФАК "Оценка методов адаптивного управления, используемых в прикладных задачах." (Тбилиси, 1989 г.). - М: ИЛУ, 1989.

2. Салыга В. И., Ковалев А. В. Пакет прикладных программ для классификации статистических данных "АКСТАТ". //Материалы семинара "Программное обеспечение в компьютеризации". (Москва, 1990 г.). - М: "Знание", 1990 - с. 54-57.

- 24 -

3. Обручев В. JL , Ковалев А. В., Пригожин Б. В. Формальный ■аппарат синтеза диагностических экспертных систем. //Тез. докл. Всесоюз. конф. "Создание и применение гибридных экспертных систем". (Рига, 1990 г.). - Рига: Риж. техн. ун-т, 1990.

4. Обручев В. Л., Ковалев А. В., Пригожин Б. В. Инструментальное средство создания экспертных систем "ДИАГНОСТ". //Тез. докл. Всесоюз. совещания по экспертным системам. (Суздаль, декабрь 1990 г.). - М.: ИЛУ, 1990.

5. Салыга В. И., Обручев В. 1, Ковалев А. В., Пригожин Б. В. Особенности системы приобретения новых знаний инструментального комплекса "ДИАГНОСТ". //Тез. докл. Всесоюз. конф. "Гибридные интеллектуальные системы". (Терскол, 1991 г.). - Ростов-на-Дону, 1991.

6. Салыга В. И., Обручев В. JL , Ковалев А. В., Пригожин Б. В. Комплекс инструментальных средств разработки экспертных систем "HIDDEN LINE". //Тез. докл. Междунар. конф. "Технология программирования 90-х". (Киев, май 1991 г.). - Киев, 1991 - с.48-50.

7. Ковалев А. В. Особенности системы приобретения и обработки знаний инструментального комплекса "HIDDEN LINE". // Тез. докл. 45-й научной конф. молодых ученых МИСиС. - Москва, 1991 - с. 18-19.