Метод главного эксперта в задачах диагностики и прогнозирования тема автореферата и диссертации по математике, 01.01.09 ВАК РФ

Демьянова, Вероника Владимировна АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Санкт-Петербург МЕСТО ЗАЩИТЫ
2008 ГОД ЗАЩИТЫ
   
01.01.09 КОД ВАК РФ
Диссертация по математике на тему «Метод главного эксперта в задачах диагностики и прогнозирования»
 
Автореферат диссертации на тему "Метод главного эксперта в задачах диагностики и прогнозирования"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На нравах рукописи

ДЕМЬЯНОВА Вероника Владимировна

МЕТОД ГЛАВНОГО ЭКСПЕРТА В ЗАДАЧАХ ДИАГНОСТИКИ И ПРОГНОЗИРОВАНИЯ

01.01.09 - дискретная математика и математическая кибернетика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Сан кт-Петербург 2008

003451293

003451299

Работа выполнена на кафедре управления медико-биологическими системами факультета прикладной математики-процессов управления Санкт-Петсрбургского государственного университета

Научный руководитель: доктор биологических паук,

профессор Токин Иван Борисович

Официальные оппоненты: доктор технических наук,

ведущий научный сотрудник Дюк Вячеслав Анатольевич

Ведущая организация: Институт проблем машиноведения РАН (г. Санкт-Петербург).

Защита состоится 26 ноября 2008 г. в 16 часов на заседании диссертационного совета Д.212.232.59 по защите докторских и кандидатских диссертаций при Санкт-Петербургском государственном университете по адресу: 199034, Санкт-Петербург, В.О., Средний пр., д. 41/43, аудитория 513.

С диссертацией можно ознакомиться в научной библиотеке им. А. М. Горького Санкт-Петербургского государственного университета по адресу: 199034, Санкт-Петербург, Университетская наб., 7/9.

кандидат физико-математических наук, доцент Буре Владимир Мансурович

Автореферат разослан

и

октября 2008 г.

Ученый секретарь диссертационного совета, доктор физ.-мат. наук, профессор

В.Д.Ногин

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования.

Практические задачи идентификации, диагностики, обработки баз экспериментальных данных, планирования эксперимента привели к развитию теории распознавания образов (см., например, работы В.Н.Ванника, Ю.И.Журавлева и др.). Вначале в основном применялись статистические методы обработки баз данных, начало которым положили работы Р.А.Фишера, который создал линейный дискриминантный анализ. Появилась математическая теория обучения (работы Ф.Розенблата, В.Н.Фомина, Я.З.Цынкина, В.А.Якубовича) и соответствующие алгоритмы.

В середине прошлого столетия наряду со статистическим подходом стал широко применяться оптимизационный подход. Это связано как с развитием численных методов оптимизации и вычислительной техники, так и с тем, что зачастую статистические характеристики баз данных либо неизвестны, либо их трудно получить. Методы оптимизации применяются к решению широкого круга вопросов идентификации и обработки данных (работы А.А.Первозваиского, Я.З.Цыпкина, Б.Т.Поляка и др.).

Статистический и оптимизационный подходы взаимно дополняют друг друга и позволяют проводить диагностику и прогнозирование, например, эффективности применения той или иной методики лечения или обучения, с большей надежностью.

Предлагаемая работа относится ко второму (оптимизационному) направлению.

Одна из задач, которая изучается в данной работе, ставится следующим образом. Имеется две (в действительности может быть и больше) базы экспериментальных данных: А и В. Каждая из них представляет собой набор точек в многомерном пространстве. Требуется найти правило, но которому любую точку из множества С = А\}В можно идентифицировать как точку того или иного множества. Математически задача сводится к разделению двух множеств точек. Если выпуклые оболочки множеств А и В не пересекаются, то задача решается точно с помощью теоремы отделимости. К сожалению, в реальных задачах указанное условие не выполняется, поэтому приходится проводить разделение неточно. На этом этапе и возникают

задачи выбора функционала, способа идентификации (нахождение классификатора, или идентификатора), построение численного метода.

Вначале для разделения множеств применялись, в основном, методы линейного программирования. Использование методов нелинейного и негладкого программирования позволяет значительно улучшить качество идентификации.

Одной из важных проблем при обработке баз данных является ранжирование параметров. Выбор наиболее значимых параметров позволяет ускорить обработку результатов экспериментов и удешевить их проведение (поскольку получение данных является часто дорогостоящей или - в случае медицинских баз данных - болезненной или даже опасной процедурой).

Задачи диагностики в медицине являются одновременно и весьма важными, и сложными.

Актуальность тематики определяется и необходимостью разработки эффективных методов диагностики и прогнозирования, в том числе "экспресс-диагностики" для принятия оперативных решений (первая помощь в медицине, при технологических авариях), когда полная информация недоступна или еще не готова.

Цели и задачи исследования. Целями диссертационной работы являются:

1) исследование задач обработки баз экспериментальных данных и разработка оптимизационных методов идентификации, распознавания, классификации, диагностики и прогнозирования эффективности различных способов обучения и лечения,

2) на основе полученных результатов выявление закономерностей изучаемого процесса.

Указанные цели достигаются:

а) решением задач одномерной и "малоразмерной" идентификации;

б) решением задачи ранжирования параметров на основе одномерной идентификации;

в) разработкой нового метода (метод главного эксперта) для построения правила идентификации (идентификатора, или классификатора) при наличии нескольких идентификаторов;

г) разработкой методики прогнозирования эффективности различных способов обучения и лечения на основе метода главного эксперта.

Основными методами исследования являются метод [»I математической диагностики, математического программирования, теории вероятностей и математической статистики, математического моделирования. Предлагаемые методы идентификации и прогнозирования построены на основе оптимизационного подхода и не используют статистические характеристики изучаемого процесса или явления (которые обычно заранее не известны).

Эти методы апробированы на конкретных базах данных (в частности, на базе данных больных раком молочной железы СНЕМО-'253 Висконсинского университета для прогнозирования эффективности различных схем послеоперационного лечения).

Научная новизна диссертационной работы состоит в разработке оптимизационных методов решения задач одномерной идентификации баз данных, метода главного эксперта (позволяющего построить более эффективный метод идентификации, используя имеющиеся идентификаторы, полученные, например, с помощью одномерных или двумерных идентификаторов), метода прогнозирования эффективности разных способов обучения, лечения и т.н.

Основные положения, выносимые на защиту:

1) новые оптимизационные методы решения задач одномерной идентификации точек двух множеств (метод разделения и метод изоляции);

2) метод ранжирования на основе одномерной идентификации; с его помощью строятся простые идентификаторы (одномерные, двумерные или трехмерные) для наиболее существенных параметров. Эти простые идентификаторы могут использоваться для экспресс-идентификации и распознавания.

3) метод главного эксперта (МГЭ) для построения правила идентификации (идентификатора, или классификатора) при наличии нескольких идентификаторов. Каждый из указанных идентификаторов может оказаться не очень точным, но с помощью МГЭ качество идентификации может быть существенно улучшено.

4) методика прогнозирования эффективности различных способов обучения и лечения, разработанная на основе метода главного эксперта.

Практическая ценность. С помощью разработанной методики проведено исследование базы данных СНЕМО-253 больных раком молочной железы и предложена методика прогнозирования

эффективности применения или неприменения различных видов терапии для лечения конкретного пациента.

Метод главного эксперта позволяет повысить качество прогнозирования эффективности лечения.

Указанный метод может оказать существенную помощь не только в процессе сопровождения лечебно-диагностического процесса, но и при обработке результатов массовых обследований, проводимых в целях профессионального психофизиологического отбора и психофизиологического сопровождения профессиональной деятельности.

Результаты научных исследований прошли апробацию на Международной конференции "Longevity, Aging and Degradation Models in Reliability, Public Health, Medicine and Biology (LAD'2004)"(Санкт-Петербург, СГТ6ПТУ, 2004); на 35-й межвузовской научной конференции аспирантов и студентов СПбГУ "Процессы управления и устойчивость"(С.-Петербург, 2004г.); на 37-й межвузовской научной конференции аспирантов и студентов СПбГУ "Процессы управления и устойчивость" (С.-Петербург, 2006г.); на Международной конференции "Устойчивость и процессы управления" (С.-Петербург, 29.06.200501.07.2005); на Всероссийской конференции "Психофизиология профессионального здоровья человека" (С.-Петербург, Военно-медицинская Академия, 16 ноября 2007г.); на научной конференции Военного Института физической культуры (СПб, 1995г.), на Международном семинаре по математической диагностике в Эриче (Сицилия, Италия, 10-20 июля 2006г., Workshop MATHEMATICS AND MEDICAL DIAGNOSIS).

Связь с научными программами. Частично исследования по теме диссертации выполнялись в рамках проекта "Инновационная образовательная среда в классическом университете" Национального проекта "Образование" в 2006 и 2007 годах по темам "Методика составления прогноза эффективности применения различных способов лечения" (2006 г., СПбГУ) и "Разделение баз данных результатов медицинских исследований" (2007 г., СПбГУ).

Публикации. По материалам диссертации опубликованы 12 работ, четыре из которых в изданиях, входящих в перечень ВАК рецензируемых научных журналов. Список работ приведен в конце автореферата.

Структура и объем диссертации. Диссертация изложена па 156 страницах и состоит из Введения, пяти глав, Заключения, шести Приложений, списка обозначений и списка литературы, включающего 91 наименование. Работа содержит 10 рисунков и 30 таблиц в основном тексте и 0 рисунков и 36 страниц таблиц в Приложениях.

СОДЕРЖАНИЕ РАБОТЫ

Во Введении дается постановка задачи идентификации и прогнозирования, приводится обзор литературы, описываются применяемые методы, кратко излагаются полученные результаты и обсуждаются возможные применения.

В первой главе рассматривается задача идентификации точек двух конечных множеств точек (обозначим их А и В) на прямой. В §1.2 эта задача решается с помощью линейного идентификатора. Прямая делится на две полупрямые. Точки множества С = А У В, принадлежащие одной полупрямой, считаются принадлежащими одному множеству (скажем, А), а точки, принадлежащие другой полупрямой, идентифицируются как точки другого множества (В). При таком правиле идентификации некоторые точки могут быть неверно идентифицированы. Требуется провести разделение прямой таким образом, чтобы количество ошибочно идентифицированных точек было наименьшим. В качестве функционала выбран максимум количества неверно идентифицированных точек (из двух множеств). Этот функционал является разрывным. Используя его квазивыпуклость, удается вывести необходимые и достаточные условия оптимальности, и на их основе построить численный метод, который сходится за конечное число шагов.

В §1.3 идентификация проводится методом изоляции одного из множеств с помощью отрезка. Точки, принадлежащие этому отрезку, считаются принадлежащими одному множеству, а точки, не принадлежащие отрезку, идентифицируются как точки другого множества. Требуется найти такой отрезок, для которого количество ошибочно идентифицированных точек является наименьшим. В качестве функционала тоже выбран максимум количества неверно идентифицированных точек. Этот функционал (как функция концов отрезка) является разрывным, принимает целые значения. По каждой из координат этот функционал является квазивыпуклым, что позволяет использовать метод покоординатного спуска (применяя изложенный в

§1.2 алгоритм минимизации по каждой координате при фиксированной другой координате). Этот метод изложен в п. 1.3.2.

Используя одномерную идентификацию, можно проводить ранжирование параметров. Один способ такого ранжирования описан в п. 1.2.4. При выборе совокупности наиболее значимых параметров проводится их статистический анализ по ¿-критерию Стыодента и корреляционный анализ для того, чтобы исключить параметры, имеющие явную зависимость.

В главе 2 описывается метод главного эксперта, состоящий в следующем. Пусть каждое из множеств А и В содержит конечное число точек: Л = {а* € К" | г е /}, В = & 6 Е" | ] € ./}, где / = 1 : М, / = 1 : N2. Положим С = А и В = {ск 6 К" | к в К], где К = 1 : N, N = N1 + ЛГ2,

Г ак, к€ l-.Ni, Ск~\ьк-К1, к Е (т + 1) : N.

Предположим, что множества Л и В не имеют общих точек. Пусть /ь ...,/т - заданные идентификаторы. Каждый идентификатор /„в £ 1 : т, делит пространство К" (предположительно с помощью сравнительно простого правила, например, по знаку некоторой функции, которую тоже обозначим /,) на две части: О] и (¿1, такие, что Пф2 = 0 С^ и С^ = К"

д1 = {х'€Е"|/Дх)>0}, = {х € К" I /,(х) < 0}

В результате идентификатор /, дает множества С} С С и С; С С, такие, что

С] = {ск е с | к е К, ск е З1,}* с,2 = {ск е с | к е К, ск е <32}, С1пС2в=<&, С]иС2 = С (т.е. любой идентификатор /8 "приписывает" каждую точку с б С к одному из множеств С\ или С2, неопределенность исключена).

Идентификатор fв будем называть виртуальным экспертом

С помощью идентификаторов /,,« 6 1 : т, построим новый идентификатор по следующему правилу: Для х 6 Ж" положим е(х) = (е1(х),е2(х),..., ет(х)), где

еМ-!1' хе %

Вектор е(х) может принимать 2т значений (ш-мерные векторы, координаты которых равны 1 или 2). Через £ обозначим множество всех возможных значений е(х). Пространство М" будет разбито на 2т

подмножеств Е е £: Щ = {х е К" | е(х) = Е}.

Некоторые из подмножеств Сд могут быть пустыми. Заметим, что

= и № I Е 6 £} = М".

Введем следующий идентификатор /:

,М_/ \Ле\>\ВЕ\,

пх) хе Щ, \ЛЕ\ < IВе\.

Будем использовать следующее правило идентификации для точки с 6 Се- если /(с) = 1, то с приписывается множеству Л;

если /(с) = —1, то с приписывается множеству В, где \А\ - количество точек множества Л.

Итак, новый идентификатор / разделяет пространство Еп на несколько (не более, чем 2т) подмножеств, причем в каждом из этих подмножеств действует свое правило идентификации. Идентификатор / будем называть главным экспертом. Главный эксперт имеет полную информацию о множествах Л и В, в то время как остальные "эксперты" могут и не иметь доступа ко всей информации об этих множествах (например, им известны только некоторые - каждому свои - координаты точек изучаемых множеств).

Описанную процедуру назовем лгетподом главного эксперта (МГЭ).

Показывается, что качество идентификатора / не хуже, чем качество самого лучшего идентификатора из идентификаторов/1,..., /т. Использование МГЭ позволяет применять результаты нескольких "малоразмерных" идентификаторов (каждый из которых может обладать невысокой эффективностью, по является более простым) для построения идентификатора более высокого качества. Это предположение подтверждается в дальнейшем (см. главы 4 и 5) при исследовании конкретной базы данных.

В §2.3 приводятся "выборочные" вероятности правильной и неверной идентификации методом главного эксперта.

В главе 3 изучается задача прогнозирования эффективности применения нескольких методик обучения, тренировки или лечения (для определенности будем говорить о методиках обучения, например, языкам). Предполагается, что для каждой методики известны результаты ее применения, т. е. известен идентификатор, с помощью которого для любого ученика можно (с некоторой известной точностью) сказать, будет ли данная методика эффективна в отношении его или ист, т. е. в какую группу он попадает: в группу "обучаемых" учащихся (для

которых обучение с помощью данной методики окажется успешным), или в группу "необучаемых".

В главе 3 описанный в главе 2 метод главного эксперта распространяется на случай задачи прогнозирования эффективности нескольких методик (ниже подробно рассматривается случай двух методик). В результате строится несколько прогностических групп, для каждой из которых дается прогноз оценки эффективности той или иной методики.

Предлагаемый подход описывается на примере задачи обучения с помощью двух методик обучения, однако он может применяться к решению различных задач: прогнозирование эффективности лечения некоторой болезни тем или иным лечебным препаратом, прогнозирование эффективности той или иной системы тренировок спортсменов или той или иной системы обучения разным наукам или профессиям.

Предположим, что существуют две методики обучения (например, китайскому языку) (назовем их "Методика 1" (М1) и "Методика 2" (М2)) и известны результаты применения этих методик к двум группам учащихся, каждая из которых представляет собой репрезентативную выборку из общего числа учащихся. Каждый учащийся представлен точкой в п-мерном пространстве (координатами точки являются данные об этом учащемся: пол, вес, рост, оценки по разным предметам, данные психологических и других тестов, быстрота реакции, способность к запоминанию и т.п.).

Итак, пусть даны множества С К" и П2 С К". Будем также считать, что каждое из множеств содержит конечное количество точек. В свою очередь, Пх = А\ и В\, Г22 = Л2 и В2, где

А: = {а„ 6 Мп | г е Л}, Вх = € К" | ] € ./,}, 11 = 1: ЛГШ Л = 1 : ЛГ12,

А2 = {а21 6 Кп | г 6 12}, В2 = {Ьу еЕ" | ^ е /2 = 1 : ЛГ21, Л = 1 : Лг22-

Множество - это множество точек (учащихся), обучавшихся языку по методике М1, а множество П2 ~ это множество учащихся, обучавшихся языку по методике М2. Множество А\ - это множество точек (учеников) из множества Пх, для которых методика М1 оказалась успешной (обучение было результативным), а множество В\ - это множество точек (учеников) из множества Пь для которых методика М1 оказалась неуспешной (их не удалось научить языку).

Аналогично, множество Л2 - это множество точек (учеников) из множества Для которых методика М2 оказалась успешной (обучение было результативным), а множество В2 - это множество точек (учеников) из множества 0.2, для которых методика М2 оказалась неуспешной (их не удалось научить языку).

Теперь предположим, что нам известны идентификаторы /; : К" —» К и /2 : К" —> К. Идентификатор }\ идентифицирует точки множеств А\ и В\ по описанному в п. 2 правилу: если с € П1, то точка с "приписывается" к (считается принадлежащей) множеству если /х(с) > 0, и к множеству В\, если /1(0) < 0.

Идентификатор /2. идентифицирует точки множеств А2 и В2 по правилу: точка с £ П2 считается принадлежащей множеству А2, если /г(с) > 0, и множеству В2, если /2(с) < 0. Положим

С}и = {хешп |Мх) > о}, <3,2 = {^ег |Л(х) <о}, д21 = {хе мп \/г(х) > о}, д22 = е К" |Мх) < о}.

Очевидно,

£ппд12 = 0, <2пид12 = тп, д21пд22 = 0, д21ид22 = м".

В результате пространство К" окажется разделенным на 4 непересекающиеся части:

С++ = дппд2ь с+- = дппд22, с~+ = д«^, с— = д12пд22.

Построим множества С++ = А1Л С++, СЙ" = АгП С+~, Сй+ = Лх П С~+, С^ = А1 П С ,

С++ = Вг П С++, = П С+-, = ВгГ\ С"+, С^" = В1П С".

Положим

„++ - „+- _ 1С'1+Г1

|с++| + |с++|' Р1 |с+г1 + |сй-|'

\сп\ _ |сгг!

Р1 1^1+1 + 1^-2+1' К^мс^Т

Величина представляет собой вероятность успешного обучения ученика, "попавшего" в множество С++, с помощью методики М1;

величина представляет собой вероятность успешного обучения ученика, "попавшего" в множество С+~, с помощью методики М1; величина р\+ представляет собой вероятность успешного обучения ученика, "попавшего" в множество С~+, с помощью методики М1; наконец, величина р[~ представляет собой вероятность успешного обучения ученика, "попавшего" в множество С , с помощью методики М1.

Описанный метод представляет собой метод главного эксперта (в частном случае наличия только двух экспертов).

Теперь проведем аналогичное исследование множества П2 этим же методом. Для этого построим множества

С++ = А2Г) С++, С2+Г = А2 п с+-, С2 + = А2П с~+, с21- = а2п с—,

С++ = В2 П С++, С22~ = В2Г\ с+-, С22 = В2 П С~+, С22 = В2П С .

Положим

ъ \с^\ + \с^2+\' Р2 1С+-1 + 1С+-1' р~+ - \С2\\ — _ 1^21 I

Величина р2 + представляет собой вероятность успешного обучения ученика, "попавшего" в множество С++, с помощью методики М2; величина р2~ представляет собой вероятность успешного обучения ученика, "попавшего" в множество С+~, с помощью методики М2; величина р2 + представляет собой вероятность успешного обучения ученика, "попавшего" в множество С~+, с помощью методики М2; наконец, величина р2~ представляет собой вероятность успешного обучения ученика, "попавшего" в множество С , с помощью методики М2.

Теперь можно сформулировать полученную методику прогнозирования для ученика с:

если он попал в группу С++ (т. е. с € С1"1""1"), то при > р2 + считаем, что этому ученику следует учиться по методике М1 (при этом вероятность успеха равна а при < р2 + считаем, что данному ученику следует учиться по методике М2 (при этом вероятность успеха равна р2+),

если ои попал в группу (т. с. с € С+~), то при > р^ считаем, что этому ученику следует учиться но методике М1 (при этом вероятность успеха равна р]1"-), а при р*- < считаем, что данному ученику следует учиться по методике М2 (при этом вероятность успеха равна р2~),

если он попал в группу С"+ (т. е. с ё С~+), то при > считаем, что этому ученику следует учиться по методике М1 (при этом вероятность успеха равна а ПРИ РГ+ < Рг + читаем, что данному ученику следует учиться по методике М2 (при этом вероятность успеха равна Р2+),

если он попал в группу С (т. е. с 6 С ), то при р~ > Р2~ считаем, что этому ученику следует учиться по методике М1 (при этом вероятность успеха равнар"), а при р" < считаем, что данному ученику следует учиться по методике М2 (при этом вероятность успеха равна р^

Вычисляются математические ожидания количества учеников из множеств и П2, успешно прошедших обучение по оптимальной для них методике.

Сделанные выводы справедливы, если множества и Пг

представляют собой репрезентативные выборки из общего количества учащихся. Если имеющиеся базы данных не являются репрезентативными выборками, их можно сделать таковыми, удалив часть точек (при условии, что количество точек в этих базах достаточно велико).

Описанный подход может быть обобщен на случай наличия к методик обучения или лечения. В этом случае пространство К" и множества и Пг делятся не на 4, а на 2к частей.

В главе 4 предложенный в главе 3 подход демонстрируется на примере задачи прогнозирования эффективности применения или неприменения химиотерапии при лечении онкологических больных.

Имеются две базы данных: о пациентах, подвергшихся хирургической операции и прошедших курс химиотерапии, и о пациентах, которым была сделана хирургическая операция, но они не прошли курс химиотерапии. Предполагается, что эти базы представляют собой репрезентативные выборки из множества пациентов, подвергшихся хирургической операции.

Для обеих баз данных известны результаты применения (или

неприменения) химиотерапии. Для каждой из них (являющейся обучающей выборкой) строится (методами математической диагностики) критерий (решающее правило), позволяющий предсказать результат лечения. При этом получаются и вероятности данных предсказаний. Такой критерий затем применяется к другой базе (служащей контрольной выборкой). В результате все пациенты делятся па четыре прогностические группы. Для первой группы прогноз и применения, и неприменения химиотерапии неблагоприятный; для второй - прогноз благоприятный в случае применения химиотерапии и неблагоприятный - в случае ее неприменения; для третьей - прогноз неблагоприятный при применении химиотерапии и благоприятный - в случае ее неприменения; наконец, для четвертой - прогноз и применения, и неприменения химиотерапии благоприятный. Для каждой группы даются вероятности благоприятного исхода в случае и применения, и неприменения химиотерапии.

Предлагаемая методика демонстрируется на примере базы СНЕМО-253 ("WPBCC: Wisconsin Prognostic Breast Cancer Chemotherapy Database"), хранящейся в репозитории Висконсинского университета и широко доступной.

В главе 4 приводятся результаты исследования базы данных СНЕМО-253. Она содержит сведения о 253 пациентах, больных раком молочной железы, которым была сделана хирургическая операция. 140 из них были подвергнуты химиотерапии (будем их называть пациентами с х/т), а 113 - нет (пациенты без х/т). Каждый из пациентов описан точкой в 39-мерном пространстве, представляющей информацию о данных анализов (30 параметров), а также сведения о продолжительности жизни после операции в месяцах (наблюдения велись 13 лет), размере опухоли, наличии и количестве метастазов.

Будем считать, что операция (с химиотерапией или без нее) прошла успешно, если пациент жил после операции не менее 5 лет, и неудачно -если срок жизни после операции был меньше 5 лет.

Из пациентов с химиотерапией 61 человек жил не менее 5 лет (множество этих пациентов обозначим А\), а 79 - менее 5 лет (их множество - В\). Из пациентов без химиотерапии 54 человека жили не менее 5 лет (их множество обозначим А2), а 59 - менее 5 лет (их множество - В2).

В главе 4 найден критерий, с помощью которого для каждого

пациента можно определить, следует ли ему рекомендовать химиотерапию или она ему противопоказана (т. е. дать прогноз о продолжительности жизни в случае, если химиотерапия будет назначена, и в случае, если химиотерапия назначена не будет).

Показано, что выполнение рекомендаций, полученных с помощью описанной методики, позволило бы перевеет,и в группу с благоприятным прогнозом на 27 чел. больше, чем оказалось в действительности. Всего в базе СНЕМО-253 из 253 пациентов с неблагоприятным исходом оказались 138 чел., т. е. предлагаемая методика позволила бы уменьшить количество пациентов с неблагоприятным исходом на 27 чел. (111 вместо 138, или на 19.5%).

В главе 5 предлагаемая методика применяется для прогнозирования эффективности применения химио- и/или гормональной терапии при лечении онкологических заболеваний. При этом каждый вид терапии трактуется как способ лечения, т.е. теперь (в отличие от главы 4) имеется четыре способа лечения: только химиотерапия; только гормональная терапия; и химиотерапия, и гормональная; отсутствие любой терапии. Показывается, что более детальное рассмотрение четырех типов терапии позволяет улучшить качество прогнозирования эффективности того или иного способа лечения.

Построен критерий, с помощью которого для каждого конкретного пациента можно определить, следует ли ему рекомендовать химио-и/или термотерапию, либо эти процедуры ему противопоказаны (т. е. дать прогноз о продолжительности жизни в случаях, если химио(гормо)терапия будет назначена и когда не назначена).

Показано, что при применении рекомендуемых способов лечения к каждой из 16 групп (с учетом вероятностей благоприятного исхода) количество пациентов с благоприятным прогнозом составит 155 человек (вместо 115 в действительности), т. е. на 40 человек больше. Напомним, что в главе 4, где химио- и гормональная терапии рассматривались как один тип, количество пациентов с благоприятным исходом составило 141 человек.

Отметим, что представленные результаты являются только иллюстративными. Для реального применения предлагаемой методики необходимо, чтобы используемая база была более репрезентативной и обширной. Большая точность разделения множеств может привести к улучшению прогнозирования и увеличению числа пациентов с

благоприятным прогнозом.

В §5.5 обсуждается вопрос оценки эффективности прогнозирования различными экспертами. Для конкретного способа лечения можно использовать наиболее точного (для данного способа лечения) эксперта.

Приложения содержат результаты обработки базы данных "СНЕМО-253". Сама эта база описана в Приложении 1, в Приложении 2 приводится корреляционная матрица базы "СНЕМО-253" , в Приложении 3 даются результаты статистической и оптимизационной обработки и на их основе проводится ранжирование параметров, в Приложении 4 демонстируется разделение множеств с помощью плоскостей, в Приложении 5 представлен ретроспективный анализ изучаемой базы, в Приложении 6 проведено сравнение оценок экспертов по каждому пациенту.

В Заключении сформулированы основные результаты диссертационной работы:

1) предложены метод разделения и метод изоляции для решения задач одномерной идентификации точек двух множеств на основе оптимизационного подхода;

2) описан метод ранжирования параметров, использующий метод одномерной идентификации; с его помощью строятся простые идентификаторы (одномерные, двумерные или трехмерные) для наиболее существенных параметров. Эти простые идентификаторы могут использоваться для экспресс-идентификации и распознавания.

3) предложен метод главного эксперта (МГЭ) для построения правила идентификации при наличии нескольких идентификаторов. Каждый из указанных идентификаторов может оказаться не очень точным, но с помощью МГЭ качество идентификации может быть существенно улучшено.

4) на основе метода главного эксперта разработана методика прогнозирования эффективности различных способов обучения и лечения.

5) эта методика использована для прогнозирования эффективности применения химио- и/или гормональной терапии в послеоперационном периоде при лечении онкологических заболеваний. Для каждого пациента рекомендовано именно то лечение, при котором прогноз для него наиболее благоприятен. В результате удалось прогнозировать благоприятный исход у существенно большего, чем было в

действительности, количества пациентов (на 15-30 процентов в зависимости от того, на сколько прогностических групп были разделены пациенты и какие способы лечения применялись).

МГЭ позволяет значительно повысить качество прогнозирования эффективности лечения. Указанный метод может оказать существенную помощь не только в процессе сопровождения лечебно-диагностического процесса, но и при обработке результатов массовых обследований, проводимых в целях профессионального психофизиологического отбора и психофизиологического сопровождения профессиональной деятельности. Отметим, что МГЭ предлагается использовать не взамен, а наряду с традиционными статистическими методами, это позволит повысить надежность и качество прогнозирования.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, входящих в перечень ВАК рецензируемых научных журналов

1. Демьянова В. В. Одномерная идентификация методом разделения // Вестн. С.-Петерб. ун-та; Сер. 10. Прикладная математика, информатика, процессы управления. 2006. Вып. 3. С. 28-31.

2. Демьянов В. Ф., Демьянова В. В., Кокорина А. В., Моисеенко В. М. Прогнозирование эффективности химиотерапии при лечении онкологических заболеваний // Вестн. С.-Петерб. ун-та; Сер. 10. Прикладная математика, информатика, процессы управления. 2006. Вып. 4. С. 30-36.

3. Демьянова В. В. Прогнозирование эффективности различных способов лечения // Вестн. С.-Петерб. ун-та; Сер. 10. Прикладная математика, информатика, процессы управления. 2007. Вып. 4. С. 3-16.

4. Демьянова В. В. Применение оптимизационного подхода в сопровождении лечебного процесса // Вестник Российской Военно-медицинской академии. 2007. Приложение N 3 (19). (Материалы конференции "Психофизиология профессионального здоровья человека".) С. 219-220.

Публикации в других изданиях

5. Демьянова В. В. Некоторые особенности работы с социально-травмированными подростками // Методические материалы по социальной работе. Ассоциация "Врачи мира" (Франция). Институт подростка Санкт-Петербурга. Изд-во Санкт-Петербургского гос. технологического ун-та. СПб, 1995. С. 73-75.

6. Демьянова В. В., Капитонов В.А., Баландин B.C., Королев Ю.Н.

Некоторые психологические особенности представителей социально-значимых профессий, работающих с группами риска // Материалы итоговой научной конференции за 1995г. Военный Институт физической культуры. Под ред. проф. Кадырова Р.Н. и доц. Кислого А.Н. Изд-во ВИФК. СПб, 1996. С. 184.

7. Демьянова В. В. Применение математических методов в психодиагностике // Процессы управления и устойчивость: Труды 35-й межвузовской научной конференции аспирантов и студентов. Под ред. Н.В. Смирнова. - СПб/. Изд-во СПбГУ, 2004. С. 297-302.

8. Demyanova V. V. Psychodiagnostics of reliability of competition activity in sports by means of mathematical modelling // Proceedings of the Conference "Longevity, Aging and Degradation Models in Reliability, Public Health, Medicine and Biology (LAD'2004)" . Vol. 2. СПб: Изд-во Санкт-Петербурского Политехнического университета. 2004. Р. 96-100.

9. Demyanova V. V. The principal expert method in data mining // Applied Comput. Math. 2005. Vol. 4, N 1. P. 70-74.

10. Демьянова В. В. Метод главного эксперта в задачах идентификации // Труды Между нар. конференции "Устойчивость и процессы управления"/ (С.-Петербург, 29.06.2005-01.07.2005). Ред. Д. А. Овсянников, JI. А. Петросян. СПб.: Изд-во С.-Пстерб. ун-та, 2005. Т. 2. С. 815-822.

11. Demyanova V. V., Demyanov V.F. The Method of Virtual Experts in Mathematical Diagnostics // Journal of Global Optimization. 2006. Vol. 35 P. 215-234.

12. Демьянова В.В. Задача прогнозирования и метод главного эксперта //Процессы управления и устойчивость: Труды 37-й межвузовской научной конференции аспирантов и студентов / Под ред. Н.В. Смирнова. - СПб.: Изд-во СПбГУ, 2006. С. 198-204.

Подписано в печать 01.10.2008 Формат бумаги 60x84 1/16. Бумага офсетная. Печать ризографическая. Усл. печ. л. 1,0. Тираж 100 экз. Заказ 4306.

Отпечатано в отделе оперативной полиграфии хим. фака СПбГУ 198504, Санкт-петербург, Старый Петергоф, Университетский пр., 26

 
Содержание диссертации автор исследовательской работы: кандидата физико-математических наук, Демьянова, Вероника Владимировна

Список обозначений.

ВВЕДЕНИЕ.

§0.1. Общая характеристика работы.

§0.2. Содержание работы

Глава 1. ОДНОМЕРНАЯ ИДЕНТИФИКАЦИЯ И РАНЖИРОВАНИЕ

§1.1. Постановка задачи идентификации.

§1.2. Задача одномерной идентификации. Идентификация методом разделения

1.2.1. Постановка задачи.

1.2.2. Необходимые и достаточные условия оптимальности.

1.2.3. Численный метод для минимизации т(х).

1.2.4. Квазивыпуклые функции

§1.3. Одномерная идентификация методом изоляции

1.3.1. Идентификация методом изоляции.

1.3.2. Метод покоординатного спуска для минимизации m{z).

1.3.3. Метод сопряженных направлений для минимизации m{z).

§1.4. Ранжирование параметров.

1.4.1. Ранжирование с помощью одномерной идентификации.

Глава 2. МЕТОД ГЛАВНОГО ЭКСПЕРТА

В ЗАДАЧАХ ИДЕНТИФИКАЦИИ.

§2.1. Постановка задачи идентификации

§2.2. Метод главного эксперта.

§2.3. "Выборочные" вероятности правильной и неверной идентификации методом главного эксперта.

§2.4. Параметрическая оптимизация

§2.5. Примеры

Глава 3. ЗАДАЧА ПРОГНОЗИРОВАНИЯ И МЕТОД ГЛАВНОГО ЭКСПЕРТА.

§3.1. Введение.

§3.2. Задача прогнозирования

§3.3. Исследование множеств fii и 0,2 методом главного эксперта.

Глава 4. ПРОГНОЗИРОВАНИЕ ЭФФЕКТИВНОСТИ ХИМИОТЕРАПИИ ПРИ ЛЕЧЕНИИ ОНКОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ

§4.1. Введение и постановка задачи.

§4.2. Разделение баз СТ-140 и WCT

4.2.1. Разделяющие гиперплоскости.

4.2.2. Разделение базы СТ

4.2.3. Разделение базы WCT-113.

§4.3. Перекрестное исследование баз WCT-113 и СТ

4.3.1. Исследование базы WCT-113 с помощью плоскости Ь\

4.3.2. Исследование базы СТ-140 с помощью плоскости L

 
Введение диссертация по математике, на тему "Метод главного эксперта в задачах диагностики и прогнозирования"

§ 0.1. Общая характеристика работы.

Актуальность темы. "Homo sapiens" , как "человек разумный" , наблюдая явления внешнего мира, старается выявить его закономерности ("законы природы") и действует, учитывая эти законы. Другими словами, человек строит модель внешнего мира (или какого-то процесса). Все современные науки (исключая гуманитарные) представляют собой набор моделей, описывающих те или иные стороны внешнего мира. Математика, как "царица" наук, призвана обслуживать эти модели. Иногда эти модели достаточно адекватно описывают изучаемые объекты или процессы (так называемые "точные" науки), другие процессы пока не поддаются точному описанию (медицина, биология), но и там прогресс стремительно развивается (см., например, [3, 4]). Толчком к этому послужило развитие вычислительной техники и основанных на ней информационных технологий. Многие выдающиеся достижения биологии последних десятилетий были бы невозможны без использования математических методов. Биоматематика стала существенной частью биологии. Необходимость решения задач диагностики в медицине и технике привели к появлению "математической диагностики" , которая включает в себя математический аппарат, используемый для изучения моделей для решения задач идентификации, распознавания образов, обработки экспериментальных данных, технической и медицинской диагностики, прогнозирования. Такие задачи возникают в различных областях пауки. Для их решения строятся различные модели и применяются различные подходы. К сожалению, одного универсального подхода не существует, что приводит к необходимости строить модели, учитывающие специфику конкретного класса задач, и разрабатывать (или использовать существующие) методы их исследования.

Конечной целью изучения баз данных является выявление закономерностей, которым подчиняется изучаемый процесс или явление. Часто эта цель недостижима, поскольку имеющиеся данные могут быть недостаточно достоверными или не отражающими существенные свойства процесса и потому не позволяющими выявить искомые закономерности. Это зависит и от качества имеющейся модели. В данном исследовании эти вопросы не затрагиваются. Нашей целью является оптимальная (в том или ином смысле) обработка уже имеющейся информации (баз данных).

Практические задачи идентификации, диагностики, обработки баз экспериментальных данных, планирования эксперимента привели к развитию теории распознавания образов (см., например, работы В.Н.Вапника, Ю.И.Журавлева и др. [9, 27, 29, 41, 88], а также обзор [82]). Вначале в основном применялись статистические методы обработки баз данных, начало которым положили работы Р.А.Фишера [68] (см. также [2, 4, 5, 42]). Р.Фишер создал лииейный дискриминантный анализ [51]. Появилась математическая теория обучения (см. работы В.Н.Вапника, Ф.Розенблата, В.Н.Фомина, Я.З.Цыпкина, В.А.Якубовича [9, 46, 52, 53, 79, 85, 88]) и соответствующие алгоритмы [17, 32, 40, 46, 87]. В середине прошлого столетия наряду со статистическим подходом стал широко применяться оптимизационный подход. Это связано как с развитием численных методов оптимизации и вычислительной техники, так и с тем, что зачастую статистические характеристики баз данных либо неизвестны, либо их трудно получить. В развитие теории и методов оптимизации внесли существенный вклад как отечественные (советские и российские) ученые, так и зарубежные исследователи (Л.В.Канторович, Ю.И.Журавлев, И.И.Еремин, Б.Н.Пшеничный, В.Н.Тихомиров, Дж.Данциг, Р.Рокафеллар и др.). Методы оптимизации применяются к решению широкого круга вопросов идентификации и обработки данных (см., например, работы А.А.Первозванского, Я.З.Цыпкина, Б.Т.Поляка [11, 13, 44, 46, 63, 70, 75, 76, 78, 89]).

Одним из эффективных методов решения задач обработки данных является кластерный анализ (см. [26, 27, 55, 58, 61, 69, 71, 80, 86]).

В настоящее время существует два подхода к решению задач математической диагностики: статистический и оптимизационный. Первый подход использует вероятностные и статистические методы (это требует изучения статистических характеристик изучаемого процесса, что иногда затруднительно вследствие отсутствия достаточного количества наблюдений), второй - оптимизационный - использует методы математического программирования. Эти подходы взаимно дополняют друг друга и позволяют проводить диагностику и прогнозирование, например, эффективности применения той или иной методики лечения или обучения, с большей надежностью.

Хотя, как отмечено выше, статистический подход к решению задач диагностики начал развиваться еще с начала прошлого века, а оптимизационный - с середины XX столетия, остается немало нерешенных вопросов, актуальность которых не уменьшается. Возникают новые задачи, требующие соответствующего математического и программного обеспечения.

Предлагаемая работа относится ко второму (оптимизационному) направлению.

Одна из задач, которая изучается в данной работе, ставится следующим образом. Имеется две (в действительности может быть и больше) базы экспериментальных данных: А и В. Каждая из них представляет собой набор точек в многомерном пространстве. Предполагается, что каждая из этих баз является генеральной выборкой из некоторого (каждая из своего) случайного процесса. Требуется пайти правило, по которому любую точку из множества С = A U В можно идентифицировать как точку того или иного множества. Математически задача сводится к разделению двух множеств точек. Если выпуклые оболочки множеств А и В не пересекаются, то задача решается с помощью теоремы отделимости: проводится разделяющая гиперплоскость, и точки, находящиеся по одну сторону гиперплоскости, принадлежат одному множеству, а точки, находящиеся по другую ее сторону, принадлежат второму множеству. К сожалению, в реальных задачах указанное условие не выполняется, поэтому приходится проводить разделение неточно. И здесь возникает задача найти такую гиперплоскость (если разделение проводится с помощью гиперплоскости, хотя можно разделять и другими поверхностями и способами), которая обеспечивает наилучшее (в том или ином смысле) разделение. И вот на этом этапе и возникают задачи выбора функционала, способа идентификации (построение идентификатора), построение численного метода.

Вначале для разделения множеств применялись, в основном, методы линейного программирования, которые исторически были разработаны раньше (см. [13, 44]). Наиболее популярным в настоящее время является метод опорных плоскостей (SVM - support vector machines), основанный на линейном программировании или сводящиеся к нему с помощью так называемых методов ядра (kernel methods) (В.Н.Вапник, О.Мапгасарян) ([9, 54, 60, 65, 75, 66, 76, 77, 88]). Использование методов нелинейного и негладкого программирования позволяет значительно улучшить качество идентификации (см. [14, 15, 33, 37, 47, 56, 59, 73]).

Одной из важных проблем при обработке баз данных является ранжирования параметров. Выбор наиболее значимых параметров позволяет ускорить обработку результатов экспериментов и удешевить их проведение (поскольку получение данных является часто дорогостоящей или - в случае медицинских баз данных - болезненной или даже опасной процедурой).

Существуют различные способы ранжирования [26, 34, 35, 57, 62, 72, 83].

Задачи диагностики в медицине являются одновременно и весьма важными, и сложными. Им посвящены многие исследования (см., например, работы [1, 12, 16, 24, 25, 36, 43, 48]).

Актуальность тематики определяется и необходимостью разработки эффективных методов диагностики и прогнозирования, в том числе "экспресс-диагностики" для принятия оперативных решений (первая помощь в медицине, при технологических авариях), когда полная информация недоступна или еще не готова.

Цели и задачи исследования

Целями диссертационной работы являются:

1) исследование задач обработки баз экспериментальных данных и разработка оптимизационных методов идентификации, распознавания, классификации, диагностики и прогнозирования эффективности различных способов обучения и лечения,

2) на основе полученных результатов выявление закономерностей изучаемого процесса.

Указанные цели достигаются: а) решением задач одномерной и "малоразмерной" идентификации; б) решением задачи ранжирования параметров на основе одномерной идентификации; в) разработкой нового метода (метод главного эксперта) для построения правила идентификации (идентификатора, решающего правила или классификатора) при наличии нескольких идентификаторов; г) разработкой методики прогнозирования эффективности различных способов обучения и лечения на основе метода главного эксперта.

Основными методами исследования являются методы математической диагностики, математического программирования, теории вероятностей и математической статистики, математического моделирования. Предлагаемые методы идентификации и прогнозирования построены на основе оптимизационного подхода и не используют статистические характеристики изучаемого процесса или явления (которые обычно заранее не известны).

Эти методы апробированы на конкретных базах данных (в частности, на базе данных больных раком молочной железы СНЕМО-253 Висконсинского университета для прогнозирования эффективности различных схем послеоперационного лечения).

Научная новизна диссертационной работы состоит в разработке оптимизационных методов решения задач одномерной идентификации баз данных, метода главного эксперта (позволяющего построить более эффективный метод идентификации, используя имеющиеся идентификаторы, полученные, например, с помощью одномерных или двумерных идентификаторов), метода прогнозирования эффективности разных способов обучения, лечения и т.п.

Основные положения, выносимые на защиту:

1) новые оптимизационные методы решения задач одномерной идентификации точек двух множеств (метод разделения и метод изоляции);

2) метод ранжирования на основе одномерной идентификации; с его помощью строятся простые идентификаторы (одномерные, двумерные или трехмерные) для наиболее существенных параметров. Эти простые идентификаторы могут использоваться для экспресс-идентификации и распознавания.

3) метод главного эксперта (МГЭ) для построения правила идентификации (идентификатора, решающего правила или классификатора) при наличии нескольких идентификаторов. Каждый из указанных идентификаторов может оказаться не очень точным, но с помощью МГЭ качество идентификации может быть существенно улучшено.

4) методика прогнозирования эффективности различных способов обучения и лечения, разработанная на основе метода главного эксперта.

Практическая ценность. С помощью разработанной методики проведено исследование базы данных СНЕМО-253 больных раком молочной железы и предложена методика прогнозирования эффективности применения или неприменения различных видов терапии для лечения конкретного пациента. База содержит данные о 253 пациентах, которым была сделана хирургическая операция. Будем считать, что комплексное лечение было успешным, если срок жизни пациента после операции составил 5 и более лет. В результате математической обработки были составлены 16 подгрупп - от неблагоприятного до благоприятного прогноза по каждой из четырех схем лечения со своей вероятностью.

Для каждого пациента определено место в одной из подгрупп и рекомендовано именно то лечение, при котором прогноз для него наиболее благоприятен. В действительности более 5 лет прожило 115 человек. При использовании двух параметров удалось прогнозировать благоприятный исход у 141, а при использовании трех параметров - у 155 пациентов. Метод главного эксперта позволяет существенно повысить качество прогнозирования эффективности лечения.

Указанный метод может оказать существенную помощь не только в процессе сопровождения лечебно-диагностического процесса, но и при обработке результатов массовых обследований, проводимых в целях профессионального психофизиологического отбора и психофизиологического сопровождения профессиональной деятельности.

Результаты научных исследований прошли апробацию на Международной конференции "Longevity, Aging and Degradation Models in Reliability, Public Health, Medicine and Biology (LAD'2004)"(Санкт-Петербург, СП6ПТУ, 2004); на 35-й межвузовской научной конференции аспирантов и студентов СПбГУ "Процессы управления и устойчивость"(С.Петербург, 2004г.); на 37-й межвузовской научной конференции аспирантов и студентов СПбГУ "Процессы управления и устойчивость"(С.-Петербург, 2006г.); на Международной конференции "Устойчивость и процессы управления" (С.-Петербург, 29.06.2005-01.07.2005); на Всероссийской конференции "Психофизиология профессионального здоровья человека"(С.Петербург, Военно-медицинская Академия, 16 ноября 2007г.); на научной конференции Военного Института физической культуры (СПб, 1995г.), на Международном семинаре по математической диагностике в Эриче (Сицилия, Италия, 10-20 июля 2006г., Workshop MATHEMATICS AND MEDICAL DIAGNOSIS).

Связь с научными программами. Частично исследования по теме диссертации выполнялись в рамках проекта "Инновационная образовательная среда в классическом университете" Национального проекта "Образование" в 2006 и 2007 годах по темам "Методика составления прогноза эффективности применения различных способов лечения" (2006 г., СПбГУ) и "Разделение баз данных результатов медицинских исследований" (2007 г., СПбГУ).

Публикации. По материалам диссертации опубликованы 12 работ, четыре из которых в изданиях, входящих в перечень ВАК рецензируемых научных журналов. Список работ приведен в конце диссертации.

Структура и объем диссертации. Диссертация изложена на 156 страницах и состоит из Введения, пяти глав, заключения, шести Приложений, списка обозначений и списка литературы, включающего 91 наименование. Работа содержит 10 рисунков и 30 таблиц в основном тексте и 6 рисунков и 36 страниц таблиц в Приложениях.

 
Заключение диссертации по теме "Дискретная математика и математическая кибернетика"

ЗАКЛЮЧЕНИЕ

В данной работе получены следующие новые результаты:

1) предложены метод разделения и метод изоляции для решения задач одномерной идентификации точек двух множеств на основе оптимизационного подхода;

2) описан метод ранжирования параметров, использующий метод одномерной идентификации; с его помощью строятся простые идентификаторы (одномерные, двумерные или трехмерные) для наиболее существенных параметров. Эти простые идентификаторы могут использоваться для экспресс-идентификации и распознавания.

3) предложен метод главного эксперта (МГЭ) для построения правила идентификации при наличии нескольких идентификаторов. Каждый из указанных идентификаторов может оказаться не очень точным, но с помощью МГЭ качество идентификации может быть существенно улучшено.

Метод главного эксперта имеет ряд преимуществ перед традиционными математико-статистическими процедурами:

- можно работать с выборкой, не подчиняющейся закону нормального распределения;

- использование МГЭ на малых выборках является корректным;

- минимизируется количество показателей, используемых для прогнозирования, и время самой процедуры как получения, так и обработки данных.

Кроме того, получение каждого показателя - это лишние затраты средств, времени, а в случае медицины - и здоровья пациента (например, проведение биопсии - болезненная, дорогостоящая, длительная и не всегда безопасная процедура).

4) на основе метода главного эксперта разработана методика прогнозирования эффективности различных способов обучения и лечения.

5) эта методика использована для прогнозирования эффективности применения химио- и/или гормональной терапии в послеоперационном периоде при лечении онкологических заболеваний. С помощью предложенной методики все пациенты делятся на несколько прогностических групп. Для каждой группы даются вероятности благоприятного исхода как в случае применения химио- и/или гормональной терапии, так и в случае их отсутствия. Для каждого пациента определено место в одной из подгрупп и рекомендовано именно то лечение, при котором прогноз для него наиболее благоприятен. В результате удалось прогнозировать благоприятный исход у существенно большего, чем было в действительности, количества пациентов на 15-30 процентов в зависимости от того, на сколько прогностических групп были разделены пациенты и какие способы лечения применялись).

МГЭ позволяет существенно повысить качество прогнозирования эффективности лечения. Указанный метод может оказать существенную помощь не только в процессе сопровождения лечебно-диагностического процесса, но и при обработке результатов массовых обследований, проводимых в целях профессионального психофизиологического отбора и психофизиологического сопровождения профессиональной деятельности.

Отметим, что МГЭ предлагается использовать не взамен, а наряду с традиционными статистическими методами, это позволит повысить надежность и качество прогнозирования.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, входящих в перечень ВАК рецензируемых научных журналов

1. Демьянова В. В. Одномерная идентификация методом разделения // Вестн. С.-Петерб. ун-та; Сер. 10. Прикладная математика, информатика, процессы управления. 2006. Выи. 3. С. 28-31.

2. Демьянов В. Ф., Демьянова В. В., Кокорина А. В., Моисеенко В. М. Прогнозирование эффективности химиотерапии при лечении онкологических заболеваний // Вести. С.-Петерб. ун-та; Сер. 10. Прикладная математика, информатика, процессы управления. 2006. Вып. 4. С. 30-36.

3. Демьянова В.В. Прогнозирование эффективности различных способов лечения // Вести. С.-Петерб. ун-та; Сер. 10. Прикладная математика, информатика, процессы управления. 2007. Вып. 4. С. 3-16.

4. Демьянова В.В. Применение оптимизационного подхода в сопровождении лечебного процесса // Вестник Российской Военно-медицинской академии. 2007. Приложение N 3 (19). (Материалы конференции "Психофизиология профессионального здоровья человека" .) С. 219-220.

Публикации в других изданиях

5. Демьянова В. В. Некоторые особенности работы с социально-травмированными подростками / / Методические материалы по социальной работе. Ассоциация "Врачи мира" (Франция). Институт подростка Санкт-Петербурга. Изд-во Санкт-Петербургского гос. технологического ун-та. СПб, 1995. С. 73-75.

6. Демьянова В. В., Капитонов В.А., Баландин B.C., Королев Ю.Н. Некоторые психологические особенности представителей социально-значимых профессий, работающих с группами риска // Материалы итоговой научной конференции за 1995г. Военный Институт физической культуры. Под ред. проф. Кадырова Р.Н. и доц. Кислого А.Н. Изд-во ВИФК. СПб, 1996. С. 184.

7. Демьянова В. В. Применение математических методов в психодиагностике // Процессы управления и устойчивость: Труды 35-й межвузовской научной конференции аспирантов и студентов. Под ред. Н.В. Смирнова. - СПб.: Изд-во СПбГУ, 2004. С. 297-302.

8. Demyanova V. V. Psychodiagnostics of reliability of competition activity in sports by means of mathematical modelling // Proceedings of the Conference "Longevity, Aging and Degradation Models in Reliability, Public Health, Medicine and Biology (LAD'2004)" . Vol. 2. СПб: Изд-во Санкт-Петербурского Политехнического университета. 2004. Р. 96-100.

9. Demyanova V. V. The principal expert method in data mining // Applied Comput. Math. 2005. Vol. 4, N 1. P. 70-74.

10. Демьянова В. В. Метод главного эксперта в задачах идентификации / / Труды Между нар. конференции "Устойчивость и процессы управления"/ (С.-Петербург, 29.06.2005-01.07.2005). Ред. Д. А. Овсянников, JI. А. Петросян. СПб.: Изд-во С.-Петерб. ун-та, 2005. Т. 2. С. 815-822.

11. Demyanova V. V., Demyanov V.F. The Method of Virtual Experts in Mathematical Diagnostics // Journal of Global Optimization. 2006. Vol. 35 P. 215-234.

12. Демьянова В.В. Задача прогнозирования и метод главного эксперта //Процессы управления и устойчивость: Труды 37-й межвузовской научной конференции аспирантов и студентов / Под ред. Н.В. Смирнова. - СПб.: Изд-во СПбГУ, 2006. С. 198-204.

 
Список источников диссертации и автореферата по математике, кандидата физико-математических наук, Демьянова, Вероника Владимировна, Санкт-Петербург

1. Амосов Н.М., Зайцев Н.Г., Мельников А.А. и др. Медицинская информационная система. Киев: Наукова думка, 1971.

2. Барабаш Ю.Л., Барский Б.В., Зиновьев В.Т. и др. Вопросы статистической теории распознавания. М.: Советское радио, 1967.

3. Бейли Н. Математика в биологии и медицине. Пер. с англ. М.: Мир, 1970.

4. Бейли Н. Статистические методы в биологии. Пер. с англ.; под ред. В.В. Налимова. М.: Иностранная литература, 1962.

5. Бешелев С.Д., Гурвич Ф.Г. Математико-статистические методы экспертных оценок. М.: Статистика, 1980.

6. Балъд А. Последовательный анализ. Пер. с англ.; под ред. В.А. Севастьянова. М.: Наука, 1960.

7. Бальд А. Статистические решающие функции. Позиционные игры. Под ред. Н.Н. Воробьева и Н.Н Врублевской. М.: Наука, 1967, с. 300-522.

8. Ван дер Варден Б.Л. Математическая статистика. Пер. с немецкого; под ред. Н.В. Смирнова. М.: Иностранная литература, 1960.

9. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). М.: Наука, 1974.

10. Барис Я. В. Одномерная идентификация двух дискретных множеств с помощью двух отрезков // Труды XXXV научной конференции аспирантов и студентов "Процессы управления и устойчивость". СПб: Издательство СПбГУ, 2004, с. 291-293.

11. Гелъфанд И.М., Пятецкий-Шапиро И.И., Федоров Ю.Г. Отыскание структуры кристаллов с помощью метода нелокального поиска // ДАН СССР, т. 152, № 5, 1963, с. 1045-1048.

12. Генкин А.А. Новая информационная технология анализа медицинских данных (программный комплекс ОМИС). СПб.: Политехника, 1999.

13. Головкин Б.А. Машинное распознавание и линейное программирование. М.: Советское радио, 1972.

14. Григорьева К. В. Аппроксимация критериального функционала в задачах математической диагностики: Диссертация на соискание ученой степени к.ф.-м.н. СПб: С.-Петерб. ун-т, 2006. 191 с.

15. Григорьева К. В. Идентификация множеств с помощью негладкой модели. Процессы управления и устойчивость. Труды XXXV научной конференции аспирантов и студентов. СПб: Изд-во С.-Петерб. Ун-та, 2004, с.294-296.

16. Гублер Е.В. Вычислительные методы анализа и распознавания патологических процессов. JL: Медицина, 1978.

17. Девятериков И. П., Пропой А.И., Цыпкин Я.З. О рекуррентных алгоритмах обучения распознавания образов / / Автоматика и телемеханика, № 1, 1967.

18. Демьянова В.В. Задача прогнозирования и метод главного эксперта //Процессы управления и устойчивость: Труды 37-й межвузовской научной конференции аспирантов и студентов / Под ред. Н.В. Смирнова. СПб.: Изд-во СПбГУ, 2006. С. 198-204.

19. Демьянова В. В. Прогнозирование эффективности различных способов лечения // Вести. С.-Петерб. ун-та; Сер. 10. Прикладная математика, информатика, процессы управления. 2007. Вып. 4. С. 3-16.

20. Дубров A.M. Обработка статистических данных методом главных компонент. М.: Статистика, 1978.

21. Дюк В.А. Методология поиска логических закономерностей в предметной области с нечеткой системологией // Автореферат диссертации на соискание ученой степени д.т.н. СПб, СПбГУ, 2005.

22. Дюк В., Эмануэль В. Информационные технологии в медико-биологических исследованиях. СПб.: Питер, 2003. 528 с.

23. Елисеева И.И., Руковишников В.О. Группировка, корреляция, распознавание образов. М.: Статистика, 1977.

24. Журавлев Ю.И., Дмитриев А.Н., Кренделев Ф.Н. О математических принципах классификации предметов и явлений // Дискретный анализ. Сб. трудов ИМ СО АН СССР. Новосибирск, № 7, 1966.

25. Заботин Я.И., Кораблев Ф.И., Хабибулин Р.Ф. О минимизации квазивыпуклых функционалов // Известия ВУЗов. Математика. 1972. No. 10. С. 27-33.

26. Загоруйко Н.Г. Методы распознавания и их применения. М.: Советское радио, 1972.

27. Карманов В.Г. Математическое программирование. М.: Наука, 1975.

28. Кендалл М.; Стюарт А. Статистические выводы и связи. Пер. с англ.; под ред. А.Н. Колмогорова и Ю.В. Прохорова. М.: Наука, 1973.

29. Козинец Б.Н. Рекуррентный алгоритм разделения двух множеств. В сб. под ред. В.Н. Вапника "Алгоритмы обучения распознавания образов". М.: Советское радио, 1973.

30. Кокорина А.В. Ранжирование дискретных параметров в задачах обработки данных // Труды XXXIV научной конференции аспирантов и студентов "Процессы управления и устойчивость". СПб: Издательство СПбГУ, 2003, с. 276-279.

31. Кокорина А.В. Ранжирование параметров в задачах обработки данных // Труды XXXIII научной конференции студентов и аспирантов "Процессы управления и устойчивость". СПб: ООП НИИ Химии СПбГУ, 2002, с. 277 281.

32. Кокорина А.В. Оптимизационный подход в задачах математической диагностики. Диссертация на соискание ученой степени к.ф.-м.н. СПб, СПбГУ, 2004.

33. Колкот Э. Проверка значимости. Пер. с англ. М.: Статистика, 1978.

34. Кульбак С. Теория информации и статистика. Пер. с англ.; под. ред. А.Н. Колмогорова. М.: Наука, 1967.

35. Литваков Б.М. О сходимости рекуррентных алгоритмов обучения распознаванию образов // Автоматика и телемеханика, № 1, 1968.

36. Логинов В.И., Хургин Я.И. Общий подход к проблеме распознавания образов. Сб. тр. МИНХ и ГП, вып. 62. М.: Недра, 1966.

37. Малета Ю.С., Тарасов В. В. Математические методы статистического анализа в биологии и медицине. Вып. 1, вып. 2. М.: Издательство МГУ, 1982.

38. Неймарк Ю.И., Баталова З.С. и др. Распознавание образов и медицинская диагностика. М.: Наука, 1972.

39. Первозванский А.А. Распознавание абстрактных образов, как задача линейного программирования // Известия АН СССР, Техническая кибернетика, № 4, 1965.

40. Петрова Н.В. Разделение двух дискретных одномерных множеств методом изоляции // Труды XXXV научной конференции аспирантов и студентов "Процессы управления и устойчивость". СПб: Издательство СПбГУ, 2004, с. 328-330.

41. Поляк Б. Т., Цыпкин Я.З. Псевдоградиентпые алгоритмы адаптации и обучения // Автоматика и телемеханика, № 1, 1973.

42. Приставко В.Т., Ярвельян А.В. Методы разделяющей гиперплоскости в медико-биологических задачах // Труды XXXV научной конференции аспирантов и студентов "Процессы управления и устойчивость". СПб: Издательство СПбГУ, 2004, с. 331-333.

43. Славин М.Б. Методы системного анализа в медицинских исследованиях. М.: Медицина, 1989.

44. Тинтнер Г. Введение в эконометрию. Пер. с англ. М.: Статистика, 1965.

45. Уилкс С. Математическая статистика. М.: Наука, 1967.

46. Урбах В.Ю. Дискриминантный анализ: основные идеи и приложения. Сб. Статистические методы классификации, вып. 1. МГУ, 1969.

47. Фомин В.Н. Математическая теория обучаемых опознающих систем. -М.: Издательство ЛГУ, 1976.

48. Якубович В.А. Некоторые общие теоретические принципы построения обучаемых опознающих систем. Сб. Вычислительная техника и вопросы программирования. ЛГУ, 1965.

49. Advances in Kernel Methods. Support Vector Learning (1999). Eds. B.Schoelkopf, C.J.C.Burgcs, A.J.Smola. The MIT Press, Cambridge, Mass.; London, England.

50. Anderberg M.R. Cluster Analysis for Applications. Academic Press, 1973.

51. Astorino A., Gaudioso M. Polyhedral Separability through Succcssive LP. Journal of Optimization Theory and Applications, 112 (4), 265-293. 2002.

52. Bagirov A.M., Rubinov A.M. and Yearwood J. A heuristic algorithm for feature selection based on optimization techniques. In: Sarker R., Abbas H. and Newton C.S. (eds.), Heuristic and Optimization for Knowledge Discovery. Idea Publishing Group. 2000.

53. Bagirov A.M., Rubinov A.M. and Yearwood J. A global optimization approach to classification. Optimization and Engineering 3, 2002, pp. 129 155.

54. Bennett К.P. and Mangasarian O.L. Robust linear programming discrimination of two linearly inseparable sets. Optimization Methods and Software 1, 1992, pp. 23-34.

55. Bhuyan N.J., Raghavan V.V. and Venkatesh K.E. Genetic algorithms for clustering with an ordered representation. Proceedings of the Fourth International Conference on Genetic Algorithms, 1991, pp. 408-415.

56. Bradley P.S. and Mangasarian O.L. Feature selection via concave minimization and support vector machines. Machine Learning Proceedings of the Fifteenth International Conference (ICML'98), San Francisco, California. Morgan Kaufmann, 1998, pp. 82-90.

57. Bradley P.S. and Mangasarian O.L. Massive data discrimination via linear support vector machines. Optimization Methods and Software 13, 2000, pp. 1-10.

58. Chen C. and Mangasarian O.L. Hybrid misclassification minimization. Mathematical Programming Technical Report 95-05, University of Wisconsin, 1995.

59. Cristianini N. and Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel based methods. Cambridge University Press, 2000.

60. DeCoste D. and Schoelkopf B. Training invariant support vector machines. Machine Learning 46, 2002, pp. 161-190.

61. Demyanova V. V. The principal expert method in data mining // Applied Comput. Math. 2005. Vol. 4, N 1. P. 70-74.

62. Fisher R.A. Contributions to Mathematical Statistics. New-York, 1952.

63. Hansen P. and Jaumard B. Cluster analysis and mathematical programming. Mathematical Programming 79, 1997, pp. 191-215.

64. Highleyman W.H. Linear decision functions with applications to pattern recognition. Proc. IRE, № 6, 1962.

65. Jain A.K., Murty M.N. and Flynn P.J. Data clustering: a review. ACM Computing Surveys 31, 1999, pp. 264-323.

66. Kokorina A.V. Ranking the Parameters in Classification Databases. "Longevity, Aging and Degradation Models"(in Reliability, Public Health, Medicine and Biology). Материалы международной конференции LAD'2004

67. Модели Долголетия, Старения и Деградации"). Издательство СПбГПУ, 2004. Vol. 2, pp. 191-193.

68. Kokorina A.V. Unsupervised and supervised Data Classification Via Non-smooth and Global Optimization. Top, Volume 11, Number 1. June 2003. Sociedad de Estadistica e Investigacion Operativa, Madrid, Spain, pp. 86-89.

69. Lee Y.-J., Mangasarian O. L., Wolberg W. H. Survival-time classification of breast cancer patients // Computational Optimization and Applications. 2003. Vol. 25. P. 151-166.

70. Lee Y.-J., Mangasarian O. L. SSVM: A Smooth Support Vector Machine for Classification // Computational Optimization and Applications. 2001. Vol. 20, N 1. P. 5-22.

71. Mangasarian O.L. Linear and nonlinear separation of patterns by linear programming. Operations Research, vol. 13, 1965, pp. 444-452.

72. Mangasarian O.L. Misclassification minimization. Journal of Global Optimization 5, 1994, pp. 309-323.

73. Mangasarian O.L. Mathematical programming in data mining. Data Mining and Knowledge Discovery 1, 1997, pp. 183-201.

74. Michie D., Spiegelhalter D.J. and Taylor C.C. Machine Learning, Neural and Statistical Classification. Ellis Horwood Series in Artificial Intelligence, 1994.

75. Mirkin B. Mathematical Classification and Clustering. Kluwer Academic Publishers, 1996.

76. Murphy P.M. and Aha D. W. UCI repository of machine learning databases. Technical report, Department of Information and Computer science, University of California, Irvine, 1992. www.ics.uci.edu/mlearn/MLRepository.html.

77. Nagy G. State of the art in pattern recognition. Proceedings of the IEEE 56, 1968, pp. 836-862.

78. Nick Street W., Wolberg William H., Mangasarian O.L. Nuclear Feature Extraction For Breast Tumor Diagnosis. IS and SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, Vol. 1905, pp. 861-870, San Jose, California, 1993.

79. Rosen J.B. Pattern separation by convex programming. Journal of Mathematical Analysis and Applications, vol. 10, 1965, pp. 123-134.

80. Rosenblatt F. The perseptron, a probability model for information storage and organization in the brain. Psychol. Rev., 65, 1958.

81. Rubinov A.M., Soukhoroukova N.V. and Yearwood J. Clustering for studying structure and quality of datasets, Research Report 01/24, University of Ballarat, 2001.

82. Schoelkopf B. and Smola A. Learning with Kernels. The MIT Press, 2002.

83. Vapnik V. The Nature of Statistical Learning Theory. Springer-Verlag, New York, N.Y. 2000.

84. Ward J. Hierarchical grouping to optimize and objective function. Journal of the American Statistical Association 58, 1983, pp. 236-244.