Метод и математическая модель автоматического формирования структурных дескрипторов для выявления зависимостей "структура-свойство" в ряду органических соединений тема автореферата и диссертации по химии, 02.00.04 ВАК РФ

Пономарева, Людмила Алексеевна АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Тверь МЕСТО ЗАЩИТЫ
1993 ГОД ЗАЩИТЫ
   
02.00.04 КОД ВАК РФ
Автореферат по химии на тему «Метод и математическая модель автоматического формирования структурных дескрипторов для выявления зависимостей "структура-свойство" в ряду органических соединений»
 
Автореферат диссертации на тему "Метод и математическая модель автоматического формирования структурных дескрипторов для выявления зависимостей "структура-свойство" в ряду органических соединений"

РГб ОД

Г, '.

ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

Пономарева Людмила Алексеевна

МЕТОД И МАТЕМАТИЧЕСКАЯ МОДЕЛЬ АВТОМАТИЧЕСКОГО аОРМИРОВАШШ СТРУКТУРНЫХ ДЕСКРИПТОРОВ ДЛЯ ВЫЯВЛЕНИЯ ЗАВИСИМОСТЕЙ "СТГУГСПТЛ - ОРОЯСТВО" Р РЯДУ ОРГАНИЧЕСКИХ СОВЛИНЕНИЙ

специальность 02. 00.04 - физическая химия

АВТОРЕФЕРАТ диссертации на сочетание ученой степени кандидата физико-математических наук.

Тверь - 1993г.

Работа выполнена в Институте органической химии имени Е Д. Зелинского Российской Академии Наук

Научные руководители:

кандидат химических наук, ведущий научный сотрудник

Е. А. Смоленский, кандидат физ. -мат. наук, старший научный сотрудник

II11 Куысков

Научный консультант: академик РАН Н. С. Зефиров,

Официальные оппоненты:

доктор химических наук, профессор В. А. Шляпочников кандидат фиа.-мат. наук, доцент А. Д. Щуклов

Ведущая организация: Институт Химической Физики РАН

. Защита диссертации состоится^ ¿¿¿42£/Л 1993г., в часов на заседании специализированного совета К 063.97.05 в Тверском Государственном Университете по адресу : 170002 г.Тверь, Садовый переулок, 35.

С диссертацией можно ознакомиться в ОиОлиотеке Тверского Государственного Университета

Автореферат разослан (Х/^и&л1-? 1993г.

Ученый секретарь специализированного совета кандидат физико-математических наук, доцент

Е Е Иванов

- з -

АКТУАЛЬНОСТЬ РАБОТЫ. Центральной проблемой теоретической химии является нахождение зависимостей между структурой органических соединений и проявляемыми ими свойствами. В попыпеах ее решения широко используется вычислительная техника, оснащенная программным обеспечением, позволяющим находить количественные корреляции "структура-свойство" (ККСС). Для построения в ЭВМ ККСС- моделей используют различные методы описания молекул. Эти методы В1слючают в себя вычисление топологических индексов, теоретико-информационных индексов, наборов структурных фрагментов различных типов V! т. п. Важны),( аспектом создаваемых ККСС-моделей является задача выбора оптимального набора признаков (дескрипторов) молекул для расчета данного свойства, а также задача содержательной интерпретации параметров получаемых ККСС-моделей.

В настоящее время при описании структур молекул принято использовать наборы заранее заданных дескрипторов, индексов, структурных фрагментов, формакофоров, дескрипторных центров и т.п. Наборы признаков могут дополняться, если в ходе решения ККСС-задачи выясняется, что реализованный в программе набор признаков неадекватно описывает исследуемое свойство.

Как правило, набор признаков молекул, используемый для эасчета одного свойства, например, 'температуры кипения, су-цественно отличается от набора, по которому проводят вычисления другого свойства, например, липофилыгости веществ. Выбор 1ризнаков, адекватных данному свойству, является одной из вая-1ых проблем, возникающих при решении ККСС-задач. ' Для этого, [апример, в программе можно иметь большой и постоянно расширя->мый список параметров молекул и использовать их для решения СКСС-задач.

В настоящей работе предлагается новый подход к решению 1роблемы адекватного выбора признаков для расчета конкретного ¡войства молекул; При этом не используются заранее предопреде-юнные списки признаков: дескрипторы молекул формируется авто-[атически по структурам веществ обучающей выборки.

ЦЕЛЬЮ РАБОТЫ является создание метода автоматического ормирования дескрипторов структур органических соединений, азработка соответствующих алгоритмов и программ и включение х в инструментальную программную систему для практического ¿строения зависимостей "структура-свойство".

В соответствии с целью были поставлены следующие ЗАДАЧИ:

1. Провести исследование различных вариантов автомати-еского и исчерпывающего формирования.подструктурных фрагмен-

тов заданных типов и обосновать методику выбора оптимального описания структур молекул для расчета данного физико-химического свойства

2. Разработать алгоритмы и программы, реализующие предложенную методику и обеспечивающие автоматический отбор параметров, адекватных для расчета данного свойства.

3. Провести практическую проверку разработанных программ для построения ККСС-эависимостей различных свойств веществ: липофильность, температура кипения, энтальпия образования, хроматографическая подвижность, поляризуемость и другие свойства на обучающих выборках органических соединений ' разных классов.

НАУЧНАЯ НОВИЗНА РАБОТЫ:

1. Предложена и программно реализована новая методика автоматического описания структур молекул на основе исчерпывающего перечисления всех неэквивалентных фрагментов заданного типа С их помощью учитываются топологические, химические и иные особенности строения молекул.*

2. Показано, что с целью получения адекватного описания молекул следует вводить маркеры атомов для учета их специфических особенностей (например, 8аряда, электрофильности, нук-леофильности, относительного пространственного положения и т.п.) и проводить проверку значимости получаемых признаков по предлагаемой в работе методике. .

3. Предложен и программно реализован метод отбора значимых признаков (из большого числа всевозможных структурных фрагментов) для расчета данного физико-химического свойства

4. Проведено исследование влияния различных маркеров атомов и различных длин цепочек маркированных атомов на качество линейных ККСС-моделей. Построены линейные модели "структура-свойство" для различных физико-химических свойств органических соединений. Показана их пригодность для прогноза свойств новых соединений.

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ работы состоит в том, что

1. Разработаны оригинальные алгоритмы и программы, предназначенные для перечисления и кодирования всех структурных фрагментов молекул - цепочек маркированных атомов заданной длины. Программы составляют ядро системы "БИБИГОН" и служат для построения и верификации линейных ККСС- моделей. Система проходит опытную эксплуатацию в ряде организаций, включая ИОХ РАН, ИФАВ РАН,, Химфак МГУ.

2. На основе предложенного подхода построены линейные

ККСС- модели для расчета таких различных свойств органических

соединений как липофильность, температура кипения , хроматог-рафическая подвижность, энтальпия образования, поляризуемость^ антивирусная активность на обучающих выборках органических соединений различных химических классов.

Результаты работы содержатся в 13 публикациях. Результаты докладывались на Межвузовской конференции "Молекулярные графы в химических исследованиях" (Калинин, 1990), на Первой бсесоюзной конференции по теоретической органической химии (ВАТОХ,- Волгоград, 1991), на Всесоюзной школе-семинаре "Статистический и дискретный анализ данных и экспертные оценки" (Одесса, 1991), на 9-ой Всесоюзной конференции "Химичекая информатика", (Черноголовка, 1992).

Работа состоит из введения, четырех глав, заключения, списка литературы и двух приложений.

СОДЕРЖАНИЕ РАБОТЫ

ВО введении обосновывается актуальность задачи нахождения ёНачимых признаков молекул при установлении ККСС-зависимостей, Ьпределяются цели и задачи исследования.

В первой главе дается обзор современных методов представления химических структур органических соединений в ЭВМ на основе инвариантов молекулярных графов. Описан молекулярный химический граф (МХ-граф) как математический объект, используемый для представления в ЭВМ структур органических соединений. Сформулирована общая постановка эадачи установления количественных корреляций структура-свойство (ККСС) как специальный случай задачи распознавания образов.

Проведена классификация существующих способов описания МХ-графов на основе топологических и теоретико-информационных индексов, а так же с использованием подструктур молекулярного графа. К численным инвариантам относятся топологические индексы,. вычисляемые по матрице расстояний МХ-графа, а также по матрице смежности: индексы Винера, Рандича, Кира-Холла, Хосойи и др. Рассмотрены различные способы формирования структурных инвариантов МХ-графов. Отмечено, что структурные инварианты являются основой для построения многих индексов МХ-графов: выбор способов фрагментации МХ-графов определяет различные варианты численных индексов.

Описан подструктурный подход формирования признаков молекул. Рассмотрен фрагментарный код суперпозиции подструктур ^ (ФКСП) и его модификации, используемые для построения вероят-

костных моделей "структура-биологическая активность", а также методы формирования матриц дескрипторных центров. В ФКСП используется список заранее определенных фрагментов ("фзрмако-форов", дескрипторных центров) для нахождения и кодирования лодструктурных фрагментов в молекулах. Описаны особенности использования подструктурного подхода в аддитивных схемах расчета физико-химических свойств органических соединений, предложенных К М. Татевским и развиваемых им и его сотрудниками. Описан индекс Смоленского для аппроксимации свойств углеводородов на цепочках атомов углерода. Существующее многообразие подходов к описанию молекулярных структур и появление все новых инвариантов МХ-графов делает актуальной разработку единообразного подхода для представления особенностей химических структур для решения ККСС-задач.

Вторая глава посвящена изложению метода описания структур в виде исчерпывающего перечисления всех неизоморфных цепочбк маркированных атомов и последующего формирования и отбора признаков, значимых для данного свойства.

Будем рассматривать молекулярные графы "со стертым водородом". Для систематического перечисления подструктур молекул обычно используют фрагменты ближайшего окружения атома различных уровней: в 1-ый уровень атома входят все его соседние атомы, во второй уровень входят все атомы первого уровня и все их атомы-соседи и т.д. На рисунке 1 изображены фрагменты первого уровня для атома, имеющего 2, 3 и 4 соседних атома.

Показано, что "цепочечное" представление произвольных подструктур (рис.!) позволяет сравнивать их и обеспечивает единообразное кодирование фрагментов. Это сводит аадачу перечисления подструктур молекул к задаче перечисления всех неэквивалентных цепочек атомов.

Будем называть цепочкой атомов С(VI,У^), соединяющей атомы VI и У^ , такую последовательность (У1,-Ур.VI) различных атомов, что каждая последовательная пара атомов соединена ребром. Будем различать неизоморфные цепочки путем сравнения их символьных канонических кодов.

Определение: Пусть каждому атому МХ-графа присвоена некоторая символьная метка Ы1, тогда кодом К(С) цепочки С(У1,У,)) назовем соответствующую последовательность меток атомов: К(С) - (Ш, Ыр,..., Каноническим кодом КК(С) цепочки атомов С будем называть младший (лексикографически) код, выбираемый ив двух возможных, кодов цепочки.

Определение. Цепочки атомов С1 и С2 одинаковой длины будем

зьгаать эквивалентными, если совпадают их канонические коду, е. КК(С1) - КК(С2).

Таким образом, эквивалентность цепочек атомов равной

шш. сводится к эквивалентности меток атомов в цепочках. Для зличения особенностей атомов в Ж-графе будем использовать

Фрагменты к-окружения V-атома Кодирующие цепочки

1) 1 — V — 2 1 — V — 2

ч) з i — v — з

/ ! - у - 2

1 - V 2 - V - 3

\

2

1 - V --2

1 --V -3

1 --V --4

г — v — з

2 — v --.1

3 --у --4

исунок 1. Фрагменты первого уровня V-атома КК-графа.

3/

V - 4

V

2

1

вольные маркеры, участвующие в формировании меток атомов, едолим три базовых маркера: р-маркер учета числа соседит: мов, b-маркер учета химических связей атома и г-маркер уче-кольцезого положения атома.

Для различения топологических особенностей атома в графе зм использовать степень атома и введем р-маркер, ¡соторый зт принимать семь значений (0, 1, 2, 3, 4, 5, 6).

Введем Ь-маркер химической связи атома:

"s" (single) - все связи атома одинарные; "d" (double) - у атома есть двойная связь; "t" (triple) - у атома есть тройная связь; 'V' - у атома есть две двойных связи;

"a" (aromatic)- У атома есть ароматическая связь.

Будем называть связь (ребро) МХ-графа кольцевой, если ее удалении связность графа не нарушается» и цепной (ацик-

лической) - в противном случае. Если атом имеет кольцевые свя-ви, будем называть его "кольцевым атомом".

Среди "1ссльцевых" атомов будем различать "чисто кольцевые" атомы, т.е. атомы, у которых все ребра кольцевые, и "кольцевые с заместителем" атомы, у которых имеется ациклическое ребро. Определим r-маркер следующим образом:

с (chain) - атом ациклический (цепной); г (ring) - атом "чисто кольцевой";

s (substitute)' - атом "кольцевой с заместителем". Определим символьную метку атома как "NNpbr" (5 символов) или

<Имя атома><р-маркер><Ь-маркерхг-маркер> где NN (2 символа) - имя атома; Если маркер не используется ("выключен") , то ставится символ "*" (Рис. 2)

Методика конструирования новых маркеров: пусть на атомах ЫХ-графа вычислена некоторая числовая функция h(v). Разделим область определения h(v) на три непересекающихся интервала: 111, Н2, НЗ, которые покрывают всю область определения функции h(v), и определим Н-маркер:

"а", если h(v) принадлежит интервалу HI;

Н - "Ь", если h(v) принадлежит интервалу Н2; "с", если h(v) принадлежит интервалу НЗ; где h(v)- значение характеристики на v- атоме MX-графа.

Разбиение области определения функции h(v) на интервалы HI, Н2, 113 должно задаваться: содержательной интерпретацией параметра h(v), постановкой ККСС-задачи и характером исследуемого свойства химических соединений. Если новый Н-маркер будет включен в формирование меток атомов, то при перечислении неизоморфных фрагментов будет сформирован новый набор первичных признаков. Адекватность этого набора (для оценки исследуемого свойства молекул) следует проверять с помощью системы "БИБИ-ГОН".

Для перечисления в MX-графе цепочек заданной длины используется "волновой" алгоритм. Пусть вначале все вершины графа имеют целочисленную А-метку, равную нулю. Зададим (стартовый) s-атом, его А-метка равна 1. "Волна" распространяется по атомам, имеющим нулевые А-метки: в момент времени Т-1 волна достигает соседей стартового атома и переводит их А-метки в состояние 2, ватем ( Т-2 ) - соседей этих соседей и переводит их А-метки в состояние 3 и т.д. Таким образом, в А-метках фиксируется момент времени прохождения волны через атом.

Пусть s - стартовый атом и проведена волновая разметка графа. Тогда А-метки, расставляемые волновым алгоритмом ( A(j)

- А-метка .(-атома), обладают следующими свойствами:

Утверждение 1. Значение (Л(})-1) равно элементу 0(э,з) матриц» расстояний графа.

Утверждение 2. Значение Ех - МАХ (Л( _))-!.) есть эксцентриситет стартового з-атома. ^

Утверждение 3. Значение » (А(})-1) есть дистанция стартового я-атома. л

Помер маркировки

Код атома азота

Пояснение

("_" - символ пробела)

"И .

"Н_р

(рор'^а гаип

М_Д** одна сигма связь (без Н-атом^) И_2** две сигма связи (без II-атома) И_3** три сигма связи'(без Н-атома) четыре сигма связи(без Н-атома)

- - все связи одинарны;

- есть одна двойная связь;

- есть две двойные связи; М_*а* - есть ароматическая связь;

- есть тройная связь.

- К_**г - атом расположен в кольце;

- расположен в кольце и соеди- . нен с атомами заместителя;

Н_**с - расположен в цепи заместителей ("ациклический атом"). "Н_рЬ*" - маркировка степени атома "р" и его

химического окружения "Ь" одновременно. "Н_рлг" - маркировка степени атома "р" и положения атома "г" одновременно. "М ,*Ьг" - маркировка химического окружения "Ь"

и положения атома "г" одновременно. "Н_рЬг" - включены все маркировки атома.

Рисунок 2. Варианты маркирования атома азота

Утверждение 4. Если в графе найдется ^-атом с нулевой А метке то в граЦе не существует цепи, соединяющей я-атом о ^-атомом, и следовательно, граф не является связным.

Утверждение 5. Для всех з-атомов с ненулевой А-меткой су чествует цепь, соединяющая з-атом с атомом, т.е. все эт атомы принадлежат одному связному графу.

Утверждение 6. Пусть А-метка з-атома равна к: АС})-к Тогда в О-графе- найдется последовательность атомо

C3.Jt.j2,____jq,s) такая, что для А-меток атомов верно:

АО) - к; АП1) - к-1; А( 32) - к-2; ..., А()я) - 2; АСэ)-1

При этом последовательность атомов (з,31,32, .... Зч, э) образует цепочку минимальной длины С(з,э).

На основе этих утверждений разработаны следующие алгорит мы: алгоритм определения связности графа, алгоритм выделени из графа связной компоненты, алгоритм классификации (разметки связей и атомов графа на кольцевые и ациклические, алгорит формирования цепочек атомов минимальной длины, алгоритм кано нического кодирования цепочек маркированных атомов в вид строки символов, алгоритм нахождения всех цепочек заданно; длины, начинавшихся с • данного атома, а также алгоритмы вы числения дистанции и эксцентриситета МХ-графа.

Результатом перечисления и кодирования цепочек в МХ-гра фах обучающей выборки является построение (И*М)-матрицы описа ния X: элемент матрицы XI з указывает число повторений ;|-ой це почки в 1-ой структуре. Схема формирования матрицы описания ] изображена на рисунке 3.

При перечислении и кодировании всех неэквивалентных цепочек маркированных атомов возникает проблема "информационного взрыва": например, число различных цепочек длины 6 в структурах обучающей выборки может, превышать несколько тысяч. В связ] с этим необходим отбор признаков, значимых для данной свойства. Такой набор признаков назовем "базовым списком дескрипторов" (БСД). Он формируется как из исходных (первичных-, признаков, так и из сложных (составных или вторичных) признаков. При этом только переменные базового списка будут участвовать в построении ККСС-моделей. Размер базового списка фиксируется пользователем заранее.

Формирование БСД основано на использовании метода группового учета аргументов (МГУА): построим для каждого з-столбцг (3-1,М) матрицы X оценку вектора свойства 7 в виде регрессионного уравнения от одной переменной:

V - ( Уз ) + Ез - ( ЬО + М*хз ) + (1)

где ЬО, Ь1 - определяемые коэффициенты, Ез - вектор ошибки, сумма квадратов которого минимизируется в (1).

Упорядочим вектора оценок 7) в порядке убывания множественного коэффициента корреляции 1?] регрессии (1).. Вектора оценок YJ будем последовательно заносить 8 БСД в порядке убывания Г^ до заполнений списка. Каждый вектор У) проверяется на вва-имную коррелированность с векторами, уже попавшими в список. Если коэффициент корреляции хотя бы для одного базового вектора, превышает заданный порог ГК., то У)-переменная в базовый список не заносится.

Преобразование переменных для базового списка. МГУ А-метод формирования базового списка позволяет вводить новые (составные) признаки. В уравнение (1) вместо исходной переменной X) введем преобразованную переменную Ъ\ -Г(Х)). Пусть определено некоторое множество функций одной переменной:

..... Гк>, тогда из (1)_получаем следующие уравнения:

XI: _ ■ У - (Ь0+ Ы*ХЯ + EJ - Yj + 6} ; 21 - Г1(Х]): У - (Ь0+ Ы*Й) + Ё} - У1 + £\у,

гц - Гч(ХЗ): У - (Ь0+ ы*|с|) + ЕГси - ^ + Ечи Здесь каждый из векторов Ук рассматривается независимо и принимает общее участие в формировании базового списка. . Таким образом, происходит автоматический отбор лучших (возможно,нелинейных) переменных В системе "БИБКГОН" реализованы следующие функции г-Г(Х): квадрат переменной, квадратный корень переменной* среднее по длине цепочки, обратная величина переменной. и другие.

Аналогичным образом МГУА-метод позволяет проводить формирование новых (составных) признаков с использованием функций F(X1,X2) от ДВУХ пе£еменных на основе уравнения:

Y-(Tk)+Ek-(bO + bl*F(Xj, , Xj2) + Ёк ; где ЬО, Ы - определяемые коэффициенты, функция F выбирается из списка (Х1*Х2, Х1/Х2, Х1+Х2, X1-XZ, Мах(Х1,Х2), Мп(Х1,Х2)).

В третьей главе описана система БИБИГОН, созданная в ИОХ РАН для диалогового построения линейных ККСС-моделей на основе цепочек маркированных атомов. В системе используются три базовых маркера: р-маркер, b-маркер, г-маркер. Разработанные программы пречисления и кодирования неэквивалентных цепочек, формирования матрицы описания и отбора переменных являются составной частью системы "БИБИГОН". Система "БИБИГОН" позволяет проводить:

- диалоговый выбор обучающего множеств.1 структур;

- диалоговый выбор одного из свойств, • его функциональное преобразование (задание зависимой переменной ККСС-моделей);

- исчерпывающее перечисление (в структурах обучающего множества) всех различных цепочек заданной длины;

- Объединение всех найденных цепочек в общий список и формирование матрицы описания X структур обучающего множества;

- формирование БСД с возможным использованием функций одной переменной из заданного списка;

- построение линейных ККСС-моделей на "базовых признаках":

а) методом пошаговой регрессии;

б) методом группового учета аргументов (МГУА-методом);

- верификацию качества прогностичности построенных линейных ККСС-моделей методом "скользящего контроля";

- прогнозирование свойств новых органических соединений;

- графическую визуализацию ККСС-моделей;

- выполнение различных сервисных функций.

В четвертой главе приведены практические примеры, иллюстрирующие эффективность предложенной методики автоматического выбора адекватного описания структур для ККСС-задач.

Все приводимые модели проверены на прогностичность методом "скользящего контроля": из выборки удаляется i-ое соединение, строится ККСС-модель на данном наборе дескрипторов, по нему расчитывается свойство 1-ого соединения и запоминается ошибка предсказания. Когда значение J пробегает все структуры, формируется "скользящий" вектор ошибки PSS (Predict Sum of Squares). По вектору PSS вычисляются соответствующие значения S, F (квадрат множественного коэффициента регресии,

стандартное отклонение и критерий Фишера). Проведен расчет следующих свойств: - Температуры кипения дли фураноь, тетрагидрофуранов и тио~ фенов. Выборка содержала 342 соединения. Результаты расчета, получении'.' методом наименьших квадратов: N - 343, К - 18, К";.' - 0. 9212, 2 - 18.126, Г - 194.124

Переменная N обозначает число структур в обучающей выборке, К- число признаков, вошедших в модель.

Проверка прогностичности модели проводилась методом "Скользящий контроль": М - 343, К - 18, К"2 - 0.0912, 3-19.246, Р -147.492

-Энтальпии образования веществ равных химических классов. ПиСорка содержала £01 соединение. Ревультатн расчета, получен 1Ш0 методом наименьших квадратов: й- 201, К - 16, [Г2 - 0.9912, Б - 0.1016, Г - 312.60

Проверка прогностичности модели проводилась методом "Скользящий контроль": М- 201, К -16, 1Г2 - 0.9513, Б - 0.2300, Р - 224.67

- Хроматографической подвижности антрациклиновых антибиотиков ряда даунорубицина. Выборка, содержащая 84 соединения введена в ЭВМ на основе данных ВНИИ Новых Антибиотиков РАМН. Результаты расчета, полученные методом наименьших квадратов: II- 84, К - 2Е>, (Г2 - 0.9813, 3 - О. 094, Г- 64.12.

Проверка прогностичности модели проводилась методом "Скользящий контроль": N - 84, К - 25, К"2 - 0.961, 3 - 0.047, Г - 58. 32

Линофилыюсти замещенных бензолов. Обучающая выборка годежала 167 содинений. На этой выборке нами было исследовано влияние различных маркировок атомов на получаемы« результаты аппроксимации. Результаты объединены ь Таблице 2:

Таблица 2. Результаты регрессионных моделей при различных ма[ <иронках атомов (лшюфильно^ти замещенных бензолов), N-167.

151.77

291. 13 393. 53 278. 67 316.06 259. 15

292. 44 144. оЗ

маркировка /СО К - 17 (Г2 - 0. 945 Б - 0. 299 Г

маркировка #1 К - 17 Г 2 - 0. 970 Б - 0.219 Р

маркировка яг К - 16 Г 2 - 0. 976 Г• - 0.194 Р

маркировка ¡а к - 17 ГГ2 - 0. 969 - 0. 223 Г

маркировка к - 17 !Г2 - 0.973 Г* о - 0 210 ?

маркировка к - 17 (Г2 - 0.967 Б - 0. 231 г

маркировка ¿Ъ к - 17 1Г2 - 0. 970 Б - 0.216 г

'маркировка *7 к - 18 ¡гг - 0. 946 Б - 0.298 г

- 14 -

"Скользящий контроль" (для лучшей маркировки #2): N - 167, К - 17, FT2 - 0.954, S - 0.2719, F - 185.95

- Антивирусной активности триазинов. Для проверки применимости описываемого в работе подхода к построению ККСА-моде-лей для "биологической" активности, а не только для физико-химических свойств, была исследована обучающая выборка, содержащая 54 соединения.

TOB: N - 53, К - 11, FT2 - 0.9151, S - 0.1219, F - 51.89

Проверка прогностичности модели проводилась методом

"Скользящий контроль": N - 53, К - 11, R~2 - 0.8952, S - 0.3814, F - 31.88

- Поляризуемости молекул. Обучающая выборка содежала 293 содинения. Лучшая модель была построена на атомах с 7-ой маркиров1

Результаты расчета, полученные методом наименьших квадратов: N - 293, К - 8, 1Г2 - 0.9651, S - 6.3Q84, F - 873.0515

Проверка прогностичности модели проводилась методом

"Скользящий контроль": N - 293, К - 8, 1Г2 - 0.9619, S - 6.5929, F - 796.6712

- Октановые числа углеводородов. Обучающая выборка содежала 153 содинения, из них 45 алканов, 35 циклоалканов и 74 алкенов.

Результаты расчета, полученные методом наименьших квадратов: N - 153, К - 21, FT2 - 0. 9332, (R-0. 9608), S-6. 486, F-71. 6556

Проверка прогностичности модели проводилась методом

"Скользящий контроль": N - 153, К - 21, FT2 - 0. 8812, (R-0. 9387), S-8. 072,F-44.1554

Заклинепиэ содержит основные выводы работы, в нем сформулированы возможные пути развития метода символьной маркировки атомов. В приложении 1 приведены полные таблицы "свойство -расчет - отклонение" для описанных в 4-ой главе ККСС-моделей. В приложении 2 подробно описана система "БИБИГОН".

ВЫВОДЫ

1. Разработана методика автоматического описания структур молекул для ККСС-задач на основе исчерпывающего перечисления неэквивалентных цепочек маркированных атомов: маркеры вводятся для учета особенностей атомов (степень атома, наличие ненасы-щенностей, положение в кольцевых системах и др.) и определяют типы эквивалентных атомов. Цепочки маркированных атомов являются новым типом структурных дескрипторов молекул и имеют

- 15 -

ясную химическую интерпретацию.

2. Показана возможность использования метода группового учета аргументов ()Я"УА) для отбора (на всевозможных струотур-1шх Фрагментов) значимых признаков при оценке заданного с ьо йот на. Метод позволяет формировать составные (вторичные) признаки на основе функциональных (в том числе и нелинейных) преобразований исходных признаков молекул.

3. Разработаны алгоритмы и получены программы, реализующие предложенную методику описания молекул и МГУА-метод автоматического отбора признаков. Программы пошли (как составная часть) в систему "БКБИГОН", которая служит для диалогового построения и верификации линейных ККСС-моделей.

4. о помощью системы "БИВИГОН" проведена практическая проверка метода и разработанных программ для построения ККСС-зависимостей различных свойств веществ: липофильность, температура кипения, энтальпия образования, хроматографическая подвижность, поляризуемость, октановое число, чувствительность к удару на обучающих выборках органических соединений разных классов. Проверка показала, что полученные нашим методом расчетные данные некоторых ' свойств превос'ходят по точности другие известные методы. Показана прогностическая устойчивость найденных ККСС-зависимостей методом "скользящего контроля".

Основные результаты работы калодеши в слодукцих публикациях:

1. Смоленский Е. А. , Пономарева Л. А. , Зефиров 11 С. Новый подход к расчету липофильности органических соединений // ДАН ХСР, 1990, Т. 312, N.1, с. 155-159.

2. Смоленский Е. А., Пономарева Л. А. Параметры для расчетов полибензоидных. соединений // "Расчетные методы исследова-*ия в химии" - Тверской Госуниверситет, Тверь, 1990, с.69-61.

3. Пономарева Л. А., Смоленский Е. А., Зефиров Н. С. Выбор Зазиса для расчетов физико-химических свойств органических мо-юкул // "Расчетные методы исследования в химии" - Тверской Ъсуниверситет, Тверь, 1990, с. 62-64.

4. Смоленский Е. А., Пономарева Л. А., Зефиров Н. С. Расчет 1еличини липофильности производных бензола // Тезисы докладов (ежвузовской конференции "Молекулярные графы в химических ^следованиях" - Калинин, 1990, с. 92.

5. Смоленский Е. А., Пономарева Л. А., Зефиров Н. С. Об оп-имальном выборе расчетного базиса // Теаисы докладов ме*ву-овской конференции "Молекулярные графы в химических исследо-

- 16 -

ваниях" - Калинин, 1990, с. 91.

6. Кумсков М. И., Пономарева Л. А., Зефиров а С. Выбор ал фавита структурных .дескрипторов органических соединений пр: поиске зависимостей "структура-активность" // Материалы 4-о: Всесоюзной школы-семинара "Статистический и'дискретный анали: данных и экспертные оценки" - Одесса, 1991, с. 90.

7. Пэномарева Л. А., Кумсков М. И., Смоленский Е. А., Масло ва Л. К., Зефиров а С. Информационная система для прогнозирова ния свойств органических соединений // Тезисы докл. I Всесоюз ной конференции по теоретической органической химии - ВАТОХ Волгоград, 1991, с. 537.

8. Пономарева Л. А., Кумсков М. И., Зефиров а С. Формирова ние моделей ККСА на основе большого числа структурных дескрип торов. (Метод группового учета аргументов) // Тезисы докл. Всесоюзной конференции по теоретической органической химии ВАТОХ, Волгоград, 1991, с. 645. • •

9. Пономарева Л. А., Кумсков М. К , Зефиров а С. Окраск структурных дескрипторов органических соединений при поиск зависимостей "структура-активность" // Тезисы докл. I Всесоюз ной конференции по теоретической органической химии - ВАТОХ Волгоград, 1991, с. 650.

10. Пономарева Л. А., Олсуфьева Е. а , Преображенская М.Е Кумсков М. И., Зефиров а С. Модель расчета хроматографическо подвижности антрациклиновых антибиотиков ряда даунорубицина его полусинтетических аналогов // Хим. Фарм. Ж, 1991, (в печати)

11. Пономарева Л. А., Смоленский Е. А., Кумсков № а , Митю шев Д. Ф., Зефиров Е С. Формирование структурных дескриптор© молекулярных графов // Тезисы докладов IX Всесоюзной конферен ции "Химическая информатика" - Черноголовка, 1992, с. 96.

12. Пономарева Л. А., Олсуфьева Е. а , Преображенская М. а Кумсков М. а , Смоленский Е. А., Зефиров а С. Прогнозировали хроматографической подвижности антрациклиновых антибиотиков / Тезисы докладов IX Всесоюзной конференции "Химическая информа тика" - Черноголовка, 1992, с. 98.

13. Зефиров ас., Кумсков М. а , Пономарева Л. А., Митюше Д. Ф., Смоленский Е. А. Самоорганизация моделей - новое направ ление поиска зависимостей "структура-свойство" // Тезисы док ладов IX Всесоюзной конференции "Химическая информатика" Черноголовка, 1992, с. 159.