Разработка нового метода посика корреляций "структура-свойства" и прогнозирование параметров энергетических соединений тема автореферата и диссертации по химии, 02.00.04 ВАК РФ
Сухачев, Дмитрий Валерьевич
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Тверь
МЕСТО ЗАЩИТЫ
|
||||
1993
ГОД ЗАЩИТЫ
|
|
02.00.04
КОД ВАК РФ
|
||
|
РГ8 ОД
ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи УДК 541.6
Сухачев Дмитрий Валерьевич
РАЗРАБОТКА НОВОГО МЕТОДА ПОИСКА КОРРЕЛЦИЙ "СТРУКТУРА - СВОЙСТВО" И ПРОГНОЗИРОВАНИЕ ПАРАМЕТРОВ ЭНЕРГЕТИЧЕСКИХ СОЕДИНЕНИЙ
02.00.04 - Физическая химия
АВТОРВФВРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Тверь - 1993
Работ» выполнена в Институте Органической химии им, Н.Д.Зелинского (г.Москва).
Научные руководители;
Н.С. Зефиров
доктор химических наук, ведущий научный сотрудник 1Лл 1Ш8ШШ
Научный консультант;
кандидат химических наук, П
стерший научный сотрудник В.А.11ШИ0ЛИН
Официальные оппоненты.
кандидат физико-матемагаческих наук,
научный сотрудник И.В.ирЛОВ
доктор химических наук, профессор, _
то-корр. Петровской академии наук и искусств Ляпунов
Ведущая организация: Институт новых химических пройдем РАН
Защит состоится " ¿¿¿'ОМиС 1993 г. „ часов на доедании специализированного совета К 063. 97. 05 в Тверском государственном университете но адресу: 170002, г.Тверь, Садовый переулок,35.
С дисссртацитсй можно ознакомиться в библиотеке Тверского госуниворснпгота.
Автореферат разослав 1993 г
Ученый секретарь
специализированного совета,
кандидат физико-математических ,
наук, доцент ^{¿(и. В.В.Иванов
ОВЩЛЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность томы. Пысокоэиергетическне вещества широко используются в современной химии и технологии в качестве источников энергии, компонситоп взрывчатых составов (DC) н ракетных топлнв (РТ). Актуальной является задача разработки новых эффективных вещестп и определения характеристик уже синтезированных псщестп с точки зрения их эффективности и безопасности. Аналогичные проблемы встают и при синтезе других органических соединении с заданными свойствами.
Необходимый при этом этап экспериментального скрининга является дорогостоящим и трудоемким процессом, возможности которого становятся псе более ограниченными с появлением новых веществ и необходимостью определения характеристик большого количества синтезированных и гипотетических веществ.
Поэтому в последнее время все более широко применяются универсальные методы компьютерной . обработки химических соединении и оценки их параметров, которые можно рассматривать как предварительную теоретическую оценку свойств химических веществ перед стадией экспериментального скрининга. Не претендуя на точность экспериментального определения характеристик химических соединений, они способны относительно быстрым и дешевым способом по введенным в компьютер данным о строении и свойствах уже исследованных соединений оценить эти характеристики для новых соединений и отобрать из них наиболее перспективные для синтеза. Применение этих методов позволяет значительно сократить трудоемкость и затраты на получение веществ с заданными свойствами. Компьютерные методы, направленные на оценку количественных характеристик широких классов химических веществ, выделились п отдельную быстро растущую научную дисциплину • количественая связь "структура • свойство" (QSPR • Qualitative Structure-Property Relationship). Поскольку эффективность существующих компьютерных программ, как правило, невысока, актуальной представляется задача повысить эффективность компьютерных методов за счет учета специфики задачи построения корреляций "структура-свойство".
D настоящей работе предложен и реализован метод построения регрессионных уравнений, связывающих свойства с химической структурной формулой веществ и проиллюстрирована его эффективность на примере энергоемких материалов.
Как известно, при теоретической оценке эффективности взрывчатых веществ наибольший интерес представляют такие параметры, как энергосодержание (энтальпия образования веществ), параметры термической стабильности и чувствительность веществ к разного рода воздействиям. Для оценки энтальпии образовании используются аддитивные расчетные схемы, а также методы молекулярной механики и квантовой химии. Однако, эти методы дают значительную погрешность в вычислениях для полиазотистых соединений, поскольку' в основе их методологии лежит трансферабельность параметров и аддитивность свойств, что для полназотистых веществ часто не выполнимо. Параметры термической стабильности (например, энергии активации реакции термолиза) рассчитываются только полуэмпирическимп квантовохимнческими методами с низкой точностью. Для чувствительности к механическому удару надежных методов оценки параметров практически не существует. Поэтому актуальной представляется задача применить новые в этой области исследований подходы QSPR с целью получения надежных схем расчета этих свойств.
Цель работы, Целью работы явилось разработка вычислительной схемы для прогнозирования свойств органических соединений и предсказание ряда физико-химических параметров на этой основе.
В соответствии с целью работы задачи формулировались следующим образом:
1) разработка методики построения моделей QSPR и вычислительной схемы на ее основе, ориентированной на высокую прогнозирующую способность получаемых моделей корреляций "структура-свойство",;
2) создание программного комплекса, реализующего предложенную методику;
3) проверка эффективности методологии н иллюстрация эффективности разработанной программы в применении к исследованию трудно-оцениваемых физнко-хнмнческих свойств пысокоэнергетнческих полиазотистых соединений;
4) прогнозирование ряда свойств для гипотетических соединений.
1) предложена новая методика построения моделей QSPR. Она включает в себя математическую постановку задачи QSPR, методы
построения линейных уравнений и способы оценки и интерпретация моделей с точки зрения их предсказательном способности;
2) разработана компьютерная программа "ЭММА" (Эффективное Моделирование Молекулярной Лктипностн), эффективно реализующая предложенную методику построения моделей (^РГ?;
3) проиллюстрирована высокая эффективность методов (^БРИ при моделировании спойстп полиазотнетых веществ;
4) с помощью разработанной программы построены модели, позволяющие оценивать важнейшие характеристики пысокоэпсргетическнх полиазотнетых веществ: энтальпию образования, некоторые параметры термической стабильности и чувствительность веществ к механическому удару,
Практическая ценность работы состоит о том, что создан программный комплекс, показавшим свою высокую эффективность при количественной оценке энергетических характеристик, на основе данных о сотипх веществ. Показана высокая прогнозирующая способность построенных модельных уравнений в сравнении с существующими аддитивными схемами. Благодаря своей открытой архитектуре существующий программный комплекс может быть использован для построения н анализа новых дескрипторов химических соединений широкого спектра действия,
Апробация* Основные результаты работы доложены на Первой Всесоюзной конференции по теоретической органической химии (Волгоград, 1991), 9-й Всесоюзном конференции "Химическая информатика" (Черноголовка, 1992), 18-м Международном пиротехническом семинаре (Колорадо, США, 1992), на семинаре академика Н.С.Зефирова в МГУ (Москва, 1991).
Публикации По материалам диссертации опубликовано 4 печатных труда.
Структура п.. объем диссертации, Диссертация состоит из введения, четырех глав, библиографии и заключения.
В первой главе содержится обзор основных методов построения линейных моделей ; метода построения всех возможных регрессий, метода "ветвей и границ", пошагового метода, ) егрессии на главных компонентах, регрессии на собственных значениях, регрессии на частичпь-х главных компонентах (РЬЭ), ридж • регрессии, эволюционного метода МГУЛ.
Вторая глава посвящена изложению новой методики, предназначенной для построения «рогвозирующих моделей QSPR.
В третьей главе описана программа "ЭММА", реализующая алгоритм.
В четвертой главе приводятся полученные модели расчета физико-химических параметров для энергетических нитросоединений и расчета характеристик рада реальных и гипотетических соединении.
В приложении приводятся формулы расчета основных характеристик моделей, получаемых программой "ЭММА".
СОДЕРЖАНИЕ РАБОТЫ
Основные положения методики построении линейных
моделей QSPR на основе функционального подхода.
Подавляющее большинство моделей и QSPR постулируется в виде регрессионного уравнения, получаемого на основе теории регрессионного анализа, основанной на предположении о существовании вероятностного закона распределения ошибок модели. Построение модели заключается в определении параметров этого закона. В разработанной нами методике определению подлежит функциональное соотношение между величинами. Получающиеся при этом невязки оцениваются с помощью какой-либо нормы в функциональном пространстве без дополнительных предположений.
Предлагаемый подход включает в себя:
• математическую постановку задачи,
- предположения о характере возникающих ошибок,
■ требования к алгоритмам построения моделей,
• критерии оценки и сравнения построенных моделей.
Постановка задачи.
Сформулируем задачу поиска линейной модели QSPR в виде:
A(«) = K0+K,Dl(.)+K1D1(»)+ ... + KmDm(*M с(*) (1),
где seS ■ соединения из обучающей выборки, A(s) • функция свойства, заданная своими значениями в точках seS, D[(s) - задаваемые функции от соединения. "Заданность" понимается в том смысле, что задан алгоритм, по которому для каждого соединении s можно вычислить значение D|(s), e(s) • неизвестная функция ошибки (невязка).
В этой модели определении ггодлеизтг
1) т - число дескрипторов в модели;
2) функции дескрипторов в модели Э^е!) из некоторого исходного фиксированного множества дескрнптороп Т>;
3) коэффициенты модели К|, 1«0,.,.,т.
Все параметры выбираются нз условия минимума максимальной
абсолютной погрешности тах|с(8)|->ш1п. Можно показать, что эквивалентным условием является минимизация суммы квадратов
ошибки что Делает оправданным применение метода
I
наименьших квадратов к задаче минимизации абсолютных значений ошибки.
Предположения о характере ошибок.
Важной характеристикой задачи, прямо влияющей на выбор метода, являются дополнительные предположения о характере возникающих ошнбок. Поскольку уравнение (1) трактуется как эмпирическая зависимость с запедомо большими погрешностями, то общие предположения об ошибках являются определяющими.
В настоящее время существуют два принципиально . различающихся подхода - статистический и функциональный.
В статистическом подходе предполагается, что невязки Распределены по некоторому статистическому закону н оцениваются 1араметры этого закона. Фактически это означает, что существует :пециальиый механизм • источник ошибок, приводящий к указанному >аспределению вероятностей. Применительно к (55РЯ применение :татнстнческого подхода автоматически предполагает справедливость следующих предположений) функция свойства - случайная величина, дескрипторы • не случайные
величины, а заранее определенные! функции; 1) невязки не смещены, не коррелнрованы, имеют одинаковые дисперсии и нормально распределены. Предположение о нормальности распределения ошнбок часто нраведлнво в силу центральной предельной теоремы. Она гласит: если шибки 1ВЛЯЮТСЯ суммой п возникающих по разным причинам ошнбок, о при возрастании п их распределение стремится к нормальному вне
зависимости от того, каково распределение вероятностей каждой из этих ошибок.
В случае справедливости этих предположений задача сводится к оценке параметров нормального распределения. Дополнительно появляется возможность получить доверительные оценки величин, полученные по выборке. Однако нарушение хотя бы одного из этих предположений делает вычисления по статистическому подходу точными и объективными только по форме. В случае (^РЯ будем предполагать, что основной источник ошибок - неадекватность модели, т.е.наличие больших шумовых вкладов в используемых дескрипторах. Поскольку в (ЗБРЙ моделях используется небольшое число дескрипторов, то применение центральной предельной теоремы неоправданно.
Функциональный подход применяется, когда постулируется функциональное соотношение между величинами и оцениваются получающиеся при этом невязки с помощью, например, среднеквадратичной нормы в функциональном пространстве. Искомую зависимость считают найденной, если норма невязок достаточно мала. Формально такой подход является вполне адекватным задаче О). Ясно, что это требование является весьма слабым, не гарантирует единственности полученного решения и сильно зависит от обучающей выборки.
В целом, имеются существенные возражении ' против использования статистического подхода в С^БРН. Функциональный подход более формально обоснован, однако требование минимизации нормы позволяет определить только коэффициенты К( в задаче (1). Для определения других параметров функциональный подход допускает введение дополнительных требований.
Прогнозирующая способность модели.
Еще большее различие обнаруживается между функциональным и статистическим подходами при анализе поведения модели (1) на тестовых (контрольных) соединениях, т.е. не входивших в обучающую выборку. Этот самый важный и самый трудный вопрос в (^БРИ практически не затрагивается при обсуждении большинства методов.
При статистическом подходе используется главное и очень мощное предположение: обучающая выборка достаточно адекватно отражает генеральную совокупность, т.е. потенциально неизвестные соединения,
которые позднее могут быть представлены на прогноз. Поэтому достаточно по обучающей выборке определить параметры вероятностного закона, действующего на всей генеральной совокупности (стандартное отклонение, доверительные интервалы, Р-критерий значимости модели, (-критерий значимости коэффициентов) и использовать их при прогнозе по новым соединениям. Такое предположение нуждается о дополнительном обосновании, иначе нет никаких оснований надеяться на правильный прогноз. Оно до некоторой степени обосновано, если потенциально известна вся генеральная совокупность н есть возможность специальным образом формировать обучающую выборку, что имеет место, например, в социологических исследованиях. В С^РП, как правило, выборки имеют сильно ограниченный объем и часто формируются без учета возможности их дальнейшей статистической обработки. Это делает сомнительным предположение, что статистические параметры, определенные по обучающей выборке (даже если существует нормальное распределение, достаточно адекватно описывающее обучающую выборку) сохраняют свое значение на контрольных соединениях. Еще одно возражение против статистического подхода заключается в том, что статистическая модель описывает генеральную совокупность р среднем, а нас интересуют, как правило, прогнозы ца отдельных соединениях, точность которых никак не гарантируется даже при адекпатной статистической модели. Кроме того, в (ЗБРЯ предположение о том, что линейная регрессионная модель достаточно точна на всем многообразии химических соединений представляется слишком оптимистичным.
Функциональный подход, не преодолевая окончательно указанные трудности, тем не менее позволяет разработать достаточно разумную стратегию. А именно: потребуем от описательной модели' (1) дополнительно хорошей прогнозирующей способности на заранее отобранной части обучающей выборки. Эта идея приводит к важным методологическим выводам, фактически отвечающим на вопрос: как надо строить прогнозирующие модели?
1. Контроль прогнозов прямо обеспечивает хоропую прогнозирующую способность модели на выбранных соединениях. Это дает основания надеяться на сравнимую точность при прогнозе на новых соединенях.
2. От модели не требуется универсальной прогнозирующей способности. Контрольные соединения, на которых проверяется прогноз, позволяют, до некоторой степени, описать множество соединений, для которых корректно предсказывать величину свойства по этой модели. Изменял это множество мы, вообще говоря, будем строить разные модели, ориентированные на прогнозы для разных классов соединений. Нереально требовать от модели хороших прогнозов на достаточно большом числе по-разному выбранных множеств контрольных соединений - среди них могут оказаться уникальные соединения, отсутствие которых может внести существенное искажение в модель.
3. Требование прогнозирующей способности можно рассматривать как фильтр для описательных моделей. Поскольку не определен формальный критерий прогнозирующей способности, необходимо строить множество описательных моделей с последующей проверкой качества прогнозов па контрольных соединениях.
4. Результатом такой процедуры, вообще говоря, является множество моделей, среди которых по имеющимся данным невозможно выбрать одну наилучшую. Поэтому применяемые алгоритмы должны позволять строить такое множество моделей.
Таким образом, прогнозы на отдельных соединениях являются одной из важнейших целей (^БРИ. Статистический подход позволяет обосновывать качество прогнозов в среднем, опираясь на сильные и труднопроверяемые начальные предположения. Функциональный подход позволяет контролировать прогнозирующую способность описательной модели.
Алгоритм построения линейных моделей.
Опираясь на изложенные выше принципы, в работе предложен алгоритм построения линейных моделей С^РЦ. В общих чертах он состоит в следующем.
1. Рассчитывается множество дескрипторов для каждого соединения обучающей выборки. Какой-либо специальный отбор дескрипторов не предполагается. Поскольку определяются простейшие линейные эмпирические зависимости типа (1), то для успешного моделирования сложных свойств желательно представительное множество разнотипных дескрипторов, достаточно полно в своей совокупности описывающих химический (топологический) граф
соединения. Чем больше дескрипторов принимается во внимание, тем более разнообразными н качественным)! становятся получающиеся модели, Допускаются и качественные дескрипторы типа наличия определенных молекулярных фрагментов н т.д. Сводятся также функции модификации дескрипторов ■ квадраты, логарифмы и т.д. Несомненна большая зависимость качества построенных моделей от используемых дескрипторов. Поскольку в данной работе конкретные дескрипторы не обсуждаются, ко всем выводам и результатам данной работы надо сделать оговорку: £ точностью по применяемых дескрнптороп.
2. Из исходного множества соединений выделяются обучающая н контрольная выборки, Контрольная выборка должна быть достаточно большой - не менее 10-12 % от обучающей выборки.
3. Исходное множество дескрипторов подвергается предварительной обработке. Многие дескрипторы заведомо не нужно включать в модель, Исключаются следующие дескрипторы:
1) константы;
2)дсскрнпторы, отличающиеся от констант па небольшом числе соединений;
3) слабо коррелированные с моделируемым свойством;
4. Оставшиеся дескрипторы проверяются на взаимную попарную коррелированное« и одни ю коррелируемой пары исключается.
На этапах 3-4 исключается подавляющее большинство дескрипторов. Непосредственно для построения моделей используется сравнительно небольшое число оставшихся дескрипторов, б. Для отбора дескрипторои в модели и построения моделей на оставшихся дескрипторах используются два алгоритма, являющихся модификациями пошагового метода:
1) алгоритм пошагового включеинп-нсключення на основе Р-критерия. Алгоритм имеет 3 параметра;
- порог для включения по частному Р-крнтерию;
• порог для исключения по частному Р-крнтерню;
• параметр исключения т. Дескрипторы, включенные в модель, проверяются на исключение после включения м дескрипторов;
2) алгоритм комбинирования дескрипторов. По этому алгоритму в модель сначала принудительно включается одни дескриптор, затем добавляются остальные по пошаговому алгоритму 1). Эта процедура автоматически повторяется для каждого дескриптора н выдается
описание всех построенных таким образом уравнений. Число одновременно построенных по этому алгоритму моделей не может превышать число используемых на этом этапе дескрипторов. Перед началом работы каждого алгоритма допускается принудительное включение произвольных дескрипторов в модель.
G, Одновременное построение множества моделей и их сравнительный анализ позволяет ответить на важные вопросы, па которые приходится отвечать пользователю подобных программ: какова характерная ошибка построенных моделей на данной выборке? Сколько дескрипторов целесообразно включать в модель? Есть ли в обучающей выборке соединешш-выбросы, на которых модели дают ошибку существенно выше средней и которые целесообразно исключить из обучающей выборки? и т.д.
7. Для построенных моделей можно получить следующие характеристики:
- коэффициент корреляции R на обучающей выборке;
- среднеквадратичную норму вектора ошибок прогноза на контрольной выборке;
• максимальную и среднюю ошибки модели на обучающей выборке;
- максимальную и среднюю ошибки модели на контрольной выборке;
• стандартное отклонение и F • статистику модели на обучающей выборке;
• ошибки прогноза по процедуре перепроверки ("cross-validation") на обучающей выборке;
- t-критсрии значимости коэффициентов в модели;
• нормализованные коэффициенты модели (коэффициенты модели для масштабированных к интервалу [0,1 ] свойства и дескрипторов).
8. Выбранные модели можно сохранить в текстовых файлах для последующего прогноза и ручного анализа. Эти файлы содержат: имена вошедших в модель дескрипторов, коэффициенты модели п все рассчитанные характеристики модели. В них содержатся также максимальные и минимальные значения свойства и вошедших в модель дескрипторов. Эта информация используется при прогнозе: если значения рассчитанных дескрипторов н/нлн предсказанной активности существенно выходят за указанные интервалы, то выдастся предупреждающее сообщение об имеющей место экстраполяции и снижении доверия к прогнозу.
Програыиная реализация ыетода.
Упомянутые алгоритмы реализованы в виде программного комплекса "ЭММА". Основные характеристики программы:
1) управление с помощью системы пеню;
2) возможность автоматической модификации всех дескрнпторов-включеине квадратов, логарифмов, отношений к числу атомов для всех дескрипторов;
3) возможность независимого подключения программ расчета дескрипторов, В настоящее время на Химическом факультете МГУ Басктшм И,И, Петелиным Д,Е и др. под руководством Палюлнна В,Л. разработан рпд программ, входящих в состав комплекса, позволяющих рассчитывать тысячи дескрипторов • топологические (индексы связности, индексы молекулярной формы, расширенные индексы Винера н др.); информационные (БКф Т1С|, С1С|); индексы, являющиеся функциями распределения зарядоп в молекулах (заряды на атомах вычислялись по методу Гастайгера); индексы, основанные на электроотрнцателыюстпх атомов; индексы, основанные на локальных инвариантах вершин; подструктурные дескрипторы и некоторые другие;
4) возможность автоматического и ручного выбора дескрипторов из попарно коррелированных;
б) просмотр диаграмм разброса вычисленных значений от экспериментальных в графическом режиме с идентификацией отдельного соединения;
6) изображение на экране соединений из обучающей выборки;
7) возможность накапливать, сравнивать, просматривать, исключать, сохранять на диске параметры построенных моделей в виде текстовых файлов, допускающих непосредственный анализ моделей;
8) просмотр диаграммы значений отдельного дескриптора для соединений из обучающей выборки с выдачей простых статистик.
Модели для расчета физико-хнынчсскнх параметров высокоэнергетических соединений.
Разработанный метод и реализующий его программный комплекс "ЭММА" были применены для поиска корреляций "структура -свойство" для энергоемких азотсодержащих соединений различных химических классов. Нами рассмотрены следующие свойства: энтальпия образования конденсированных молекулярных систем (ДН{°), термолиа
ннтросоедилоний в газовой фазе (энергия активации этой реакции Е1СТ), а также один из параметров, характеризующих чувствительность веществ к копровым испытаниям на удар (1150%, ЬЛБЬ 1ез1).
Как известно, для оценки энтальпии образования соединений широко используются аддитивные расчетные схемы, з также методы молекулярной механики и квантовой химии. Однако, эти методы дают значительную погрешность в вычислениях для полназотистых соединении. Параметры термолиза соединений (энергии активации реакции термического распада соединений), как указывалось выше, рассчитываются только полуэмпиричеекчм и хпантооохнммческнмн методами с низкой точностью. Что же касается такой важной характеристик» веществ как чувствительность к механическому удару, то для ее оценки в настоящее время надежные методы чрезвычайно малочисленны. С помощью разработанного метода удалось построить прогнозирующие (насколько позволяли это сделать сформированные базы данных) линейные модели для указанных свойств.
Модели строились по следующей схеме. Было рассчитано около 2000 дескрипторов для каждого соединения на каждой базе данных. После отбора наиболее значимых из них строились н отбирались десятки моделей, позволяющих рассчитать свойство с достаточной точностью на обучающих выборках. Прогнозирующая способность моделей проверялась на контрольных выборках объемом в среднем 10% от обучающих. После этого отбирались модели с наименьшей Ошибкой предсказанных значении свойства,
Следует иметь в виду, что построенные модели и используемые дескрипторы не могут претендовать на содержательность в химическом понимании взаимосвязи строения веществ и исследуемого свойства. Основной нашей целью явилась попытка построения таких моделей, которые обладают прогнозирующей способностью на интересующих нас классах соединений.
Энтальпия образования веществ (АН|°).
В настоящее время разработаны и используются аддитивные термохимические схемы расчета энтальпий образования азотсодержащих соединений (схемы Бенсона, Стайна, Лебедева, Вурассо и др.), которые дают сравнительно невысокую точность при прогнозировании для соединений с нсаддитивной природой этого свойства. Кроме того, для соединений из используемых нами выборок
величина энтальпии образования зависит не только от количества, но и от положения ннтрогрупп в структуре; что не учитывается существующими аддитивными схемами.
Для построения расчетных схем оценки энтальпии образования были созданы две базы данных. Первая состояла из 156 соединений и включала в себя иитроалнфатнческне соединения, содержащие эфирные, карбметокснльные н ацетамидные группы, алифатические ннтрамнны, содержащие трннитрометнльные, дифторамино-, динитрофторгруппнровкн, ннтрокснгруппы, а также циклические ннтрамнны, нитроароматнческне соединения и гетероциклические ннтрамнны.
Кроме того для этого свойства была создана база, состоящая нз 31 соединения класса ннтроамнноп. В таблице 1 представлены результаты прогнозов некоторых соединений по отобранной модели для этой базы :
ДН{° - • 22.24 - 11.73l"ln(s) + 1.19*SBE + б.13*бхр- l.l6*Eq (2),
R-0.98, s-6.9, F-307, ср. ошнбкя-5.0,
где S • Ван-дер-Ваальсова поверхность молекулы; SBE - энтальпия
связей в молекуле без учета стернческого напряжения (по
параметрам ММХ-88); ®Хр • индекс связности шестого порядка;
q.q.
Е = ]Г--'< где q, • заряд на атоме (по Гастангеру). p¡i ■ элемент
4 '.) Р»
матрици ослаблении индуктивного эффекта.
Для этого свойства проводилось сравнение расчетов с известными 1ДДИТИВНЫМН схемами Лебедева (1982), Бурассо (Bourasseau,1990) и 2таЛна (Stain,1992). В целом указанные схемы н модели QSPR дают :рав1шмукк точность прогноза, а на отдельных соединениях точность юделей QSPR даже превосходит точность аддитивных методов расчета нталыпш.
В таблице 1 представлены некоторые результаты расчетов, наполненных по схеме QSPR н ряду аддитивных схем (схеме Лебедева i схеме Бурассо).
IS
Таблица 1. Энтальпии образования (АН[° ,ккал/моль) ряда лнтросоединеннй (экспериментальные н расчетные значения) в твердо»
фазе при 298°К.
ДН^, ккал/моль
N Соединение аксп. Аддитивные схемы дэри
Лебедев Вурассо
1 (Н3С2)2 ~С(И02)-С(М02)2 Н3С "" СН2 -79.2 -63.56 •68.7 -66.28
2 нм- [<ш2)3с- сн2]2 -8 -39.02 •22.4 •16.58
3 мс^ - [(N05)30 - а%]2 -6.7 •14.36 2.7 •9.51
4 <Ш2)3£ ■21.3 •18.17 •11.3 ■18.07
(N02)30 - сн2
5 -72.4 -47.18 -69.6 •65.55
6 сн2 — 0Ы02 н3с~с <~СН2-ОШ2 х сн2 — ош2 -106.0 -105.66 •105.2 •111.57
7 с.н2 _ оыо2 N02-0 ^-СН2— сн3 4 СН2_ОЫ02 -87.8 -99.48 •91.2 •90.22
О — СН2 — СН2 — ©N02
8 1 сн2 — сн — сн2 1 1 сжо2 оыо2 •128.2 -102.47 •135.2 -126.71
В Таблице 2 представлены результаты расчетов ДН{° по представленной схеме для ряда гипотетических энергетических соединений.
Таблица 2. Энтальпии образования (ДН(° ,кхзл/моль) ряда гипотетических пнтросоединеннй в твердой фазе при 298"К.
N Соединение ДН,° N Соединенно АН °
1 ! -54.6 5 N 2 65.5
2 т-Т^цн 771' О N —N^1_С—Ы—N0 78.8 6 ^-ОЬ*10* оы—N0 100.8
2 2
3 он-/ N—N0 2 2 ■103.3 7 N0 ^ 1 ^ О N —N N N—N0 2 > < 2 0N — N N И— 2 V | V 2 42.2
4 N-N0. ОЫ—и Ы— 31.3 8 2 Vм" 82.1
Энергия активации реакции гоыолнза связей ннтросоединений а газовой фазе (Еакт, ккал/ыоль).
Модели корреляций "структура-свойство" строились на базе из 93 соединений, включающие ннтроалнфатическне, нитроароматнческие соединения, ннтроамнны и нитраты в диапазоне температур, характерных дли реакции термолиза соединений этих химических классов (100 • 200^С для иитроалифатическик ннтросоединений,. ЗАО • 500°С для иитроароматикн, 200 • 240РС для нитраынно»). Выбранная для получения прогнозов наиболее устойчивая модель приведена ниже:
Еакт - 90.71 - 30.09*К,/Ыа1 • 136.41*(шах 2.31**%М ■
1418.31»(чм)2 • 84.46*£Рг,/Ма4 + 6.79»£Рг2/Ма4 (3),
1М).94б, в-б.бЭ, Р—105, ср.ошибка »3.3, где N31 - число иеводородных атомов в молекуле; К| • топологический иидекс молекулярной формы (индекс Кира); тах •
макс, положительный л-заряд в л • системе по Хюккелю; 4
*рс
сольватацноиный индекс четвертого порядка; ^ • средний о-заряд на атомах азота (по Гастайгеру); рг4 - количество фрагментов вида
N—мо2;Рг2 • количество фрагментов вида •
-ч"
Одиннадцать соединений было отобрано п контрольную выборку. В таблице 3 приводятся результаты прогноза для контрольной выборки по представленной модели.
Таким образом, результаты выполненных исследований позволяют утверждать, что <2БРН подход может использоваться для оценки и прогнозирования энергии активации термолиза химических связей полназотистых соединений.
Таблица 3. Результаты расчетов Еакт реакции термолиза для
контрольной выборки.
N Соединение Еакт, ккал/моль
эксп. выч.
1 Триннтрометан 42.40 47.71
2 1,1 -Динитро-1 -фторэтан 47.70 45.23
3 1,1 -Динитро-1 -бромэтан 40.64 36.45
4 1 -Нитро-1,1 -дихлорпропан 42.67 40.09
5 М,М,М\1\Г-Тетрафтор-2-(3,Э-диннтро-3-
фторпропил]-2-метилметилендиамии 40.57 43.25
6 1 •[ 1,1 -Диннтроэтилтио1-2,4-дннитробензол 37.50 39.72
7 м-Нитрохлорбензол 70.20 64.97
в Этилдинитроамин 29.64 29.19
9 1,3,5-Тринитрогексагидро-1,3,5-триазин 34.20 38.11
10 Этилнитрат 39.90 38.92
11 Гексаннтрогексазаизовюрцитан 36.30 31.90
Чувствительность веществ к механическому удеру (ЬбО%)-
Как уже отмечалось, приемлемые методы расчета параметров чувствительности соединений к механическому удару практически отсутствуют. Пользуясь универсальностью предложенного метода, мы попытались построить прогнозирующую модель на доступной нам базе соединений (данные Лос-Аламосской Национальной лаборатории, США). Ваза данных состояла из 160 соединений различных химических классов; алифатических интрамннов, содержащих триинтрометильные, днфторамино-, фторднннтро-, ннтрокснгруппы, иитро алифатических соединений с эфирными, карбметоксильными, ацетамнднымн группами, циклических н гетероциклических интрамннов, ннтроароматнческих н гетероароматнческнх энергоемких соединений. Модели поиска корреляций "структура-свойство" строились для одного из параметров, характеризующих чувствительность веществ к копровым испытаниям на удар • 1)ьо% (50% • ая частость взрыва на копре ЬАЗЬ для груза в 2.5 кг).
Выло исследовано более 100 моделей и из лучших описательных моделей (П-0.9 - 0.92) отобраны уравнения, обладающие наибольшей предсказывающей способностью параметра В данной работе мы
представляем 2 модели: одна строилась по всей базе (В1), вторая - но подбазе, содержащей 30 соединений - (алифатические н циклические ннтрамнны (В2)). Модель для В2 описывается уравнением:
1п(Ь50уо) - П.З'БОМ/^ • 5.5* Ю"9^)4- 2.71*|1п(ш2))2/На| + 0.778*к3 - 0.015*ЕГМ • 60.40*АуЦ) • 0.02944, + 132.0 (4),
11-0.99, в-0.14, Г-140, ср ошибка-0.092, где • число неводородных атомов о молекуле;
50М-£|*1 - *11,кд • суммарный дмпольный момент, где суммирование
выполняется по связям атомов Iк|| - коэффициент, характеризующий гни связи по величине сродства к ьлектрону; Б* • топологический индекс, основанный на локальных инвариантах; ш2 • инвертированный модифицированный индекс Винера; - топологически/» индекс иолскулирной формы (индекс Кира); Егм • резонансная эшргни по Хюккелю; АуЦ) • средние мшчении "эффективных зарядов" дли иеводиродных атомов, вычисляемых из индуктивных констант; 1'| | •
число фрагментов, представляющих шестиатомные цепочки с одинарными связями и произвольными неводородными атомами.
В таблице 4 приводятся значения рассчитанные по этой
модели для некоторых соединений из В2.
Таблица 4. Экспериментальные и рассчитанные значения параметра 1150%
(ЬАБЬ тест)-
N Соединение Молекуляр- см
ная формула 9КСП Камлет* С^РЛ
1 Этнлендиннтрамин С2НвЫ<04 34 39 41
2 3-Нитраза-1,5-пентан-динитрамии С4Н10М6О6 39 62 53
3 3,6, - Дннитраза-1,в-октан-дииитрамнн СбНнЫ80в 53 77 57
4 2,2,4,7,9,9-гексанитро-4,7-дназадекон СцНиГ^Ои 72 41 50
5 2,2,4,77,10,12,12-окта-нитро-4,7 -диаза-тридекои СцН^ЫюО^ 44 41 45
6 Бис(2,2,2-тринитроэтнл)3,6-динитраза-1,8-октаидриоат СюНиМщОго 29 18 29
7 1,1,1,5,7,10,14.14.14-нона-нитро-3,12-диокса-4,11-ди-оксо-5,7.1О-трназатетрадекон С^МюЫ^Ои и 49 16
8 Метнлен-бис(4,4.4- С9Н12Ы8014 113 72 102
трнлитробутнрямид)
9 3,3,4,4-Тетраннтрогексан СбНцМОв 80 189 83
10 12,2,4,4 ,в,6.*гсксяннтрогсптам СуНю^О^ 29 57 33
* М. Камлет Материалы 6 симпозиума по детонации, 1976г., Кол о радо,США.
Следует отметить, что, несмотря на расчет большого количества дескрипторов для этого свойства и попытки ввести дополнительные дескрипторы в модели, нам не удалось получить устойчивых моделей с Я>0.92. Поскольку точность исходных величин превосходит точность построенных моделей, это позволяет сделать вывод о наличии дополнительных факторов, влияющих на величину Ь50%, не только имеющих неаддитивную природу, но и вообще слабо обусловленных топологией соединения. В качестве таковых можно предположить
2(1
влияние кристаллической структуры, дефектности образцов, и некоторые другие причини, совокупность которых обуславливает механизм реализации этого трудноформализуемого явления.
Основные результаты н выводы.
1. Разработан метод выявления взаимосвязей " структура ■ свойство" для описания широкого круга свойств органических соединений. Метод базируется на функциональном, а не на статистическом подходе к выяпленню этих взаимосвязей н позволяет оценить как среднеквадратичные, так и абсолютные ошибки моделей корреляций "структура-спойство". Он универсален и не требует специальной настройки на отдельное свойство, а также применении специфических дескрипторов.
2. Предложены и реализованы методы оценки предсказывающей способности построенных моделей. Они основаны на построении множества описательных моделей на отобранном фиксированном множестве дескрипторов и последующей их проверки на прогнозирующую способность на заданном множестве контрольных соединений. Эти методы позволяют строить устойчивые модели на малых и средних базах соединений.
3. Дли оценки корреляций созданы эффективные алгоритмы, реализованные в виде компьютерной программы "ЭММА" для 1ВМ РС АТ 286/386/486.
4. Па основе разработанной методики и реализующей ее программы "ЭММЛ" на примере энергетических соединений созданы эффективные схемы расчета ряда параметров:
4.1. Схемы расчета энтальпий образования полиазотистых соединений в жидкой и твердой фазах, позволяют рассчитывать эти характеристики с высокой точностью.
4.2. На основе разработанных схем расчета параметров термической стабильности (энергии активации реакции гомолнза связен в газовой фазе) и параметров чувствительности веществ к механическому удару (1»50%) рассчитаны характеристики ряда реальных и гипотетических соединений.
5. Выполненные расчеты позволили предсказать физико-химические параметры ряда азотсодержащих соединений различных химических классов.
Основные результаты диссертационной работы изложены в следующих публикациях:
1. Tailana S. Pivlna, Marina S. Molchanova, Vladimir
A.Shlyapochnikov, Dmllrii V. Sukhachev, Xiao Hemi'ng, Lu Lu De, Yu Dal Heng, Qong Xtie Dong. Mexogen and its homological series structure, properties, perspective. Eighteenth International Pyrotechnics Seminar, Breckenridge, Colorado, 13-17 July 1992, pp. 685-700.
2. Т.С.Пивиня Д.В.Сухачев,В. А.Шляпочников, H.С.Зефиров. Компьютерный скрининг иитросоединеннй с заданной чувствительностью к удару. Доклады РАН, 1992, т.327, №.4-6, стр. 536-540.
3. Д.В.Сухачев, Т.С.Пивина, В.А.Шляпочников, Э.А.Петров,
B.А.Палюлин, Н.С.Зефиров. Исследование количественных соотношений "структура-чувствительность к удару" органических полиазотистых веществ. Доклады РАН, 1993, т.328, №.2, стр. 50-57.
4. Т.С.Пивина, Д.В.Сухачев, Л.К.Мяслова, В.А.Шляпочников, академик Н.С.Зефиров. Исследование корреляций структуры-параметры термической стабильности нитросоединений на основе QSPR. Доклады РАН, !993,т.330,М°3, стр. 339-343.