Методология построения количественных моделей связи "структура-свойство" для разнородных выборок органических соединений тема автореферата и диссертации по химии, 02.00.03 ВАК РФ

Иванова, Анна Александровна АВТОР
кандидата химических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2007 ГОД ЗАЩИТЫ
   
02.00.03 КОД ВАК РФ
Диссертация по химии на тему «Методология построения количественных моделей связи "структура-свойство" для разнородных выборок органических соединений»
 
Автореферат диссертации на тему "Методология построения количественных моделей связи "структура-свойство" для разнородных выборок органических соединений"

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМ М В ЛОМОНОСОВА

Химический факультет

На правах рукописи УДК 541 6

ИВАНОВА АННА АЛЕКСАНДРОВНА

МЕТОДОЛОГИЯ ПОСТРОЕНИЯ КОЛИЧЕСТВЕННЫХ МОДЕЛЕЙ СВЯЗИ «СТРУКТУРА - СВОЙСТВО» ДЛЯ РАЗНОРОДНЫХ ВЫБОРОК ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

02 00 03 - Органическая химия

Автореферат диссертации на соискание ученой степени кандидата химических наук

Москва 2007

□03 17Б818

003176818

Работа выполнена в лаборатории органического синтеза кафедры органической химии Химического факультета Московского государственного университета им М В Ломоносова и в группе Высокоэнергетических соединений Института физиологически активных веществ РАН

Научный руководитель: кандидат химических наук, ведущий научный

сотрудник Палюлин Владимир Александрович

Официальные оппоненты: доктор химических наук, профессор

Пивина Татьяна Сергеевна (Институт органической химии РАН, г Москва)

доктор физико-математических наук Померанцев Алексей Леонидович (Институт химической физики РАН, г Москва)

Ведущая организация ГУ НИИ Биомедицинской химии

им В H Ореховича РАМН

Защита состоится "19" декабря 2007 г. в 11 часов на заседании Диссертационного совета Д 501 001 69 по химическим наукам на Химическом факультете Московского государственного университета им M В Ломоносова по адресу 119991, Москва, Ленинские горы, дом 1, стр 3, Химический факультет, аудитория 337

С диссертацией можно ознакомиться в библиотеке Химического факультета МГУ им М В Ломоносова

Автореферат разослан "19" ноября 2007 г

Ученый секретарь

диссертационного совета Д 501 001 69 д х н , проф

МагдесиеваТ В

Актуальность проблемы. Поиск закономерностей в характере изменения различных свойств молекул в зависимости от их строения является одной из важнейших задач теоретической органической химии Найденные закономерности можно использовать для прогнозирования свойств химических соединений, поиска новых соединений с заданным набором свойств, а также для систематизации молекул определенного класса Несмотря на наличие в литературе достаточно большого числа различных количественных зависимостей "структура-свойство" (С)8Р11-моделей), предложенных в основном для гомологичных выборок органических соединений, проблема построения (ЗБРЯ-моделей, описывающих свойства разнородной выборки органических веществ, по-прежнему представляется не вполне решенной Четкие методологические правила построения подобных моделей в явном виде до сих пор не сформулированы, кроме того, в таких моделях часто используются параметры (дескрипторы), требующие достаточно сложных вычислений, но не дающие значительного улучшения статистических характеристик модели по сравнению с более простыми дескрипторами Таким образом, исследование проблемы моделирования связи "структура-свойство" и развитие методологии построения С^РК-моделей для разнородных выборок органических соединений представляется весьма важной и актуальной задачей

Цель работы. 1) Построение устойчивых количественных моделей "структура-свойство" для разнородных выборок органических соединений, описывающих различные физико-химические свойства температуру кипения, удельную теплоемкость, константу ионизации (рКа), энтальпию и энтропию фазового перехода из твердого состояния в жидкое, 2) определение дескрипторов, наиболее применимых при построении С^БРИ-моделей для каждого из моделируемых свойств соединений, 3) разработка общего подхода к построению количественных моделей "структура-свойство" для разнородных выборок органических соединений с использованием метода линейно-регрессионного анализа и искусственных нейронных сетей

Научная новизна. Разработан новый подход к построению количественных зависимостей "структура-свойство" для разнородных выборок органических соединений Он включает 1) разделение общей выборки на группы структурно родственных соединений, 2) поиск "ведущего" дескриптора, позволяющего получить наилучшие однопараметровые <58РК-зависимости для каждой отдельной группы соединений, 3) поиск набора наиболее значимых "корректирующих" дескрипторов для каждой группы соединений, 5) фильтрацию незначимых и взаимно коррелирующих дескрипторов; 6) проверку прогностической способности модели

Предложенный подход успешно применен для построения количественных линейно-регрессионных и нейросетевых моделей "структура-свойство" для нормальной температуры кипения, удельной теплоемкости, энтальпии и энтропии фазового перехода из твердого состояния в жидкое и констант ионизации различных органических соединений При этом для значений

энтальпии и энтропии фазового перехода были впервые построены модели вида "структура-условие-свойство", содержащие в качестве дополнительной независимой переменной величину температуры, что существенно расширяет практическое использование таких моделей

Практическая значимость. Построенные количественные зависимости "структура-свойство" позволяют достаточно быстро и с высокой степенью надежности оценивать значения рассматриваемых свойств органических соединений Это представляется особенно полезным в тех случаях, когда необходимо оценить значения того или иного свойства сразу для достаточно большого числа соединений

Предложенные в работе модели могут быть использованы для дизайна новых химических структур с заданными свойствами, что является актуальной проблемой современной химической науки

Разработанные методологические основы построения QSPR-моделей для разнородных выборок органических соединений могут быть использованы при создании новых эффективных алгоритмов для исследования количественных соотношений "структура-свойство" и "структура-активность"

Апробация работы. Материалы диссертации доложены и обсуждены на II и III Всероссийских конференциях "Молекулярное моделирование" (Москва, 2001, 2003), II Конференции "Информационно-вычислительные технологии в решении фундаментальных и прикладных научных задач" (Москва, 2003), II Российской школе-конференции "Молекулярное моделирование в химии, биологии и медицине" (Саратов, 2004)

Публикации. По теме диссертации опубликованы 4 научные статьи и 4 тезиса докладов на конференциях

Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения, выводов, списка литературы (198 работ), приложения Общий объем диссертации составляет 186 страниц, включая 29 рисунков и 29 таблиц

ОСНОВНОЕ СОДЕРЖАНИЕ И РЕЗУЛЬТАТЫ РАБОТЫ

Во введении формулируется цель и обосновывается актуальность темы диссертационной работы, указываются основные направления исследования

Первая глава посвящена обзору литературных данных по теме диссертационной работы Рассмотрены современные статистические методы построения QSPR-моделей, кратко изложены основные принципы множественного линейно-регрессионного анализа (MJIP) и метода искусственных нейронных сетей (ИНС) Представлена классификация и основные типы дескрипторов, используемых в QSPR-моделировании

Рассмотрены опубликованные на сегодняшний день С^РЫ-модели, построенные для моделируемых в работе свойств органических соединений, а именно, для нормальной температуры кипения, удельной теплоемкости, энтальпии и энтропии фазового перехода из твердого состояния в жидкое, констант ионизации Проведено сравнение результатов, полученных методами МЛР и ИНС для различных выборок соединений с использованием разных типов дескрипторов

Во второй главе исследована принципиальная возможность построения единой модели "структура-свойство" для разнородной выборки органических соединений на примере температуры кипения алканов и карбоновых кислот

Несмотря на наличие в литературе примеров построения С>8Р11-моделей для неоднородных выборок соединений, существует устойчивое мнение, что добротные С^РК-модели могут быть построены только для выборки структурно и функционально схожих соединений С целью исследования данной проблемы были рассмотрены две базы данных (БД) по нормальным температурам кипения (Гкип) алканов (39 соединений) и одноосновных карбоновых кислот (26 соединений)

В данной работе построение всех С^РЫ-моделей осуществлялось с помощью программного комплекса разработанного на химическом

факультете МГУ им МВ Ломоносова и предназначенного для С^РЯ -моделирования на топологическом уровне Данная программа позволяет строить как линейно-регрессионные, так и нейросетевые количественные модели связи "структура-свойство" При этом в комплексе МА8А\УШ реализовано достаточно большое число дескрипторов разного типа, среди которых следует выделить дескрипторы элементарного уровня, топологические дескрипторы, включая индекс Винера, индексы Кира, индекс Рандича и их модификации, фрагментные дескрипторы, дескрипторы водородных связей, атомные заряды и др Кроме того предусмотрена возможность подключения дескрипторов, рассчитанных с помощью других программ

Известно, что топологический индекс Рандича х% достаточно хорошо коррелирует с температурой кипения отдельных классов органических соединений Поэтому для каждого из рассматриваемых классов были построены линейно-регрессионные модели "структура-свойство" вида Ткип = а1Х + Ь С^РЯ-модель, полученная для алканов, описывается уравнением Ткш --130,47 + 67,50'^ и имеет следующие статистические параметры К2 = 0,9768, Р = 1561, 5 = 7,6 °С (В. - коэффициент корреляции, Р - критерий Фишера, -стандартное отклонение), а модель, построенная для карбоновых кислот, характеризуется уравнением Ткш = 55,95 + 37,591/, Я2 = 0,9665, F = 692, £ = 6,1 °С Полученные зависимости представлены на рис 1

Поскольку в обоих случаях статистические параметры полученных моделей оказались достаточно высокими, была предпринята попытка построения общей модели "структура-свойство" для этих классов соединений с использованием только индекса Рандича Для этого обе однородные выборки

были объединены в одну общую БД, содержащую 65 соединений. Однако (^ЭРЛ-модель, построенная с использованием индекса Рандича для общей БД (рис. 1в), обладает достаточно низким качеством Я2 = 0,6015, F = 95, 5 = 44,0 °С и описывается уравнением Ттп = -96,78 + 67,12';^. На рис. 1в отчетливо видно, что корреляционная зависимость, полученная для таких функционально различных классов соединений как алканы и карбоновые кислоты, представляет собой две отдельные группы точек, соответствующие каждому из двух рассматриваемых классов соединений. Можно предположить, что улучшение корреляции может быть осуществлено путем добавления в ОЭРК-уравнение дополнительных переменных - корректирующих дескрипторов (Аюрр)- При этом наиболее перспективными представляются фрагментные дескрипторы, характеризующие структурные отличия рассматриваемых классов соединений. Очевидно, для исследуемой выборки соединений таким корректирующим дескриптором может быть один из следующих индексов: число двойных связей (=), число карбонильных атомов кислорода (=0), число гидроксильных (ОН) или карбоксильных (СООН) групп, так как именно они отражают структурное отличие алканов от карбоновых кислот. Поэтому была построена корреляционная зависимость для общей БД алканов и карбоновых кислот с использованием индекса Рандича и фрагментного дескриптора. При этом были получены следующие статистические параметры: Я2 = 0,9623, /*' -792,5= 13,7 °С.

а) о 150 -

и 100 -

§ £ 50 - А*

1 100 I -50, -50 - 0 1 1 ■ 50 100 150

♦ -100 - Ткип (эксп.), °С

50

100

150

Т

' а*!

200 250 кип (эксп.), °С

о

о

Н О,

с

200

100 -

-100

300

-ю5

-100 -1

(эксп.),

-100

100

200

(эксп.), °С

♦ Алканы о Карбоновые кислоты

♦ Алканы о Карбоновые кислоты

Рис. 1. ОЗРЯ-зависимости, построенные для Ткип: а) алканов, б) карбоновых кислот, в) общей БД с использованием только индекса г) общей БД с использованием индекса 1 % и фраг ментного дескриптора.

Сравнивая результаты моделирования, полученные при использовании только индекса Рандича и индекса хх вместе с фрагментным дескриптором, нельзя не отметить существенного вклада фрагментного дескриптора в улучшение статистических параметров и общего вида корреляционной зависимости

Таким образом, была проиллюстрирована возможность построения С^РЫ-модели для разнородной выборки соединений В общем виде корреляционное уравнение для модели имеет вид Р - Огхд + Отрр + С, где Р -

моделируемое свойство, Д,ед - ведущий дескриптор, 2АоРР - набор корректирующих дескрипторов, С - свободный член

Третья глава посвящена изучению применимости предложенного в главе 2 подхода к построению количественных моделей "структура-температура кипения" для разнородной выборки органических соединений

Сформированные по литературным источникам базы данных содержали значения температуры кипения при нормальных условиях (Ттп) для алканов, алкенов, алкинов, диенов, циклоалканов, циклоалкенов, галогензамещенных алканов, галогензамещенных алкенов, предельных одноатомных спиртов, галогензамещенных спиртов, предельных диолов, предельных карбоновых кислот, предельных и непредельных альдегидов и кетонов, сложных эфиров, первичных, вторичных и третичных аминов, пиридинов, сульфидов, тиофенов, и ароматических соединений с различными заместителями В каждую БД вошло не менее десяти соединений, а число атомов углерода в соединениях не превышало восемь Также были сформированы БД, объединяющие небольшое число структурно подобных классов соединений в группы Основным критерием разделения на группы являлось не количество классов в каждой группе, а их структурное сходство Всего было сформировано восемь БД для следующих групп 1) алканы, алкены, алкины, диены, циклоалканы, циклоалкены, 2) галогензамещенные алканы и галогензамещенные алкены, 3) ароматические соединения, 4) спирты, диолы, 5) галогензамещенные спирты, 6) карбоновые кислоты, сложные эфиры, предельные и непредельные карбонильные соединения, 7) амины и пиридины, 8) сульфиды и тиофены Общая БД состояла из 20 классов органических соединений и содержала значения Ткип для 813 соединений

Наилучшие результаты (ЗБРЯ-моделирования температуры кипения отдельных классов соединений были получены при использовании сольватационного индекса При этом самый низкий коэффициент

корреляции соответствовал модели, построенной для диолов Я2 = 0,4238, я = 19,1 °С Наиболее высокие коэффициенты корреляции были получены для циклоалканов (Д2 - 0,9910, 5 = 4,65 °С), циклоалкенов (Л2 = 0,9849, 5 = 4,9 °С), сульфидов (Я2 = 0,9845,5 = 4,0 °С), сложных эфиров (К1 = 0,9812,5 = 4,8 °С)

Попытка построения общей модели "структура-свойство"для всей выборки с использованием одного лишь индекса к удовлетворительным результатам не привела (Рис 2) Полученное однопараметровое

корреляционное уравнение Ткт = -68,47+56,26';^ имеет следующие статистические параметры: Я2 = 0,7543, 2490, 5 = 29,9 °С.

Рис. 2. ОБРН-модель, построенная для температуры кипения разнородной выборки соединений с использованием только сольватационного индекса V-

Далее для каждой группы соединений был проведен поиск "корректирующих" дескрипторов. Каждая БД была разделена случайным образом на обучающую и контрольную выборки и для каждой из групп было проведено построение ОБРЯ-моделей с использованием индекса 1 ^ в качестве ведущего дескриптора, а в качестве корректирующих были опробованы все типы дескрипторов, реализованные в программном комплексе ЫАБА'ШМ. При этом наиболее статистически значимыми оказались фрагментные дескрипторы.

Для группы углеводородов, кроме индекса и фрагментных

дескрипторов в уравнение вошел индекс Винера Ж, который, как и индекс характеризует размер и степень разветвленности молекулы.

После завершения поиска наиболее перспективных корректирующих дескрипторов стало возможным построение общей ОБРЯ-модели. Для этого, общая БД была разделена на обучающую (732 соединения) и контрольную (81 соединение) выборки.

Построение общей модели проводилось с помощью индекса и всех корректирующих дескрипторов, выявленных на предыдущем этапе работы. Полученная модель содержит 12 дескрипторов и характеризуется следующими статистическими параметрами: Я2 = 0,9510, Р = 1162, 5 = 13,6 °С, ЯМЗо5уч = 13,5 °С, ЛМ!>К0„Тр= 11,6 °С (КМб'-среднеквадратичная ошибка). Далее был проведен анализ и фильтрация взаимно коррелирующих дескрипторов, а также анализ веса дескрипторов по значениям критерия Стьюдента (¿-критерий), что позволило получить новую (^РЛ-модель, содержащую на 2 фрагментных дескриптора меньше (Я2 = 0,9506, Р = 1389, 5 = 13,7 °С, ЛШобуч = 13,5 °С). Фрагментные дескрипторы, вошедшие в итоговую ОЗРИ-модель для Ткш:

=о С1-№ =с-о- С5р3-8-

-ОН СН2СН2ОН =С-С=

Проверка прогностической способности полученной модели была осуществлена путем оценки значений температуры кипения 81 соединения, вошедшего в независимую контрольную выборку (рис. 3). Полученная среднеквадратичная ошибка предсказания составила ЯМ8контр = 11,5 °С.

Рис. 3. Соотношение экспериментальных и рассчитанных значений температуры кипения для контрольной выборки соединений.

С целью дальнейшего улучшения модели, полученной для температуры кипения, было проведено (^Ш-моделирование с использованием метода искусственных нейронных сетей (ИНС). Использовалась трехслойная нейронная сеть прямого распространения с общей архитектурой Ывх - Л^кр -Лвых. где Л'вх - число нейронов во входном слое, ЛгС|ф — число нейронов в скрытом слое, 7УВЬ1Х - число нейронов в выходном слое нейросети. Число нейронов в скрытом и входном слое соответствует сумме 7Ускр = Л^сиг-скр + Ъ и ,/Увх ~~ Nсиг-вх + Ь, где ЛГСИГ -скр и Л^сиг.вх — число сигмоидных нейронов в скрытом и входном слое, соответственно, а Ь - один псевдонейрон смещения. При этом были использованы все 10 дескрипторов, вошедших в итоговое линейно-регрессионное уравнение. Таким образом, количество сигмоидных нейронов во входном слое было равно Л^иг_вх = 10, а общее число нейронов — =11. Выходной слой содержал один нейрон, соответствующий моделируемому свойству — температуре кипения. Обучение нейросети проводилось с помощью метода обобщенного дельта-правила с параметром скорости обучения 0,05 и значением параметра "момента" обучения 0,25 и останавливалось по достижению наименьшей ошибки прогноза.

Для нахождения оптимального числа сигмоидных нейронов в скрытом слое были построены модели, содержащие от двух до семи таких нейронов. Полученные результаты показали, что оптимальной является ИНС с архитектурой 11-6-1. При этом была получена наилучшая (^БРИ-модель с Л2 = 0,9710, ЛМ8,обуч = 10,6 °С, /?М5контр = 10,0 °С (рис. 4). Использование меньшего или большего числа сигмоидных нейронов в скрытом слое приводило к снижению коэффициента корреляции и росту среднеквадратичного отклонения.

Рис. 4. Соотношение экспериментальных и предсказанных значений Тки„, полученное с помощью метода ИНС для обучающей выборки соединений.

Можно отметить заметное улучшение статистических характеристик в нейросетевой модели по сравнению с линейно-регрессионной. В частности, коэффициент корреляции увеличился от Л2(млр) = 0,9506 до /?"(инс) = 0,9710, а значения среднеквадратичных ошибок снизились от ЛМ50буч (млр) ~ 13,5 °С до ЯМ80буч (инс) =10,6 °С для обучающей выборки и от ЯМ8К0НЦ1 (млр) = 11,5 °С до

0 50 100 150 200 250

Ткип (эксп.), °С

Рис. 5. Соотношение экспериментальных и предсказанных значений Т-полученное для контрольной выборки соединений.

Таким образом, предложенный метод последовательного построения С>8Р11-модели для разнородной выборки соединений показал свою применимость для оценки значений температуры кипения разнородной выборки органических соединений. Данный метод включает в себя следующие основные этапы: 1) поиск ведущего дескриптора; 2) поиск корректирующих дескрипторов для групп структурно схожих классов; 3) построение модели для

общей выборки соединений с использованием всех найденных дескрипторов, 4) фильтрацию малозначимых и взаимно коррелирующих дескрипторов

Полученные результаты также показали, что для большинства классов органических соединений температура кипения хорошо коррелирует с сольватационным индексом, индексом Винера и фрагментными дескрипторами, которые в свою очередь легко рассчитываются и интерпретируются Модель, предложенная в настоящей работе для оценки температуры кипения органических соединений, основана на учете числа небольших фрагментов и поэтому является достаточно универсальной и применимой к молекулам различного размера

В четвертой главе с целью проверки применимости и дальнейшего развития метода построения С^РЯ-моделей для разнородных выборок, использованного в главе 3, было проведено построение регрессионной модели "структура-свойство" для значений удельной теплоемкости органических соединений (Суд)

В составленную по литературным источникам базу данных по значениям удельной теплоемкости были включены такие классы соединений как алканы, алкены, алкины, диены, циклоалканы, циклоалкены, галогензамещенные алканы, галогензамещенные алкены, различные ароматические соединения, спирты, карбоновые кислоты, карбонильные соединения, сложные эфиры, амины, ароматические амины, нитрилы, пиридины, сульфиды, тиофены и полифункциональные соединения Общий объем БД составил 842 соединения

В отличие от БД, сформированной для значений температуры кипения (глава 3), строгое разделение БД по значениям теплоемкости на классы соединений оказалось затруднительным Это связано с большей структурной разнородностью данной БД и полифункциональностью структур Кроме того, некоторые отдельные классы соединений, вошедшие в БД, содержат достаточно небольшое количество представителей Следует отметить, что такой случай разнородной базы данных представляется значительно более распространенным на практике, чем разнородная, но хорошо структурированная БД, использованная нами для О 8РР.-моде лиро вания температуры кипения В связи с этим БД была разделена не на отдельные классы, а на группы соединений, имеющих сходство в элементном составе, что в большей степени соответствует базам, сформированным для групп классов, рассмотренных в главе 3 Основным критерием такого разделения БД была схожесть соединений по элементному составу. В частности, было сформировано 6 отдельных выборок, а именно для углерод-, азот-, серу-, кислород-, галогенсодержащих соединений и соединений, содержащих несколько гетероатомов

Далее было осуществлено построение частных регрессионных моделей "структура-свойство" для полученных баз данных Как и при моделировании температуры кипения (главы 2, 3), был проведен поиск ведущего дескриптора При этом для четырех из шести групп наилучший коэффициент корреляции

был получен при использовании индекса меры молекулярного объема, Vx Поэтому именно Vx был выбран в качестве ведущего дескриптора

Данный индекс был также использован для построения однопараметрового корреляционного уравнения для общей БД Суд = 5,04+2,08 Vx, R2 = 0,9348, F = 12038, s = 27,5 Дж моль"1 К"1 При этом, как и ожидалось, построение общей модели с использованием дескриптора молекулярной массы (R2 = 0,6839, s = 60,6 Дж моль"1 К"1) индекса Винера W (R2 = 0,7914, s = 49,2 Дж моль"1 К"1), индекса Рандича У (R2 = 0,8972, л- = 34,6 Дж моль"1 К"1) и индексов У (R2 = 0,8787, s = 37,5 Джмоль"1 К"1) и У (R2 = 0,9017, s = 33,8 Дж моль"1 К"1), привело к более низким результатам

В главе 3 было показано, что корреляция, полученная для разнородной выборки с использованием одного ведущего дескриптора, может быть улучшена путем добавления специфических фрагментных корректирующих дескрипторов В связи с этим, для каждой отдельной группы соединений был осуществлен поиск наиболее значимых фрагментных дескрипторов Для каждой рассматриваемой группы были построены двухпараметровые QSPR-модели с использованием индекса Vx и одного фрагментного дескриптора При этом с помощью программы NASA WIN осуществлялся перебор возможных фрагментных дескрипторов, включая линейные, разветвленные и циклические фрагменты с количеством атомов от одного до шести Использование фрагментных дескрипторов привело к росту коэффициентов корреляции и значительному снижению значений стандартного отклонения для каждой группы соединений Например, для галогенсодержащих соединений при использовании одного индекса Vx был получен коэффициент корреляции R2 = 0,4984 и стандартное отклонение s = 24,4 Дж моль"1 К"1, тогда как использование дополнительного фрагментного дескриптора позволило получить R1 = 0,7529 и s = 15,9 Джмоль"1 К"1 Отметим, что в большинстве случаев в уравнения вошли дескрипторы учитывающие достаточно короткие и простые фрагменты В частности, в уравнение, полученное для углеводородов, вошел дескриптор, описывающий цепочку из эр'-гибридизованного атома углерода, соединенного простыми связями с метальной группой и с атомом углерода любого типа (Fr4) В уравнение, полученное для азотсодержащих соединений, вошел дескриптор, учитывающий число ЫНг-групп (Frl) Аналогичным образом, наиболее значимым для кислородсодержащих соединений оказался дескриптор числа гидроксильных групп (Fr2) QSPR-уравнение, найденное для группы галогензамещенных алифатических и ароматических углеводородов, содержало дескриптор, описывающий число атомов фтора (Fr3) Следует отметить, что в данную группу вошло достаточно большое число соединений, одновременно содержащих атомы фтора и какой-либо другой тип галогена Поэтому, вошедший в уравнение дескриптор оказывается достаточно важным при рассмотрении соединений такого типа В QSPR-модель, полученную для группы соединений, содержащих атом серы, вошел фрагментный дескриптор, характеризующий достаточно длинную цепочку из трех Бр3-гибридизованных атомов углерода и двух атомов серы, соединенных простыми связями (Fr6) Дескриптор, описывающий четыре атома

любого типа, соединенных между собой тремя простыми связями (Рг5), оказался наиболее значимым среди фрагментных дескрипторов, опробованных для группы соединений с несколькими гетероатомами.

Далее было осуществлено построение ОБРЯ-модели для всей БД. Для этого общая БД по удельной теплоемкости была разделена на обучающую и контрольную выборки (758 и 84 соединений, соответственно). При построении модели "структура-свойство" было использовано 7 дескрипторов, найденных при моделировании групп соединений. Полученная модель 4.1 характеризуется следующими статистическими параметрами: Я2 ~ 0,9709, У7 = 3580, 5 = 18,2 Дж-моль'-К"1, ЯШ.о6уч = 18,1 Дж-моль'1-К"1, ЯМ8К0тр = 22,2 Дж-моль'-К"1 и описывается уравнением: Суд = -8,02+2,14^+28,23Бг1+42,09Рг2+7,67РгЗ-2,3 9Бг4+1,09Бг5-21,15Бг6

Для оценки значимости дескрипторов, вошедших в уравнение 4.1, для каждого из них был осуществлен расчет значений ¿-критерия. Было найдено, что все дескрипторы характеризуются высокими значениями ¿-критерия, а наибольшее значение (г = 90,62) соответствует индексу Ух, что является дополнительным подтверждением ведущей роли данного индекса.

С целью выявления взаимно закоррелированных дескрипторов была построена матрица взаимных корреляций дескрипторов. На основе полученных результатов из уравнения был исключен дескриптор Рг5. Таким образом была построена С^РЫ-модель 4.2, содержащая 6 дескрипторов: Суд = -13,35+2,22Р+28,42Рг1 +43,23Рг2+9,24РгЗ-2,04Рг4-21,19Рг6 (модель 4.2) Я2 = 0,9703, ^ = 4083, 5 = 18,4 Дж-моль'-К"1, ЯШобуч = 18,3 Дж-моль'-К-1. Фрагментные дескрипторы, вошедшие в ОБРЯ-модель для Суд:

Рг1: -Ш2 РгЗ:-Р

Рг2: -ОН Рг4: НзС-С^-С

Ргб: С^-С^-С^-Б^Н

Полученное соотношение литературных и предсказанных значений удельной теплоемкости для контрольной выборки соединений представлено на рис. 6.

О 200 400 600 800

Суд (эксп.), Дж/(моль-К)

Рис. 6. Соотношение экспериментальных и предсказанных значений теплоемкости, полученное для контрольной выборки соединений.

Данные соединения не участвовали в построении общей модели 4.2. Как показано на рис. 6, 08РЯ-модель обладает достаточно высокой прогностической способностью и точки на графике лежат достаточно близко к линии тренда. Значение среднеквадратичной ошибки для контрольной выборки составило ЛМ?К0НТр= 21,8 Дж-моль"1-К"1.

На следующем этапе работы была предпринята попытка дальнейшего улучшения предсказательной способности полученной модели с помощью метода ИНС. В соответствии с числом дескрипторов, вошедших в уравнение 4.2, число нейронов во входном слое составило Л^вх = Л^сиг + 1 = 7, а выходной слой нейросети содержал один нейрон, соответствующий моделируемому свойству - удельной теплоемкости. Полученные результаты моделирования показали, что наилучшими статистическими параметрами обладает модель с архитектурой 7-3-1 (Я2 = 0,9730, ЯМБобуч = 17,5 Дж-моль'-К"1, ЛМ5тятр = 20,6 Дж-моль"'-К"1 (модель 4.3). Полученные зависимости представлены на рис. 7.

0

200

400 600 800 0 200 400 600 800

Суд (эксп.), Дж/моль«К Суд (эксп.), Дж/моль-К

Рис. 7. Соотношение экспериментальных и предсказанных значений Суд, полученное с помощью метода ИНС: а) для обучающей выборки; б) для контрольной выборки соединений.

Таким образом, представленные в данной главе результаты (ЗБРЯ-моделирования подтвердили применимость используемого в работе подхода к построению моделей "структура-свойство" для значений теплоемкости разнородной выборки органических соединений. При этом, для поиска корректирующих дескрипторов был успешно использован более общий принцип деления общей БД на отдельные группы, основанный не на принадлежности структуры к тому или иному классу соединения, а на элементном составе входящих в БД структур.

Пятая глава посвящена построению (^РЯ-моделей для значений энтальпии (Д1Н тж) и энтропии (А'Х^) фазового перехода из твердого состояния в жидкое для разнородной выборки органических соединений.

Базы данных по значениям А1 н тж и Д'Х тж при различной температуре для ряда органических соединений были сформированы по литературным источникам. В БД были включены алифатические и ароматические соединения

с числом атомов от двух до сорока (без учета атомов водорода), а именно предельные и непредельные углеводороды, галогензамещенные углеводороды, кислородсодержащие соединения и соединения, содержащие атом азота Однако, в отличие от выборок, сформированных для других рассматриваемых в работе свойств, в данных БД, как правило, одному соединению соответствовало несколько значений энтальпии и энтропии, измеренных при разной температуре Общий объем БД для энтальпии составил 1315, а для энтропии 1314 записей

Каждая из двух созданных БД была разделена на четыре отдельные выборки соединений углеводороды (332 записи для АТНТЖ и а'Л'тж), галогензамещенные углеводороды (215 записей для &! H 217 записей для ДTS „), кислородсодержащие соединения (637 записей для Д' //тж, 634 записей для л'S -гж), азотсодержащие соединения (131 запись для АГЯ тж и АГ3ТЖ) Отметим, что кислород и азотсодержащие соединения, вошедшие в БД, содержат только один гетероатом - атом кислорода или азота, соответственно

Следуя принятому в работе общему методу построения QSPR-моделей, на первом этапе моделирования значений &' H ,ж и Д!6'тж был осуществлен поиск ведущего дескриптора, наиболее значимого для отдельных групп соединений Для этого каждая БД была случайным образом разделена на обучающую (90% записей) и контрольную (10% записей) выбррки Поскольку большинству соединений соответствует несколько значений энтальпии и энтропии, измеренных при разных значениях температуры, представляется целесообразным использование температуры в качестве отдельного дескриптора Такой подход направлен в первую очередь на расширение области применения получаемой QSPR-модели, давая возможность предсказывать значение интересующего свойства при разных температурных условиях

Далее, для каждой из рассматриваемых групп соединений в качестве ведущих дескрипторов были опробованы различные топологические индексы, а именно индексы Кира, /г, индекс Рандича ' j, сольватационный индекс индекс Винера, W, индекс Балабана J, индекс Vx, а также величина молекулярной массы, MW Наилучшие QSPR-модели как для KrH тж, так и для д' .Утж были получены при использовании значения температуры и индекса Кира 2ка При этом наиболее высокие коэффициенты корреляции соответствовали моделям для значений ДгЯта и Д75тж группы углеводородов R2 — 0,8857 и R1 = 0,8840, соответственно Поскольку индекс 2ка позволил получить достаточно высокие коэффициенты корреляции для каждой отдельной группы соединений, была проанализирована возможность построения общей QSPR-модели для всей БД с использованием одного индекса 2ка и значения температуры При этом получены следующие QSPR-уравнения ДТНШ = -6,38+0,03T+2,582>ca, R2 = 0,8091, F=2500, s = 6,7 кДжмоль1 и ATS.„ = 31,66-0,02Г+8,092ка, R2 = 0,8020, F=2388, « = 18,3 Дж моль 1 К"1

Как следует из представленных данных, в обоих случаях модели характеризуются достаточно высокими значениями коэффициентов корреляции С другой стороны, анализ полученных зависимостей показал, что

для обеих моделей достаточно большое количество точек на графике значительно удалено от линии тренда В связи с этим была предпринята попытка дальнейшего улучшения С^РЛ-моделей путем добавления дополнительных корректирующих фрагментных дескрипторов С этой целью были построены <38РЯ-модели для групп соединений с использованием индекса 2ка, температуры и различных фрагментных дескрипторов. Модели, полученные для АГЯТЖ, характеризуются следующими статистическими параметрами, группа углеводородов = 14, Я2 = 0,9464, я = 4,2 кДж моль"1; группа кислородсодержащих соединений = 11, Я2 = 0,8833, 5 = 5,4 кДж моль"1, группа галогенсодержащих углеводородов -2, К2 - 0,7929, 5 = 3,4 кДж моль"1, группа азотсодержащих соединений Ит = 12, Я2=0,9194,5 = 1,8 кДж-моль"1, где Иря - число фрагментных дескрипторов, вошедших в уравнение.

Для значений Д^™ были получены следующие результаты 1руппа углеводородов Ыря = 4, Я2 = 0,9128, 5 = 14,7 Дж моль"1 К"1, группа кислородсодержащих соединений Иря = 3, Я2 - 0,8642, 5 ■= 16,1 Дж моль"1 К"1; группа галогенсодержащих углеводородов = 10, Я2 = 0,8002, 5 = 9,0 Дж моль'1 К*1; группа азотсодержащих соединений Иря = 9, Я? = 0,7838, 5 = 5,8 Дж-моль"1 К'1

Проведенный анализ статистических параметров С^РЛ-моделей, построенных для значений ДГЯТЖ и Д7^^. групп соединений, показал, что использование ведущих дескрипторов - температуры и индекса 2ка - в сочетании с корректирующими фрашентными дес!фипторами в каждом случае привело к значительному улучшению корреляций Найденные дескрипторы были использованы для построения общей (^РЛ-модели для всей БД.

С целью создания общей (ЗБРЯ-модели для значений Дг#тж полная БД была случайным образом разделена на обучающую выборку, содержащую 1183 записи, и контрольную выборку, содержащую 132 записи. При построении модели были использованы 39 фрагментных дескрипторов, найденные при моделировании значений Д'Я^ отдельных групп соединений, а также температура и индекс 2ка. Таким образом, полученное корреляционное уравнение содержало 41 независимую переменную и характеризовалось следующими статистическими параметрами- Я2 = 0,9007, ^ = 252, 5 = 4,9 кДж-моль"1, ЯМЗобуч = 4,8 кДж-моль"1, /Ш5котр = 4,8 кДж-моль"1 (модель ДН-1). Далее для оценки значимости дескрипторов, вошедших в С^РЛ-уравнение, был проведен анализ значений критерия Стьюдента. При этом наибольшее значение ¿-критерия (? = 32,66) соответствовало индексу 2ка, что подтверждает значимость и ведущую роль данного индекса в полученной модели Однако для 6 фрагментных дескрипторов были получены низкие значения ¿-критерия < 1) После исключения этих дескрипторов из С^БРЯ-уравнения, была получена новая 35-ти параметровая модель со следующими статистическими параметрами Я2 = 0,9005, F = 297, « = 4,9 кДж моль"1, ЯМ80буч = 4,8 кДж моль"1, &ШКОНТр = 4,8 кДж моль"1 (модель АН-2).

С целью выявления взаимно коррелирующих дескрипторов, была построена матрица взаимных корреляций дескрипторов На основе анализа построенной матрицы из уравнения были исключены еще три фрагментных дескриптора Таким образом была получена итоговая С^РЯ-зависимость для значений АТНТЖ общей выборки соединений со следующими статистическими параметрами Я2 = 0,9003, ^ = 305, я = 4,9 кДж моль"1, ЯМ30буч = 4,9 кДж моль"', КМБют?= 4,8 кДж моль"1 (модель ЛН-3) Фрагментные дескрипторы, вошедшие в С^РЯ-модель для АТНТЖ

ЯС^СЯ Р-СЯ2-СЯ2-С1

СН3-СН211 Н3С-СК2-СН2-СН2-СЯ2-СН2К

113С-№12 ЯСН2-СЯ2-СН2-СН2-СН2К

К-САГО^-СЖ ЯСН2-СН2-СН2-СН2К

—•.«—• СН2Я-СН2-0-СДг-СЛг-САГН

•—• _ •—• НЗС-СДг-САгН—Саг~СДг-Сзр Я

СКз-С^Я-ОН н3с-о-с5р2а-снгсн2-сн2к

С-СЯг-ЫШ. НзС-СНг-О-С^^-СНг-СНгК

КН2С-СНК-Ы Н3С-Сзр'К-СН2-СН2-СН2К

К3С-СЯ2-СК2-С5р"К-САг

БУЙС-СНг-СЫз ЮЧ-СЛД-САг(-С11) -САД

Бда2с-сн2-сн=сн2 Н2КС-СН2-СН2-СН2Я

К2С(СН2Я)С5р2К НСАГ~САД-СН2-СН2-СН2Я

КСАг—Сдт-Сдг—Сдг—СдтК КН2С-СЛГ~НСАГ_НСДг-САГ-СН2Я

НСАГ~САГН—САГН-СДГН—СДГЯ НО-СН2-С1Ж-СШ-ОН

Н3С-СН2-СН,-СН2-САгД ^Сд^'Сдг-ЯСл/-ЯСдг—САг—Сдг

•-любой атом, Сдг-ароматический атом углерода, —-ароматическая связь

На завершающем этапе С^БРИ-моделирования значений Аг#тж, было осуществлено построение модели "структура-условие-свойство" с использованием метода ИНС При этом были использованы все 34 дескриптора, вошедшие в итоговое линейно-регрессионное уравнение (модель ДН-3) Проведенный анализ показал, что наиболее высокий коэффициент корреляции (Я2 = 0,9235) был получен для модели, содержащей 4 сигмоидных нейрона в скрытом слое с архитектурой нейронной сети 35-5-1 Полученная модель (модель АН-4) представлена на рис 8 Данная модель также характеризуется наиболее низкими значениями среднеквадратичных ошибок как для контрольной (ЯМБКонтр = 4,4 кДж моль"1), так и для обучающей (ЯМ306Т, = 4,3 кДж моль"1) выборок При этом полученный коэффициент корреляции оказался выше коэффициента корреляции, полученного для линейно-регрессионной зависимости, а значения среднеквадратичных отклонений заметно снизились по сравнению с их значениями, найденными с помощью линейно-регрессионного анализа

На следующем этапе были построены ОБРЯ-модели для значений АГ5ТЖ всей разнородной выборки соединений Для этого БД для значений АХ™. была

разделена на обучающую (1182 соединения) и контрольную (132 соединения) выборки.

Рис. 8. Соотношение экспериментальных и предсказанных значений ДТНТЖ, полученное с помощью метода ИНС: а) для обучающей выборки; б) для контрольной выборки соединений.

Аналогично модели, построенной для значений ДгЯ тж, при построении (ЗБРЯ-модели для значений были использованы все 28 дескрипторов,

вошедшие в частные уравнения для отдельных групп соединений: Я2 = 0,8902, Г = 334, у = 13,8 Дк-моль'-К"1, ЯМБобуч = 13,6 Дж-моль"'-К"1, ШИИ1Т = 16,4 Дж-моль"'-К"1 (модель А8-1). Далее, с целью оценки значимости дескрипторов, был осуществлен расчет критерия Стьюдента, что позволило выявить 4 фрагментных дескриптора с низкими значениями ¿-критерия (/ < 1). Данные дескрипторы были исключены из СБРЯ-уравнения. При этом была получена 24-х параметровая модель со следующими характеристиками: Я2 = 0,8901, Р = 390, 5 = 13,7 Дж-моль'-К"1, ЯМБо5уч = 13,6 Дж-моль'-К"1, ЯМБконтр = 16,4 Дж-моль"'-К"' (модель ДБ-2). Как видно, исключение из уравнения четырех наименее значимых дескрипторов практически не отразилось на статистических параметрах С^РЯ-модели.

Для анализа взаимной корреляции дескрипторов была построена корреляционная матрица, что позволило исключить еще один фрагментный дескриптор из С^БРЯ-уравнения. Таким образом была получена итоговая линейно-регрессионная <38РЯ-модель (модель АБ-З) для значений энтропии фазового перехода из твердого состояния в жидкое для разнородной выборки соединений, содержащая 23 дескриптора и обладающая следующими статистическими характеристиками: Я2 = 0,8892^ = 404, 5 = 13,8 Дж-моль"'-К"1, ЯМБобуч = 13,7 Дж-моль"'-К"', ЯМБкотр = 16,5 Дж-моль"'-К"'. Фрагментные дескрипторы, вошедшие в (38РЯ-модель для А? ^п,:

ЯзС-СНЯ-Р Н3С-СН2-СН2-СН2-СН2-СН2Я

ЯНС=СН2 Р-СЯ2-СЯ2-С1 Вг-Сдг-Сдг^ Слг-СдД

ЯСдг-С-На! ЯН2С-СН2-СН2-СН2-Вг ЯгСдг ~ САгЯ(-СагЯ2) -САгЯ2

ЯНзС-С-Шг Я3С-СН2-СН2-СН2Я Н3С-СН2-0-С5р2Я-СН2-СН2Я

С(СЯ3)4 К-Сдг ;"С/,-Н; СлгН-СдД ЯП2С-СН2-СН2-СН2-СН2-СН2Я

Е-С^С4"^ НО-СН2-СШ1-СЖ-ОН ИИ - СлгЯ-Саг(-СЯ) -СаД

F-CR.2-CR.2-F Я2М-С5!%-т-С5р:1Яз ЯН2С-СНГСН2-СН2Л

•-любой атом, САг-ароматический атом углерода, -^-ароматическая связь

Поскольку использование метода искусственных нейронных сетей привело к улучшению статистических параметров <38Р11-модели, построенной для значений АТНТЖ, данный метод был также применен для моделирования общей БД по значениям Д!5ТЖ. Как и в случае ИНС-модели, построенной для АТН-ГЖ, при моделировании значений Дг5та была использована трехслойная нейросеть прямого распространения с общей архитектурой Л^ — Л?скр - Явых. В соответствии с числом дескрипторов, найденных при построении линейно-регрессионной модели для значений Д7^™, количество сигмоидных нейронов во входном слое было равно Л^иг-вх = 23, а общее число нейронов — Л^ = 24.

Наилучшие статистические параметры были получены для модели, построенной с использованием четырех сигмоидных нейронов в скрытом слое нейросети с архитектурой 24-5-1 (модель А8-4). Коэффициент корреляции (й2 = 0,9082), соответствующий данной модели, оказался заметно выше коэффициента корреляции, полученного для линейно-регрессионной модели (Я2 = 0,8892). При этом значения среднеквадратичных отклонений снизились как для обучающей (ЛМ$обуч (Инс) = 12,7 Дж-моль" -К"1, ЛМ50буч <млр) = 13,7 Дж-моль"'-К"1), так и для контрольной (ЛМ5к0нтр (Инс) = 16,2 Дж-моль"1-К'1, ЛМ^контр (МЛР) = 16,5 Дж-моль"'-К"1) выборки соединений. С>8Р11-зависимости, полученные для обучающей и контрольной выборки представлены на рис. 9.

а) б)

Д ^тж (эксп.), Дж/(моль»К)

А (эксп.), Дж/(моль-К)

Рис. 9. Соотношение экспериментальных и предсказанных значений Д75тж, полученное с помощью метода ИНС: а) для обучающей выборки; б) для контрольной выборки соединений.

Таким образом, результаты (^БРИ-моделирования, проведенного для значений ДГНТЖ и Д1'^™ разнородной выборки органических соединений

свидетельствует о хорошей применимости используемого в работе метода построения С^РЯ-моделей для моделирования данных свойств соединений При этом была показана эффективность данного метода для поиска зависимостей "структура-условие-свойство" Полученные результаты подтверждают применимость использованного в главе способа деления общей выборки соединений на отдельные группы соединений на основе содержащегося в них гетероатома (или нескольких гетероатомов) с целью выявления наиболее значимых корректирующих дескрипторов

Фрагментные дескрипторы, найденные для таких групп соединений оказались также значимыми и для общей выборки как в случае ДГЯ .1Ж, так и в случае АГ5ТЖ Кроме того, было показано, что использование дескрипторов, найденных с помощью линейно-регрессионного рЭРК-моделирования, в сочетании с методом искусственных нейронных сетей позволяет заметно улучшить статистические параметры (ЗЗРК-моделей для значений ДГЯТЖ и Д^тж органических соединений.

В шестой главе рассматривается построение количественной зависимости "структура-свойство" для значений констант ионизации (рКа) органических соединений

База данных по значениям рКа была сформирована по литературным источникам В БД вошли соединения, содержащие атомы азота, кислорода и галогенов и относящиеся к различным классам органических соединений Общий объем БД составил 676 соединений Полученная БД была разделена на несколько более мелких выборок Однако, в отличие от способа деления БД, использованного в предыдущих главах, в данном случае разделение БД на отдельные выборки проводилось по принципу идентичности функциональной группы соединения, по которой идет диссоциация В частности были получены три группы соединений соединения содержащие аминогруппу (группа "аминов"), гидроксильную группу (группа "спиртов") и карбоксильную группу (группа "карбоновых кислот"). Отметим, что кроме указанных функциональных групп соединения, вошедшие в БД также могли содержать и другие функциональные группы, поэтому названия выборок по конкретным классам соединений достаточно условны Полученные БД содержали следующее количество соединений группа аминов - 268, группа спиртов - 169, группа карбоновых кислот - 238 Далее каждая БД была случайным образом разделена на обучающую (90% соединений) и контрольную (10% соединений) выборки

Из литературных данных известно, что значения рКа достаточно хорошо коррелируют с квантово-химическими параметрами Поэтому при построении С^РЫ-моделей для данного свойства в работе были рассчитаны значения ряда квантово-химических дескрипторов Квантово-химические дескрипторры, а также индексы связности, индекс ¥х и величина молекулярной массы были использованы для выявления наиболее значимого "ведущего" дескриптора путем построения однопараметровых моделей "структура-свойство"

Результаты показали, что корреляция между значениями рКа и топологическими дескрипторами практически отсутствует для каждой из рассматриваемых групп соединений Напротив, квантово-химические дескрипторы позволили получить более высокую корреляцию со значениями рКа органических соединений При этом для каждой группы соединений лучшие (ЗБРЫ-модели были получены при использовании дескриптора БЕ (электрофильная суперделокализуемость) В связи с этим данный дескриптор был выбран в качестве ведущего для дальнейшего построения моделей Однако, как и ожидалось, попытка построения модели для общей БД с использованием только одного дескриптора Бе, к удовлетворительным результатам не привела Я2 = 0,2207, Р = 172, 5 = 2,1 С целью улучшения статистических характеристик данной модели и следуя принятой в работе методологии был проведен поиск корректирующих дескрипторов Для этого был осуществлен отбор фрагментных дескрипторов, наиболее значимых для отдельных групп соединений

Как известно, рКа относится к числу локальных свойств Для моделирования таких свойств в работе была разработана специальная модификация фрагментных дескрипторов с учетом возможности выделения определенных атомов в молекуле при помощи меток Суть метода заключается в том, что 1) атомы, для которых моделируются локальные свойства, помечаются определенными метками, причем каждому локальному свойству, например, рКа, соответствует своя уникальная метка, например, "а", 2) при генерации фрагментных дескрипторов каждая такая метка рассматривается как отдельный псевдоатом с именем, соответствующим символу метки, 3) при построении уравнений "структура-свойство" могут использоваться дескрипторы как содержащие, так и не содержащие псевдоатом, соответствующий этой метке

В данной работе, при построении С^РЛ-моделей для значений рКа, были использованы фрагментные дескрипторы обоих типов При этом для группы аминов была получена модель, содержащая дескриптор Бе и 35 фрагментных дескрипторов (К2 = 0,9449, 5 = 0,9) Также высокие статистические параметры были получены при моделировании группы спиртов (Я2 = 0,9545, = 0,5) В данную модель кроме дескриптора Б£ вошел 21 фрагментный дескриптор Для группы карбоновых кислот было отобрано 17 фрагментных дескрипторов (Я2 = 0,6622, ^ = 0,6)

Анализ полученных результатов С^РЫ-моделирования, проведенного для групп соединений, показал, что использование фрагментных дескрипторов позволило значительно улучшить статистические параметры моделей для каждой из рассматриваемых групп по сравнению с однопараметровыми моделями

Далее в работе было осуществлено построение линейно-регрессионной ОЯРК-модели для значений рКа общей выборки соединений Для этого общая БД была разделена на обучающую и контрольную выборки, содержащие 609 и 67 соединений, соответственно, представляющие собой объединенные обучающие и контрольные выборки отдельных групп соединений При

построении С^РЛ-модели был использован дескриптор 8Е, а также все 73 фрагментных дескриптора, найденные при моделировании отдельных групп соединений Однако проведенный анализ дескрипторов, вошедших в уравнения для групп соединений, показал, что в некоторых случаях в уравнения для разных групп вошли одни и те же фрагментные дескрипторы В связи с этим повторяющиеся дескрипторы были исключены из рассмотрения, что привело к сокращению числа фрагментных дескрипторов до 63 Построенная ОБРЯ-модель характеризуется следующими статистическими параметрами Я2 = 0,9259,7^ = 106, у = 0,9, ЛЩ,6уч = 0,8,ЯШютр= 1,2 (модель 6 1)

Так же была проведена оценка значений ¿-критерия для дескрипторов вошедших в ОБРЯ уравнение Было найдено, что для 12 дескрипторов значение ¿-критерия оказалось меньше единицы Исключение данных индексов из уравнения 6 1 привело к новой ОйРЯ-модели 6 2, содержащей 52 дескриптора Я2 = 0,9253, Р = 132, у = 0,9, КМ8обуч = 0,8, Щ,0НгР = 1,2 После исключения дескрипторов из модели произошло перераспределение значений критерия Стьюдента оставшихся дескрипторов В результате последовательного сокращения количества дескрипторов на основе ¿-критерия была получена ОЯРЯ-модель (модель 6 5), содержащая 49 дескрипторов Я = 0,9249, Р = 141, у = 0,9, ЯМБ„буч = 0,8, ЛМ^коетр =1,2 Фрагментные дескрипторы, вошедшие в ОБРЯ-модель для значений рКа

=0 НСдг Сдг Сдг-ОНы Н3С-СЯ2-СН3

Я3С-МН2 Н3С-СН2-СН2-СНЯ-С(-Я)= ЯгС^-СЯг-Шг

ЯзС-Ы ЯСдг-Ндг—ЯСдг-1САГ-С1 На1-С-С-С-Ои

Ы-С-С-О С - с Дг-С Аг_САг-НАгса) НСА-САг-На1

С-СгСЯ КАГ-НСАГ-НСАГ-НСАГ-НА, Я3С-ЯС=СЯ2

ЯН2С-ЫН-С НСАГ-САг-САг-САг-НСАг с-с-с-с=о

С-СЯ2-ОН =с-сАг-сАг-сАг-с^-м=(=) ЫН2-САг-ЫАг(а)

я=ся-о-я НСАг—НСАг—САг-СН2-СН2-1\= На1-С-С-Ы

Н3С-С-№Ж =К(=)-СА,-НСАг-САг-САг-ОН НСдг-Сдг-ОН(а)

Я=С-СЯ2-ЫЯ2 С-Сд-—САг—ЫАг—САг-С сАг-сАг-мн2(а)

С-С-Ы-С-На! =м(=)-сАг-нсАг-нсАг-сАг-о- Я3С-САг-Сдг-ОН(а1

к-с-с-с-о НСДг—НСАГ~НСАг—Сдг-Сдг-ОН С-С-С-Мы

с-с-м-с-и Н3С-Саг—МДГ—НСАГ—НСАг—НСдг С-Ы-С-С-О-С

С-СН2-С САг-НСАг-НСАг-САг-ОН(а) С-0-Сдг~САг-0(а|-

нсАК-сАК(-он)-кАК С-Сл-МАг-САГ-САг

На12С-СО(—О) САк"САя(-СР2Я)—Сдя На1-С-С-С-0

•-любой атом, САг-ароматический атом углерода, --ароматическая связь, (а)-метка на атоме

Проведенный с помощью построенной корреляционной матрицы анализ взаимной закоррелированности дескрипторов, вошедших в ОБРЯ-уравнение 6 5, привел к исключению еще 2 фрагментных дескрипторов Таким образом, полученное итоговое линейно-регрессионное ОБРЯ-уравнение (модель 6 6)

содержит 47 дескрипторов и характеризуется следующими статистическими параметрами: Л2 = 0,9223, ,Р = 142, 5 = 0,9, ЛШ0буч= 0,9, ЯМ5котр = 1,2.

На заключительном этапе СБРК-моделирования значений рКа для общей БД соединений было осуществлено построение модели с помощью метода ИНС. Наилучшие статистические параметры были получены для модели с архитектурой нейросети: 48-8-1 (модель 6.7, рис. 10).

а) б)

Рис. 10. Соотношение экспериментальных и предсказанных значений рКа, полученное с помощью метода ИНС: а) для обучающей, б) для контрольной выборки соединений.

Полученная модель характеризуется высоким коэффициентом корреляции Я2 = 0,9752 и достаточно низкими значениями среднеквадратичных ошибок как для обучающей, так и для контрольной выборки соединений (/Ш5'0буч= 0,5, ЯМБК0НТр = 0,9).

Таким образом, в результате проведенного моделирования были построены линейно-регрессионная и нейросетевая <38РК-модели для значений констант ионизации разнородной выборки органических соединений. Полученные статистические параметры подтвердили эффективность предлагаемого в работе подхода к построению моделей с использованием ведущего дескриптора вместе с набором корректирующих фрагментных дескрипторов для моделирования локальных свойств.

При этом соединения, входящие в ту или иную группу, могут содержать не только заданную функциональную группу, но и другие группы и гетероатомы. Поэтому, в данном случае, отдельные группы соединений также представляют собой разнородные выборки.

Кроме того, была успешно применена новая модификация фрагментных дескрипторов с помощью специальных меток на атомах, для которых моделируются локальные свойства. Полученные для таких дескрипторов, вошедших в (ЗБРЯ-модель, значения критерия Стьюдента показали их высокую значимость и эффективность при моделировании локальных свойств органических соединений на примере значений констант ионизации.

Выводы

1 В работе впервые детально проанализирована и проиллюстрирована на примере различных физико-химических свойств возможность последовательного построения количественных зависимостей "структура-свойство" для разнородных выборок органических соединений Разработан новый подход к построению количественных зависимостей "структура-свойство" для таких выборок, включающий использование ведущего дескриптора и набора корректирующих дескрипторов Рассмотрены различные пути поиска ведущего дескриптора и наиболее значимых корректирующих дескрипторов в зависимости от структурной разнородности рассматриваемой выборки соединений

2. С помощью проведенного С^РЯ-моделирования установлено, что в большинстве случаев устойчивые модели могут быть получены при использовании в качестве ведущего дескриптора одного из топологических индексов, характеризующих размер и разветвленность молекулы, а в качестве корректирующих дескрипторов — набора фрагментных дескрипторов, учитывающих структурные особенности рассматриваемых соединений и относящихся к числу наиболее простых и легко интерпретируемых дескрипторов, используемых в С^РК-анализе

3 Предложенный в работе метод успешно применен для построения количественных линейно-регрессионных и нейросетевых зависимостей "структура-свойство" для значений нормальной температуры кипения, удельной теплоемкости, значений энтальпии и энтропии фазового перехода из твердого состояния в жидкое и констант ионизации широких, заведомо разнородных выборок органических соединений

4 В работе впервые осуществлено успешное построение С^РЫ-моделей для больших (более 1300 записей) баз данных по значениям энтальпии и энтропии фазового перехода из твердого состояния в жидкое Для данных свойств впервые показана применимость предложенного метода для построения количественных зависимостей "структура-условие-свойство", в частности "структура-температура-свойство", что существенно расширяет практическое использование подобных моделей, предоставляя возможность рассчитывать значение исследуемого свойства при разных условиях

5 Предложен оригинальный подход к моделированию "локальных" свойств с помощью фрагментных дескрипторов с метками Эффективность этого подхода продемонстрирована на примере построения ОБРЯ-моделей для значений констант ионизации 676 органических соединений

Список работ, опубликованных по теме диссертации

1 Зефиров Н.С , Палюлин В А, Олиференко А А, Иванова А А, Иванов А А Методология построения универсальных моделей "структура-свойство" на примере широкой выборки органических соединений // ДАН 2001 Т 381 №5 С 637-639

2 Иванова А А , Палюлин В А , Зефиров А H , Зефиров H С Фрагментные дескрипторы в QSPR применение для расчета теплоемкости // ЖОрХ 2004 Т 40 № 5 С 675-680

3 Ivanova А А, Ivanov А А, Oliferenko А А , Palyuhn V А , Zefirov N S Highly diverse, massive organic data as explored by a composite QSPR strategy An advanced study of boiling point//SAR QSAR Environ Res 2005 V 16 № 3 P 231-246

4 Иванова A A , Баскин И И, Палюлин В А, Зефиров H С Оценка значений констант ионизации для различных классов органических соединений с использованием фрагментного подхода к поиску зависимостей структура-свойство // ДАН. 2007 Т 413 №64 С 766-770

5 Иванова А А , Иванов А А, Олиференко А А, Палюлин В А, Зефиров H С Особенности QSPR-моделирования для разнородной выборки органических соединений // Сборник тезисов докладов II Всероссийской конференции "Молекулярное моделирование" 24-26 апреля 2001 г Москва С 65

6 Иванова А А, Иванов А А, Олиференко А А, Палюлин В А , Зефиров H С Построение универсальной QSPR-модели для разнородной выборки органических соединений // Сборник тезисов докладов III Всероссийской конференции "Молекулярное моделирование" 15-17 апреля 2003 г Москва С 69

7 Иванова А А, Олиференко А А , Палюлин В А, Зефиров H С Поиск зависимости "структура-свойство" для разнородной выборки органических соединений // Сборник материалов II конференции "Информационно-вычислительные технологии в решении фундаментальных и прикладных научных задач" 2003 г Москва С 29

8 Иванова А А , Баскин И И, Палюлин В А, Зефиров H С Оценка значений констант ионизации для различных классов органических соединений с использованием нейронных сетей // Сборник тезисов докладов II Российской школы-конференции "Молекулярное моделирование в химии, биологии и медицине" 13-16 октября 2004 г Саратов С 30

Подписано в печать 16 11 2007 Формат 60x88 1/16 Объем 1,5 п л Тираж 100 экз Заказ № 681 Отпечатано в ООО «Соцветие красок» 119992 г Москва, Ленинские горы, д 1 Главное здание МГУ, к А-102

 
Содержание диссертации автор исследовательской работы: кандидата химических наук, Иванова, Анна Александровна

ВВЕДЕНИЕ

ГЛАВА 1. ЛИТЕРАТУРНЫЙ ОБЗОР

1.1. Статистические методы построения QSAR/QSPR-моделей

1.1.2 Линейно-регрессионный анализ

1.1.3 Искусственные нейронные сети

1.2 Основные типы дескрипторов, используемых в QSPR-моделировании

1.2.1 Общая классификация дескрипторов

1.2.2 Топологические индексы

1.2.3 Фрагментные дескрипторы

1.2.4 Квантово-химические дескрипторы

1.3 QSPR-моделирование различных свойств органических соединений.

1.3.1 QSPR-моделирование температуры кипения для разнородных выборок соединений

1.3.2 QSPR-моделирование теплоемкости, констант ионизации, энтальпии и энтропии фазового перехода из твердого состояния в жидкое для разнородных выборок органических соединений

ГЛАВА 2. ИССЛЕДОВАНИЕ ВОЗМОЖНОСТИ ПОСТРОЕНИЯ МОДЕЛИ «СТРУКТУРА-СВОЙСТВО» ДЛЯ РАЗНОРОДНОЙ ВЫБОРКИ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ НА ПРИМЕРЕ ТЕМПЕРАТУРЫ КИПЕНИЯ АЛКАПОВ И КАРБОНОВЫХ

КИСЛОТ

ГЛАВА 3. ПОСТРОЕНИЕ КОЛИЧЕСТВЕННЫХ МОДЕЛЕЙ «СТРУКТУРА - ТЕМПЕРАТУРА КИПЕНИЯ» ДЛЯ

РАЗНОРОДНОЙ ВЫБОРКИ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ 4 О

3.1 Формирование баз данных по температуре кипения 4 О

3.2 Построение количественных моделей "структура - температура кипения"

3.2.1 QSPR-моделирование температуры кипения отдельных классов органических соединений

3.2.2 Построение моделей "структура - температура кипения" для групп соединений, относящихся к структурно подобным классам 4 р

3.2.3 Общая линейно-регрессионная QSPR-модель для температуры кипения органических соединений ^ ^

3.2.4 Построение общей QSPR-модели для значений температуры кипения с помощью метода искусственных нейронных сетей ^ ^

ГЛАВА 4. ПОСТРОЕНИЕ МОДЕЛЕЙ «СТРУКТУРА-СВОЙСТВО» ДЛЯ УДЕЛЬНОЙ ТЕПЛОЕМКОСТИ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

4.1 Создание баз данных по значениям удельной теплоемкости органических соединений

4.2 Построение количественных зависимостей "структура - удельная теплоемкость"

4.2.1 QSPR-моделирование удельной теплоемкости для отдельных групп соединений

4.2.2 Общая линейно-регрессионная QSPR-модель для удельной теплоемкости органических соединений

4.2.3 Построение общей QSPR-модели для значений удельной теплоемкости с помощью метода искусственных нейронных сетей у д

ГЛАВА 5. ПОСТРОЕНИЕ QSPR-МОДЕЛЕЙ ВИДА «СТРУКТУРА-УСЛОВИЕ^СВОЙСТВО» ДЛЯ ЭНТАЛЬПИИ И ЭНТРОПИИ ФАЗОВОГО ПЕРЕХОДА ИЗ ТВЕРДОГО СОСТОЯНИЯ В ЖИДКОЕ

РАЗЛИЧНЫХ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

5.1 Создание баз данных по значениям энтальпии и энтропии фазового перехода из твердого состояния в жидкое

5.2 Построение моделей "структура - температура - АТНШ" и "структура - температура - АГ5ТЖ" для отдельных групп соединений

5.3 Построение QSPR-модели для значений АТНТ/К общей выборки соединений

5.3.1 Линейно-регрессионная QSPR-модель

5.3.2 Нейросетевая QSPR-модель для значений АгЯтж общей выборки соединений

5.4 QSPR-моделирование значений АГ5ТЖ общей выборки соединений

5.4.1 Линейно-регрессионная QSPR-модель

5.4.2 Построение QSPR-модели для значений ATSjyK общей выборки соединений методом искусственных нейронных сетей

ГЛАВА 6. ПОСТРОЕНИЕ МОДЕЛЕЙ «СТРУКТУРА-СВОЙСТВО» ДЛЯ ЗНАЧЕНИЙ КОНСТАНТ ИОНИЗАЦИИ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

6.1 Создание баз данных

6.2 Построение моделей "структура - рКа" для групп родственных соединений

6.3 Линейно-регрессионная QSPR-модель для значений рКа общей выборки соединений

6.4 Нейросетевая QSPR-модели для значений рКа общей выборки соединений

 
Введение диссертация по химии, на тему "Методология построения количественных моделей связи "структура-свойство" для разнородных выборок органических соединений"

Поиск закономерностей в характере изменения различных свойств молекул в зависимости от их строения относится к проблеме связи "структура-свойство". Решение этой задачи, даже для отдельного, достаточно узкого класса соединений, представляется весьма важным. В частности, найденные закономерности можно использовать для прогнозирования свойств еще не синтезированных соединений, поиска новых соединений с заданным набором свойств, а также для систематизации молекул определенного класса.

Количественные соотношения между структурой химических соединений и их свойствами (Quantitative structure-property relationships, QSPR) могут быть выявлены с помощью различных методов математического моделирования. Выбор метода определяется как типом химических соединений, их агрегатным состоянием и анализируемым свойством, так и требуемой точностью расчетов, допустимыми временными затратами и доступными аппаратными и программными средствами. К наиболее распространенным методам относятся лииейпо-регрессионный анализ и метод искусственных нейронных сетей.

На сегодняшний день предложено достаточно большое число различных QSPR-зависимостей, как линейно-регрессиоиных, так и нейросетевых, для самых разнообразных свойств органических соединений. При этом, в подавляющем большинстве случаев, QSPR-модели были построены для узких гомогенных выборок соединений, часто принадлежащих к одному классу. В то же время, создание надежной QSPR-модели для разнородной выборки соединений позволит, используя лишь одно корреляционное уравнение, предсказывать свойства любых соединений, принадлежащих к разным классам. Однако, несмотря на наличие современных мощных ЭВМ и обширных данных по строению и свойствам огромного числа соединений, проблема построения количественных моделей "структура-свойство", описывающих свойства не гомологичной, а заведомо разнородной выборки органических веществ, по-прежнему представляется нерешенной.

Кроме того, до сих пор в явном виде не сформулированы четкие методологические правила построения подобных моделей. При этом, в большинстве опубликованных работ используются либо заранее выбранные авторами дескрипторы, (например, дескрипторы, предлагаемые авторами работы) либо напротив, проводится автоматический отбор дескрипторов из достаточно большого их числа (как правило, из всех дескрипторов, реализованных в используемой программе). Также часто используются дескрипторы, требующие достаточно сложных вычислений, но не дающие значительного улучшения статистических параметров модели, по сравнению с более простыми дескрипторами.

Данная работа посвящена изучению возможности построения количественных моделей связи "структура-свойство" для разнородных выборок органических соединений и разработке методологии последовательного построения подобных моделей. Особое внимание в работе уделено определению типов дескрипторов, наиболее применимых для построения QSPR-моделей, описывающих физико-химические свойства соединений, и изучению различных возможных путей поиска наиболее значимых дескрипторов. В работе рассмотрены такие важнейшие свойства органических соединений, как температура кипения, удельная теплоемкость, константа ионизации, энтальпия и энтропия фазового перехода из твердого состояния в жидкое.

 
Заключение диссертации по теме "Органическая химия"

ВЫВОДЫ

В работе впервые детально проанализирована и проиллюстрирована па примере различных физико-химических свойств возможность последовательного построения количественных зависимостей "структура-свойство" для разнородных выборок органических соединений. Разработан новый подход к построению количественных зависимостей "структура-свойство" для таких выборок, включающий использование ведущего дескриптора и набора корректирующих дескрипторов. Рассмотрены различные пути поиска ведущего дескриптора и наиболее значимых корректирующих дескрипторов в зависимости от структурной разнородности рассматриваемой выборки соединений. С помощью проведенного QSPR-моделировапия установлено, что в большинстве случаев устойчивые модели могут быть получены при использовании в качестве ведущего дескриптора одного из топологических индексов, характеризующих размер и разветвленпость молекулы, а в качестве корректирующих дескрипторов - набора фрагментных дескрипторов, учитывающих структурные особенности рассматриваемых соединений и относящихся к числу наиболее простых и легко интерпретируемых дескрипторов, используемых в QSPR-анализе. Предложенный в работе метод успешно применен для построения количественных липейпо-регрессиопиых и нейросетевых зависимостей "структура-свойство" для значений нормальной температуры кипения, удельной теплоемкости, значений энтальпии и энтропии фазового перехода из твердого состояния в жидкое и констант ионизации широких, заведомо разнородных выборок органических соединений. В работе впервые осуществлено успешное построение QSPR-моделей для больших (более 1300 записей) баз данных по значениям энтальпии и энтропии фазового перехода из твердого состояния в жидкое. Для данных свойств впервые показана применимость предложенного метода для построения количественных зависимостей "структура-условие-свойство", в частности "структура-температура-свойство", что существенно расширяет практическое использование подобных моделей, предоставляя возможность рассчитывать значение исследуемого свойства при разных условиях.

5. Предложен оригинальный подход к моделированию "локальных" свойств с помощью фрагментных дескрипторов с метками. Эффективность этого подхода продемонстрирована на примере построения QSPR-моделей для значений констант ионизации 676 органических соединений.

ЗАКЛЮЧЕНИЕ

В результате выполненной работы, разработан новый подход к построению количественных зависимостей "структура-свойство" и "структура-условие-свойство" для заведомо разнородных выборок органических соединений. Данный подход включает 1) разделение общей выборки соединений на отдельные более простые и более однородные группы соединений; 2) поиск ведущего дескриптора, позволяющего получить наилучшие однопараметровые QSPR-зависимости для каждой отдельной группы соединений и являющегося основой модели; 3) поиск набора наиболее значимых корректирующих дескрипторов, смещающих отдельные группы точек, соответствующие отдельным группам соединений, па графике к линии тренда; 3) фильтрацию незначимых и взаимно коррелирующих дескрипторов; 4) проверку прогностической способности модели с помощью предсказания значений моделируемого свойства для независимой контрольной выборки соединений. В работе рассмотрены различные пути поиска наиболее значимого ведущего дескриптора и корректирующих дескрипторов. Показано, что в большинстве случаев в качестве ведущего дескриптора может выступать топологический индекс, а в качестве корректирующих дескрипторов наиболее перспективными являются фрагментные дескрипторы. При этом, для значений констант ионизации ведущими являются кваптово-химические дескрипторы. Предложенный подход успешно применен для построения количественных линейно-регрессионных и нейросетевых моделей "структура-свойство" для значений температуры кипения при нормальных условиях, удельной теплоемкости, энтальпии и энтропии фазового перехода из твердого состояния в жидкое и констант ионизации широких, заведомо разнородных выборок органических соединений. Кроме того, для значений энтальпии и энтропии фазового перехода были построены модели вида "структура-условие-свойство", содержащие в качестве независимой переменной значение температуры, что существенно расширяет практическое использование полученных моделей.

 
Список источников диссертации и автореферата по химии, кандидата химических наук, Иванова, Анна Александровна, Москва

1. Eros D., Keri G., Kovesdi Г., Szantai-Kis C., Mcszaros G., Ofri L. Comparison of predictive ability of water solubility QSPR models generated by MLR, PLS and ANN Methods. // Mini-Rev. Med. Chem. 2004. - V. 4. - P. 167-177.

2. Neter J., Wasserman W., Kutner M.H. Applied linear statistical models: regression, analysis of variance, and experimental designs. R.D. Irwin Inc., 1985.

3. Stapleton J.H. Linear statistical models. Wiley, 1995.

4. Yang C., Zhong C. Modified connectivity indices and their application to QSPR study. // J. Chem. Inf. Comput. Sci. 2003. - V. - 43. - P. 1998-2004.

5. Staikova M., Messih P., Lei Y.D., Wania F., Donaldson D.J. Prediction of subcooled vapor pressures of nonpolar organic compounds using a one-parameter QSPR. // J. Chem. Eng. Data. 2005. - V. 50. - P. 438-443.

6. Topliss J.G., Edwards R.P. Chance factors in studies of quantitative structure-activity relationships.// J. Med. Chem. 1979. - V. 22. - P. 1238-1244.

7. Tropsha A., Gramatica P., Gombar V.K. The importance of being earnest: validation is the absolute essential for successful application and interpretation of QSPR models. // QSAR Comb. Sci. 2003. - V. 22. - P. 69-77.

8. Баскин И.И., Палюлин B.A., Зефиров PLC. Применение искусственных нейронных сетей в химических и биохимических исследованиях. // Вести. Моск. Ун-та. Сер. 2. Химия. 1999. - Т. 40. - С. 323-326.

9. Артемепко IT.B., Баскин И.И., Палюлин В. А., Зефиров П.С. Прогнозирование физических свойств органических соединений при помощи искусственных нейронных сетей в рамках подструктурного подхода. // Докл. Акад. Наук. 2001. - Т. 381. - С. 203-206.

10. П.Артеменко PLB., Палюлин В.А., Зефиров Г1.С. Мейросетевая модель липофилыюети органических соединений на основе фрагментных дескрипторов. // Докл. Акад. Наук. 2002. - Т. 383. - С. 771-773.

11. Halberstam N.M., Baskin 1.1., Palyulin V.A., Zefirov N.S. Quantitative structurc-conditions-property relationship studies. Neural network modeling of the acid hydrolysis of esters.//Mendel. Commun 2002. - V. 12.-P. 185-186.

12. П.Артеменко H.B., Баскин И.И., Палюлин В.А., Зефиров Н.С. Искусственные нейронные сети и фрагментный подход в прогнозировании физико-химических свойств органических соединений. // Изв. Акад. Наук. Сер. Химическая.-2003.-№ 1.-С. 19-28.

13. M.Moiser P.D., Jurs Р.С. QSAR/QSPR studies using probabilistic neural networks and generalized regression neural networks. // J. Chem. Inf. Comput. Sci. 2002. -V. 42.-P. 1460-1470.

14. Bernazzani L., Duce C., Micheli A., Mollica V., Sperduti A. Predicting physical-chemical properties of compounds from molecular structures by recursive neural networks. // J. Chem. Inf. Mod. 2006. - V. 46. P. 2030-2042.

15. Karelson M., Dobchev D.A., Kulshyn O.V., Katrizky A.R. Neural networks convergence using physicochcmical data. // J. Chem. Inf. Mod. 2006. - V. 46. -P. 1891-1897.

16. Liu S., Zhang R., Liu M., Hu Z. Neural network-topological indices approach to the prediction of properties of alkene. // J. Chem. Inf. Comput. Sci. 1997. - V. 37. - P. 1146-1151.

17. Zupan J., Gasteiger J. Neural networks in chemistry and drug design. Wiley-VCH, 1999.

18. Kovesdi I., Dominguez-Rodriguez M.F., Orfi L., Naray-Szabo G., Varro A., Papp J.G., Matyus P. Application of neural networks in structure-activity relationships. //Med. Res. Rev. 1999. -V. 19. - P. 249-269.

19. Turner J.V., Cutler D.J., Spence I., Maddalena D.J. Selective descriptor pruning for QSAR/QSPR studies using artificial neural networks. // J. Comput. Chem. -2003.-V. 24.-P.-891-897.

20. Andrea T.A., Kalayeh H. Applications of neural networks in quantitative structure-activity relationships of dihydrofolate reductase inhibitors. // J. Med. Chem. 1991. - V. 34. - P. 2824-2836.

21. Kohonen T. Self-organization and associative memory. Springer, 1989.

22. Zupan J., Gasteiger J. Neural networks: a new method for solving chemical problems or just a passing phase? //Anal. Chim. Acta. 1991. - V. 248. - P. 1-30.

23. Hopfield J.J. Neurons with graded response have collective computational properties like those of two-state neurons. // Proc. Natl. Acad. Sci. 1984. - V. 81.-P. 3088-3092.

24. HopfieId J.J., Tank D.W. Computing with neural circuits: a model. // Science. -1986.-V. 233.-P. 625-633.

25. Peterson K.L. Counter-propagation neural networks in the modeling and prediction of Kovats indexes for substituted phenols. // Anal. Chem. 1992. - V. 64.-P. 379-386.

26. Domine D., Devillers J., Wienke D., Buydens, L. ART 2-A for optimal test series design in QSAR. Hi. Chem. Inf. Comput. Sci. 1997. -V. 37. - P. 10-17

27. Rumelhart D.E., Hinton G.E., Williams R.J. Parallel distributed processing: explorations in the microstructures of cognition Volume 1. Learning internal representation by error propagation. / Ed. Rumelhart D.E., McClelland J.L. MIT Press, 1986.

28. Гальберштам H.M., Баскин И.И., Палюлин B.A., Зефиров Н.С. Нейронные сети как метод поиска зависимостей структура свойство органических соединений. // Успехи химии. - 2003. - Т. 72. - С. 706 - 727.

29. Basheer I.A., Hajmeer М. Artificial neural networks: fundamentals, computing, design, and application. // J. Microbiol. Meth. 2003. - V. 43. - P. 3-31.

30. Раевский O.A. Дескрипторы молекулярной структуры в компьютерном дизайне биологически активных веществ. // Успехи химии. 1999. Т. - 68. -С. 555-575.

31. Selassie C.D., Mekapati S.B., Verma R.P. QSAR: then and now. // 2002. V. 2. -P. 1357-1379.

32. Cramer R.D.III., Patterson, D.E., Bunce, J.D. Comparative molecular field analysis (CoMFA). 1. Effect of shape on binding of steroids to carrier proteins. // J. Am. Chem. Soc. 1988. -V. 110. - P. 5959-5967.

33. Manhold R., Van De Waterbeemd H. Substructure and whole molecular approaches for calculating Log P. // J. Сотр. Aid. Mol. Des. 2001. - V. 15. - P. 337-354.

34. Jarv J., Sale K., Eller M., Ek P., Engstrom A., Engstrom I. Quantitative structure-activity relationships in the protein kinase С reaction with synthetic peptides derived from myelin basic protein. // Bioorg. Chem. 1996. - V. 24. - P. 159168.

35. So S.-S., Karplus M. Genetic neural networks for quantitative structure-activity relationships: improvements and application of benzodiazepine affinity for benzodiazepine/GABAA receptors. // J. Med. Chem. 1996. - V. 39. - P. 52465256.

36. Raevsky O.A. Quantification of non-covalent interactions on the basis of the thermodynamic hydrogen bond parameters. // J. Phys. Org. Chem. 1997. - V. 10.-P. 405-413.

37. Ghafourian Т., Dearden J.C. The use of atomic charges and orbital energies as hydrogen-bonding-donor parameters for QSAR studies: comparison of MNDO, AMI, and PM3 methods. // J. Pharm. Pharmacol. 2000. - V. 52. - 603-610.

38. Raevslcy O.A. Physicochemical descriptors in property-based drug design. // Mini Rev. Med. Chem. 2004. - V. 4. - P. 1041-1052.

39. Rouvray D.H. Graph theory in chemistry. // R. Inst. Chem. Rev. 1971. - V. - 4. -P. 173-195.

40. Станкевич М.И., Станкевич И.В. Зефиров Н.С. Топологические индексы в органической химии. // Успехи химии. 1988. - Т. 57. - С. 337-366.

41. Estrada Е., Uriarte Е. Recent advances on the role of topological indices in drug discovery research. // Curr. Med. Chem. 2001. - V. 8. - P. 1573-1588.

42. Wiener H. Structural determination of paraffin boiling points. // J. Am. Chem. Soc. 1947. - V. 69.-P. 17-20.

43. Wiener H. Influence of interatomic forces on paraffin properties. // J. Chem. Phys. 1947. - V. 15.-P. 766.

44. Wiener H. Vapor pressure-temperature relationships among the branched paraffin hydrocarbons. // J. Phys. Chem. 1948. - V. 52. - P. 425-430

45. Wiener H. Relation of the physical properties of the isomeric alkanes to molecular structure. Surface tension, specific dispersion, and critical solution temperature in aniline. // J. Phys. Chem. 1948. - V. 52. - P. 1082-1089.

46. Bonchev D., Mekenyan Ov., Trinajstic N. Topological characterization of cyclic structures. // Int. J. Quant. Chem. 1980. - V. 17. - P. 845-893.

47. Bonchev D., Mekenyan Ov., Protic G., Trinajstic N. Application of topological indices to gas chromatographic data: caclculation of the retention indices of isomeric alkylbenzens. //J. Chromatogr. A. 1979. -V. 176. - P. 149-156.

48. Gutman I., Zenkevich I.G. Wiener index and vibrational energy. // Z. Naturforsch. 2002. - V. 57A.-P. 824-828.

49. Применение теории графов в химии. / Под. ред. Зефирова Н. С. Наука, 1988.

50. Balaban А.Т. Topological indices based on topological distances in molecular graphs. // Pure. Appl. Chem. 1983. - V. 55. - P. 199-206.

51. Balaban A.T. Chemical graphs: looking back and glimpsing ahead. // J. Chem. Inf. Comput. Sci. 1995. - V. 35. - P. 339-350.

52. Balaban A.T. Can topological indices transmit information on properties but not on structures? // J. Comput. Aid. Mol. Des. 2005. - V. 19. - P. 651-660.

53. Randic M. On Characterization of molecular branching. // J. Am. Chem. Soc. -1975.-V. 97.-P. 6609-6615.

54. Randic M. The connectivity index 25 years after. // J. Mol. Graph. Mod. 2001. -V. 20.-P. 19-35.

55. Kier L.B., Hall L.IL, Murray W.J., Randic M. Molecular connectivity. I. Relationship to nonspecific local anesthesia. // J. Pharm. Sci. 1975. - V. 64. - P. 1971-1974.

56. Kier L.B., Hall L.H. Murray W.J. Molecular connectivity. II. Relationship to water solubility and boiling point. // J. Pharm. Sci. 1975. - V. 64. - P. 19741977.

57. Kier L.B., Hall L.H. Molecular connectivity. VII. Specific treatment of heteroatoms. // J. Pharm. Sci. 1976. - V. 65. - P. 1806-1809.

58. Kier L.B., Hall L.H. Issues in representation of molecular structure. The development of molecular connectivity. // J. Mol. Graph. Mod. 2001. - V. 2001. -P. 4-18.

59. Kier L.B., Hall L.H. General definition of valence delta-values for molecular connectivity. // J. Pharm. Sci. 1983. - V. 72. - P. 1170-1 173.

60. Антипин И.С., Арсланов H.A., Палюлин B.A., Коновалов А.И., Зефиров Н.С. Сольватационный топологический индекс, топологическая модель описания дисперсионных взаимодействий. // Докл. Акад. Наук. 1991. - Т. 316. - С. 925-927.

61. Zefirov N.S., Palyulin V.A. QSAR for boiling points of "small" sulfides. Are the "high-quality structure-property-activity regressions" the real high quality QSAR models?//! Chem. Inf. Sci. 2001. -V. 41. - P. 1022-1027.

62. Шейхет И. И., Левчук В. Н., Симкии Б. Я. Связь энтальпий сольватации органических соединений в тетрахлорметане с энергиями взаимодействия молекул растворенного вещества с растворителем. // Ж. Общ. Химии. 1989. -Т. 59.-С. 2326-2331.

63. Gutman I., Ruscic М., Trinajstic N., Wilcox С. F. Graph theory and molecular orbitals. XII. Acyclic polyenes. // J. Chem. Phys. 1975. - V. 62. - P. 3399-3405.

64. Piatt J.R. Influence of Neighbor Bonds on Additive Bond Properties in Paraffins. //J. Chem. Phys. 1947.-V. 15. - P. 419-420.

65. Piatt. J.R. Prediction of Isomeric Differences in Paraffin Properties. // J. Phys. Chem. 1952,- V. 56. - P. 328-336.

66. Hosoya H. Topological Index. A newly proposed quantity characterizing the topological nature of structural isomers of saturated hydrocarbons. // Bull. Chem. Soc. Japan. 1971. - V. 44. - P. 2332-2339.

67. Kier L.B. A Shape Index from molecular graphs. // Quantum. Struct. Act. Relat. - 1985. V. 4. P. - 109-116.

68. Kier L.B. Shape indexes of orders one and three from molecular graphs. // Quantum. Struct. Act. Relat. - 1986. V. 5. P. - 1-7.

69. Kier L.B. Distinguishing atom differences in a molecular graph shape index. // Quantum. Struct. Act. Relat. - 1986. V. 5. P. - 7-12.

70. Kier L.B. Inclusion of symmetry as a shape attribute in kappa index analysis. // Quantum. Struct. Act. Relat. - 1987. V. 6. P. - 8-12.

71. Kier L.B. A substituent steric effect index based on the molecular graph. // Quantum. Struct. Act. Relat. - 1987. V. 6. P. - 117-122.

72. Wildman S.A., Grippen G.M. Prediction of physicochemical parameters by atomic contributions. // J. Chem. Inf. Comput. Sci. 1999. - V. 39. - P. 868-873.

73. Benson S.W., Buss J.H. Additivity rules for the estimation of molecular properties. Thermodynamic properties. // J. Chem. Phys. 1958. - V. 29. - P. 546-572.

74. Bernstein IT.J. The physical properties of molecules in relation to their structure. I. Relations between additive molecular properties in several homologous series. // J. Chem. Phys. 1952. - V. 20. - P. 263-269.

75. Franklin J.L. Calculation of the heats of formation of gaseous free radicals and ions. //J. Chem. Phys. 1952. -V. 21. P. 2029-2033.

76. Sounders M., Matthews C.S., ITurd C.O. Relationship of thermodynamic properties to molecular structure. Heat capacities and heat contents of hydrocarbon vapors. // Ind. Eng. Chem. 1949. -V. 41. - P. 1037-1048.

77. Zahn C.T. The significance of chemical bond energies. // J. Chem. Phys. 1934. -V. 2.-P. 671-680.

78. Fujita Т., Iwasa J., Hanch C. A new subslituent constant, n, derived from partition coefficients.//!. Am. Chem. Soc. 1964. - V. 86.-P. 5175-5180.

79. Hanch C., Muir R.M., Fujita Т., Maloney P.P., Streich M. The correlation of biological activity of plant growth regulators and Chloromycetin derivatives with Hammett constants and partition coefficients. // J. Am. Chem. Soc. 1963. V. 85. -P. 2817-2824.

80. Rekker R.F., de Kort H.M. The hydrophobic fragmental constant: an extension to a 1000 data point set. // Eur. J. Med. Chem. 1979. - V. 14. - P. 479-488.

81. Смоленский E.A. Применение теории графов к расчетам структурно-аддитивных свойств углеводородов. // Ж. Физ. Хим. 1964 - Т. 38. - 12881291.

82. Смоленский Е.А. Полуэмпирический метод расчета энергий образования предельных углеводородов // Докл. АН СССР. 1976 - Т. 230. - С. 373-376.

83. Free S.M., Wilson J.M., A mathematical contribution to structure-activity studies. // J. Med. Chem. 1964. - V. 7. - P. 395-399.

84. Klopman G. Artificial intelligence approach to structure-activity studies. Computer automated structure evaluation of biological activity of organic molecules. // J. Am. Chem. Soc. 1984. - V. 106. - P. 7315-7321.

85. Estrada E. Spectral moments of the edge adjacency matrix in molecular graphs. 1. Definition and applications to the prediction of physical properties of alkanes. // J. Chem. Inf. Comput. Sci. 1996. V. 36. - P. 844-849.

86. Estrada E. Spectral moments of the edge-adjacency matrix in molecular graphs. 2. Molecules containing heteroatoms and QSAR applications. // J. Chem. Inf. Comput. Sci. 1997. - V. 37. - P. 320-328.

87. Зефиров Н.С., Петелин Д.Е., Палюлип В.А., Макфарланд Дж.У. Исследование количественной связи между структурой 2-замещепных 1,2,4-триазип-3,5(2Н,4Н)-диопов и их антикокцидиой активности. // Докл. Акад. Наук,- 1992.-V. 327.-Р. 504-508.

88. Baskin I.I., Palyulin V.A., Zefirov N.S. A neural device for searching direct correlations between structures and properties of chemical compounds. // J. Chem. Inf. Comput. Sci. 1997. - V. 37. - 715.-721.

89. Zefirov N.S., Palyulin V.A. Fragmental approach in QSPR. // J. Chem. Inf. Comput. Sci.-2002.-V. 42.-P. 1112-1122.

90. Жохова Н.И., Баскип И.И., Палюлин B.A., Зефиров А.Н., Зефиров Н.С. Фрагментные дескрипторы в QSPR: применение для расчета температуры вспышки. // Изв. Акад. Наук. Химия. 2003. - № 9. - С. 1787-1793.

91. Жохова Н.И., Баскип И.И., Палюлин В.А., Зефиров А.Н., Зефиров Н.С. Фрагментные дескрипторы в QSPR: применение для расчета поляризуемости молекул. // Изв. Акад. Наук. Химия. 2003. - № 5. - С. 1005-1009.

92. Гальберштам Н.М., Баскии И.И., Палюлин В А., Зефиров Н.С. Построение нейросетевых зависимостей структура-условия-свойство. Моделирование физико-химических свойств углеводородов. // Докл. Акад. Наук. 2002. - Т. 384. - С. 202-205.

93. Sotomatsu Т., Murata Y., Fujita Т. Correlation analysis of substituent effect on the activity of benzoic acids by the AMI method. // J. Comput. Chem. 1989. -10.-94-98.

94. Pople J.A., Santry D.P., Segal G.A. Approximate self-consistent molecular orbital theory. I. Invariant procedures. // J. Chem. Phys. 1965. - V. 43. - P. S129-S135.

95. Pople J.A., Segal G.A. Approximate Self-Consistent Molecular Orbital Theory. III. CNDO Results for AB2 and AB3 Systems. // J. Chem. Phys. 1966. - V. 44. -P. 3289-3296

96. Bingham R.C., Deawr M.J.S., Lo D.H. Ground states of molecules. XXV. MINDO/3. Improved version of the MINDO semiempirical SCF-MO method. // J. Am. Chem. Soc. 1975. - V. 97. - P. 1285-1293

97. Dewar M.J.S., Thiel W. Ground states of molecules. 38. The MNDO method. Approximations and parameters. // J. Am. Chem. Soc. 1977. - V. 99. - P. 48994907.

98. Dewar M.J.S., Zoebisch E.G., Healy E.F., Stewart J.J.P. Development and use of quantum mechanical molecular models. 76. AMI: a new general purpose quantum mechanical molecular model. // J. Am. Chem. Soc. 1985. - V. 107. -P. 3902-3909.

99. Stewart J.J.P. Optimization of parameters for semiempirical methods I. Method. // J. Comput. Chem. 1989. - V. 10. - P. 209-220.

100. Clare B.W., Supuran C.T. Carbonic anhydrase activators. 3: Structure-activity correlations for a series of isozyme II activators. // J. Pharm. Sci. 1994. - V. 83. -P. 768-773.

101. Karelson M., Lobanov V.S., Katrizky A.R. Quantum-chemical descriptors in QSAR/QSPR studies. // Chem. Rev. 1996. - V. 96. - P. 1027-1043.

102. Cronin M.T.D., Schultz T.W. Structure-toxicity relationships for phenols to Tetrahymenapyriformis. II Chemosphere. 1996. - V. 32. - 1453-1468.

103. Balasubramanian К. Integration of graph theory and quantum chemistry for structure-activity relationships. // SAR QSAR Environ. Res. 1994. - V. 2. - P. 59-77.

104. Nakayama A., Hagiwara K., Hashimoto S., Shimoda S. QSAR of fungicidal A3-l,2,4-thiadiazolines. Reactivity-activity correlation of SH-inhibitors. // Quant. Struct. Act. Relat. - 1993. - V. 12. - P. 251-255.

105. Liu W., Yi P., Tang Z. QSPR models for various properties of polymethacrylates based on quantum chemical descriptors. // QSAR Comb. Sci. -2006.-V. 25.-P. 936-943.

106. Safarpour M.A., Hemmateenejad В., Miri R., Jamali M. Quantum chemical-QSAR study of some newly synthesized 1,4-dihydropyridine calcium channel blockers. // QSAR Comb. Sci. 2003. - V. 22. - P. 997-1005.

107. Dyekjser J.D., Jonsdottir S.O. QSPR models based on molecular mechanics and quantum chemical calculations. 2. thermodynamic properties of alkanes, alcohols, polyols, and ethers. // Ind. Eng. Chem. Res. 2003. - V. 42. - P. 42414259.

108. Ren B. A new topological index for QSPR of alkanes. // J. Chem. Inf. Sci. -1999.-V. 39.- 139-143.

109. Li X., Li Z., Ни M. A novel set of wiener indices. // J. Mol. Graph. Mod. -2003.-V. 22.-P. 161-172.

110. Rucker C., Meringer M., Kerber A. QSPR using MOLGEN-QSPR: the example of haloalkane boiling points. // J. Chem. Inf. Sci. 2004. - V. 44. - P. 2070-2076.

111. ITa Z., Ring Z., Liu S. Quantitative structure-property relationship (QSPR) models for boiling points, specific gravities, and refraction indices of hydrocarbons.//Energy and Fuels. -2005. V. 19.-P. 152-163.

112. Liu S., Cao C., Li Z. Approach to estimation and prediction for normal boiling point (NBP) of alkanes based on a novel molecular distance-edge (MDE) vector, X. II J. Chem. Inf. Comput. Sci. 1998. - V. 38. - P. 387-394.

113. Rucker G., Rucker C. On topological indices, boiling points, and cycloalkanes. // J. Chem. Inf. Comput. Sci. 1999. - V. - 39. - P. 788-802.

114. Balaban A.T., Basak S.C., Mills D. Normal boiling points of l,w-alkanedinitriles: the highest increment in a homologues series. // J. Chem. Inf. Comput. Sci. 1999. - V. 39. - P. 769-774.

115. Cao C., Yaun IT. Topological indices based on vertex, distance, and ring: on the boiling points of paraffins and cycloalkanes. // J. Chem. Inf. Comput. Sci. -2001.-V. 41.-P. 867-877.

116. Rucker C., Meringer M., Kerber A. QSPR using MOLGEN-QSPR: the challenge of fluoroalkane boiling points. // J. Chem. Inf. Mod. 2005. - V. 45. -74-80.

117. Oberg T. Boiling points of halogenated aliphatic compounds: a quantitative structure-property relationship for prediction and validation. // J. Chem. Inf. Comput. Sci.-2004.-V. 44.-P. 187-192.

118. Katrizky A.R., Maran U., Karelson M., Lobanov V.S. Prediction of melting points for the substituted benzenes: a QSPR approach. // J. Chem. Inf. Comput. Sci.- 1997.-V.37.-P. 913-919.

119. Katrizky A.R., Lomaka A., Petrukhin R., Jain R., Karelson M., Visser A.E., Rogers R.D. QSPR correlation of the melting point for pyridinium bromides, potential ionic liquids. // J. Chem. Inf. Comput. Sci. 2002. - V. 42. - P. 71-74.

120. Modarresi IT., Dearden J.C., Modarress H. QSPR correlation of melting point for drug compounds based on different sources of molecular descriptors. // J. Chem. Inf. Mod. 2006. - 46. P. 930-936.

121. Katrizky A.R., Petrukhin R., Jain R., Karelson M. QSPR analysis of flash points. I I J. Chem. Inf. Comput. Sci. 2001. - V. 41.-P. 1521-1530.

122. Sild S., Karelson M. A general QSPR treatment for dielectric constants of organic compounds. // J. Chem. Inf. Comput. Sci. 2002. - V. 42. - P. 360-367.

123. Bosque R., Sales J. A QSPR study of O-H bond dissociation energy in phenols. // J. Chem. Inf. Comput. Sci. 2003. - V. 43. P. 637-642.

124. Xue C.X., Zhang R.S., Liu II.X., Yao X.J., Liu M.C., I-Iu Z.D., Fan B.T. An accurate QSPR stady of O-H bond dissociation energy in substituted phenols based on support vector machines. J. Chem. Inf. Comput. Sci. 2004. - V. 44. -P. 669-677.

125. Delgado E.J., Alderete J.B., Matamala A.R., Jana G.A. On the aggregation state and QSPR models. The solubility of herbicides as a case study. // J. Chem. Inf. Comput. Sci. 2004. - V. 44. - P. 958-963.

126. Delgado E.J., Alderete J.B., Jana G.A. A simple QSPR model for predicting soil sorption coefficients of polar and nonpolar organic compounds from molecular formula. // J. Chem. Inf. Comput. Sci. 2003. - V. 43. - P. 1928-1932.

127. Liang C. QSPR prediction of vapor pressure from solely theoretically-derived descriptors. // J. Chem. Inf. Comput. Sci. 1998. - V. 38. P. 321-324.

128. Beck В., Breindl A., Clark T. QM/NN QSPR models with error estimation: vapor pressure and LogP. // J. Chem. Inf. Comput. Sci. 2000. V. 40. - P. 10461051.

129. Estrada E., Molina E. 3D connectivity indices in QSPR/QSAR studies. 11 J. Chem. Inf. Comput. Sci. 2001. - V. 41. - P. 791-797.

130. Espinosa G., Yaffe D., Cohen Y., Arenas A., Giralt F. Neural network based quantitative structural property relations (QSPRs) for predicting boiling points of aliphatic hydrocarbons. // J. Chem. Inf. Comput. Sci. 2000. - V. 40. - P. 859879.

131. Yaffe D., Cohen Y. Neural network based temperature-dependent quantitative structure property relations (QSPRs) for predicting vapor pressure of hydrocarbons. // J. Chem. Inf. Comput. Sci. 2001. - V. 41. - P. 463-477.

132. Agrafiotis D.K., Ccdeno W., Lobanov V.S. On the use of neural networks ensembles in QSAR and QSPR. // J. Chem. Inf. Comput. Sci. 2002. - 42. - 903911.

133. Yuan PI., Cao C. Topological indices based on vertex, edge, ring, and distance: application to various physicochemical properties of diverse hydrocarbons. // J. Chem. Inf. Comput. Sci. 2003. - V. 43. - P. 501-512.

134. Egolf L., Jurs P.C. Prediction of boiling points of organic heterocyclic compounds using regression and neural network techniques. // J. Chem. Inf. Comput. Sci. 1993,-V. 33.-P. 616-625.

135. Egolf L.M., Wessel M.D., Jurs P.C. Prediction of boiling points and critical temperatures of industrially important organic compounds from molecular structure. //J. Chem. Inf. Comput. Sci. 1994. - V. 34. P. - 947-956.

136. Basalc S.C., Gute B.D., Grunwald G.D. A comparative study of topological and geometrical parameters in estimating normal boiling point and octanol/water partition coefficient. // J. Chem. Inf. Comput. Sci. 1996. - V. 36. - P. 10541060.

137. Tripos Associates, Inc. Sybyl version 6.2. Tripos Associates, Inc. St. Louis, MO. 1995.

138. Hall L.H. Electrotopological state indices for atom types: a novel combination of electronic, topological, and valence state information. // J. Chem. Inf. Comput. Sci. 1995,-V. 35.-P. 1039-1045.

139. Hall L.H., Story C.T. Boiling point and critical temperature of a heterogeneous data set: QSAR with atom type electrotopological state indices using artificial neural networks. Hi. Chem. Inf. Comput. Sci. 1996. V. 36. - P. 1004-1014.

140. Katrizlcy A.R., Mu L., Lobanov V.S. Correlation of boiling points with molecular structure. 1. A training set of 298 diverse organics and a test set of 9 simple inorganics.//J. Phys. Chem. 1996. - V. 100. -P. 10400-10407.

141. Katritzky A.R., Lobanov V.S., Karelson M., CODESSA: reference manual; version 2. University of Florida, Geinesville, FL, USA, 1994.

142. Katrizlcy A.R., Lobanov V.S., Karelson M. Normal boiling points for organic compounds: correlation and prediction by a quantitative structure-property relationship. Hi. Chem. Inf. Comput. Sci.- 1998. V. 38. P. -28-41.

143. Goll E.S., Jurs P.C. Prediction of the normal boiling points of organic compounds from molecular structures with a computational neural network model. // J. Chem. Inf. Comput. Sci. 1999. - V. 39. - P. 974-983.

144. Stuper A.J., В rugger W.E., Jurs P.C. Computer assisted studies of chemical structure and biological function. / Wiley. 1979.

145. Chalk A.J., Beck В., Clark T. A quantum mechanical/neural net model for boiling points with error estimation. // J. Chem. Inf. Comput. Sci. 2001. - V. 41. -P. 457-462.

146. Clark Т., Alex A., Beck B, Chandrasekhar J., Gedeck P., Horn A., Flutter M., Rauhut G., Sauer W., Steinke T. VAMP 7.0, Oxford Molecular Ltd.: Medawar Centre, Oxford Science Park, Standfordon-Thames, Oxford, OX4 4GA, U.K. -1998.

147. Yao X., Fan В., Doucent J.P., Panaye A., Liu M., Zhang R., Zhang X., Hu Z. Quantitative structure property relationship models for the prediction of liquid heat capacity. // QSAR Comb. Sci. 2003. - V. 22. - P. 29-48.

148. Xue C.X., Zhang R.S., Liu H.X., Liu M.C., IIu Z.D., Fan B.T. Support vector machine-based quantitative structure-property relationship for the prediction of heat capacity. //J. Chem. Inf. Comput. Sci. 2004. - V. 44. - P. 1267-1274.

149. I-Iyperchem 4.0, Hypercube, Inc., FL, USA. 1994.

150. Dragon 5.4, Milano Chemometrics and QSAR research group. Milan, Italy. 2006.

151. Luan F., Ma W., Zhang H, Zhang X., Liu M., Hu Z., Fan B. Prediction of pKa for neutral and basic drugs based on radial basis function neural networks and the heuristic method. // Pharm. Res. 2005. - V. 22. - P. 1454-1460.

152. Chickos J.S., Acree W.E., Liebman J.F. Estimating solid-liquid phase change enthalpies and entropies. //J. Phys. Chem. Ref. Data. 1999. - V. 28. - P. 1-139.

153. Справочник химика. -Т. 2. -Химия, 1971.

154. CRC Handbook of chemistry and physics. CRC Press: Boca Raton, 19921993.

155. Catalogue Handbook of Fine Chemicals Aldrich. Sigma-Aldrich. 1994-1995.

156. Химический ф-т. МГУ. Москва.