Прогнозирование констант устойчивости комплексов лантанидов и щелочноземельных металлов с органическими лигандами и температур плавления ионных жидкостей методами химической информатики тема автореферата и диссертации по химии, 02.00.04 ВАК РФ

Киреева, Наталья Вадимовна АВТОР
кандидата химических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2010 ГОД ЗАЩИТЫ
   
02.00.04 КОД ВАК РФ
Диссертация по химии на тему «Прогнозирование констант устойчивости комплексов лантанидов и щелочноземельных металлов с органическими лигандами и температур плавления ионных жидкостей методами химической информатики»
 
Автореферат диссертации на тему "Прогнозирование констант устойчивости комплексов лантанидов и щелочноземельных металлов с органическими лигандами и температур плавления ионных жидкостей методами химической информатики"

Па правах рукописи

004603030

/

КИРЕЕВА Наталья Вадимовна

Прогнозирование констант устойчивости комплексов лантанидов н щелочноземельных металлов с органическими лигандами и температур плавления ионных жидкостей методами химической информатики

02.00.04 - физическая химия

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата химических наук

- 3 ИЮН 2010

Москва-2010

004603030

Работа выполнена в Институте физической химии и электрохимии им. А. Н. Фрумкина Российской академии наук и Университете Страсбурга

(Франция)

Научные руководители: академик РАН, профессор

Цивадзе Аслан Юсупович

профессор

Варнек Александр Алексеевич

Официальные

доктор химических наук Левин Александр Аронович

оппоненты:

кандидат химических наук, Палюлин Владимир Александрович

Ведущая организация: Центр фотохимии РАН

Защита диссертации состоится « 3 » июня 2010 г. в «15» часов на заседании диссертационного совета Д 002.259.02 в Институте физической химии и электрохимии РАН по адресу: 119991, Москва, Ленинский проспект, д. 31, корп. 4, конференц-зал.

С диссертацией можно ознакомиться в библиотеке химической литературы РАН (119991, Москва, Ленинский проспект, д. 31, корп. 4).

Автореферат разослан «29» апреля 2010 г.

Ученый секретарь диссертационного совета кандидат химических наук

Н. П. Платонова

Актуальность темы.

Создание новых реагентов для селективного связывания и разделения катионов металлов представляет современную актуальную и сложную задачу. Реагенты для селективного связывания катионов металлов используются в качестве флуоресцентных и фотохромных лигандов, в экстракции для разделения катионов, в транспорте ионов через мембраны, в ион-селективных электродах, самоорганизующихся наносистемах, в качестве компонентов супрамолекулярных устройств. Актуальность исследований обусловлена и развитием супрамолекулярной химии, применением ее технологий, важная ветвь которой - химия ионофоров. За долгие годы в этих областях был накоплен большой объем экспериментальных данных. Средства современной информатики, и, в частности, методы химической информатики, могут играть важную роль в анализе этих данных при поиске новых соединений, обладающих заданной селективностью комплексообразования и определенной устойчивостью их комплексов. Еще одним аргументом в пользу использования информационных технологий является трудоемкость экспериментальных измерений устойчивости комплексов металлов с различными лигандами.

Компьютерный поиск новых реагентов для селективного связывания и разделения ионов металлов в растворах является серьёзной задачей вследствие сложности меж- и внутримолекулярных взаимодействий, происходящих при связывании металл-лиганд. Комплексообразование -сложный процесс, включающий стадии десольватации катиона, конформационные преобразования лиганда, взаимодействия катион-лиганд и сольватацию, где стабильность комплексов зависит от числа и типа координационных центров лиганда, его топологии, а также влияния растворителя. Возможно протонирование/депротонирование лиганда, образование ионных пар и др.

Традиционно при моделировании комплексообразования используются методы квантовой химии, молекулярного моделирования и химической информатики. Первые два метода в большинстве случаев применяют для интерпретации уже известных феноменов. Химическая информатика - это раздел теоретической химии, базирующийся на своей собственной молекулярной модели. В отличие от квантовой химии, в которой молекулы представлены как ансамбли электронов и ядер, и основанного на силовых полях молекулярного моделирования, имеющего дело с классическими "атомами" и "связями", химическая информатика рассматривает молекулы как объекты в пространстве химических дескрипторов (некоторых численных молекулярных параметров). При подобном представлении, моделируемое свойство представляется как функция дескрипторов. Значение данной функции определяется с помощью методов машинного обучения (machine learning) и может быть представлено как QSPR (Quantitative Structure Property Relationship) модель, связывающая структуру соединения с его свойством (нередко употребляется термин «модель «структура-свойство»»). В последние десятилетия этот метод используется для решения таких задач, как разработка новых лекарственных препаратов, прогноз физико-химических свойств молекул, для моделирования и прогноза биологической активности.

Прогнозирование констант устойчивости комплексов до сих пор не является стандартной процедурой в силу структурного многообразия объектов. Сложность прогнозирования констант устойчивости является одной из основных причин малого числа публикаций моделей «структура-свойство» в этой области. Большая часть этих моделей была получена на небольших и однородных наборах лигандов, и, в ряде случаев, прогнозирующая способность моделей не была оценена, что не позволяет признать их надежность.

В рассматриваемой работе предложен ряд методологических разработок, позволивших получить линейные и нелинейные модели, характеризующиеся надежной предсказательной способностью при прогнозировании констант устойчивости комплексов состава 1:1 (М:Ь) катионов металлов (М) с органическими лигандами (Ь) в воде. Разработанные подходы и алгоритмы были также применены при моделировании температуры плавления ионных жидкостей, в последнее время часто применяемых в качестве «зелёных» растворителей при экстракции лигандов. Цель работы.

Моделирование и прогнозирование констант устойчивости комплексов катионов лантанидов и щелочноземельных металлов с органическими лигандами в воде и температуры плавления ионных жидкостей методами химической информатики.

Поставленная цель достигнута путем решения следующих задач:

- сбор, анализ и стандартизация экспериментальных данных: констант устойчивости комплексов катионов металлов с органическими лигандами и температуры плавления ионных жидкостей,

- выбор соответствующих свойству дескрипторов и разработка подходов для выбора наиболее значимых дескрипторов,

- выбор эффективных методов машинного обучения и рациональных процедур тестирования моделей,

- построение математических моделей взаимосвязи структуры со свойством и тестирование моделей на прогностическую способность,

- разработка подходов по определению области применимости моделей,

- применение моделей к прогнозированию свойств новых соединений,

- разработка программного обеспечения, необходимого для реализации поставленных задач.

Научная новнзна. Впервые выполнено QSPR моделирование и построены математические модели для прогноза констант устойчивости комплексов катионов лантанидов и щелочноземельных металлов с разнообразными органическими лигандами в воде с использованием линейных и нелинейных методов машинного обучения с применением субструктурных молекулярных фрагментов в качестве дескрипторов. Полученные модели «структура-свойство» могут использоваться практически для расчета комплексообразующих свойств органических молекул и поиска новых лигандов при помощи разработанного программного обеспечения COMET (COmplexation of METals). Разработаны новые алгоритмы по отбору переменных (дескрипторов) для моделей и новые подходы по определению области применимости моделей.

Практическая значимость работы. Полученные QSPR модели комплексообразования щелочноземельных катионов, лантанидов и серебра были интегрированы в программное обеспечение COMET, позволяющее интерактивно применять модели для прогноза констант устойчивости химических соединений - потенциальных кандидатов для проведения синтеза.

Разработанный алгоритм и компьютерная программа пошагового прямого отбора переменных для выбора наиболее значимых дескрипторов, вошел в состав информационной системы ISIDA (http://infochim.u-strasbg.fr/recherche/isida/ index.php), развиваемый в Университете Страсбурга и Институте физической химии и электрохимии РАН.

Настоящая работа была выполнена в рамках Российско-Французского проекта "Supraehem в 2 организациях: Институте физической химии и электрохимии им. А. Н. Фрумкина Российской академии наук и Университете Страсбурга.

Вклад автора. Все включенные в диссертацию результаты получены, проанализированы и обобщены лично автором или при его непосредственном участии. Автор участвовала в выборе стратегии работы и постановки задач, ей выбраны методы решения поставленной задачи и сформулированы выводы. Автор также принимала участие в создании необходимого программного обеспечения.

Апробация работы. По материалам работы были представлены доклады на симпозиумах и конференциях, в частности: Meeting Chemoinformatics in Europe (Obemai, France, 29 may - 1 June 2006); на XVIII Менделеевском съезде по общей и прикладной химии в Москве в 2007 г., Международной летней школе по химической информатике «CheminfoSS» в Оберне (Франция) в 2008 г., конференции GDR PARIS (Авиньон, Франция) в 2008 г.

Публикации. Содержание работы изложено в трёх статьях в реферируемых журналах и тезисах 6 докладов на научных конференциях.

Структура и объём диссертации. Диссертация состоит из введения, 3 разделов, содержащих соответственно обзор литературы (первая, вторая и третья главы), методологическую часть (4-7 главы) и применение разработанных методов к решению поставленных задач с обсуждением полученных результатов (главы 8 - 10), выводов, списка литературы и приложений. Работа изложена на 180 страницах печатного текста и содержит 56 рисунков и 13 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ.

Введение. Обоснована актуальность работы, сформулирована её цель, определены задачи, которые необходимо решить для достижения поставленной цели, показана научная новизна и практическое значение полученных результатов.

Первый раздел, обзор литературы, включает в себя 3 главы. Первая глава посвящена описанию методов химической информатики и различных аспектов разработки и проверки прогнозирующей способности количественных моделей. Дано описание методов машинного обучения, задействованных в рассматриваемой работе при разработке моделей: множественной линейной регрессии, метода опорных векторов и ассоциативных нейронных сетей. Приведен обзор молекулярных дескрипторов, и предложена их классификация. Дано описание наиболее популярных методов отбора переменных и методов определения области применимости моделей. Описан программный пакет 15ГОА, используемый при разработке моделей. Вторая глава содержит обзор литературы по QSPR моделированию комплексообразования металлов в различных средах. Обзор литературы завершается третьей главой, в которой рассмотрены известные работы, связанные с моделированием температур плавления ионных жидкостей.

Второй раздел диссертации содержит описание новых методологических разработок, предложенных в рамках данной диссертационной работы для решения поставленной задачи и охватывающих все стадии моделирования от разработки моделей до проверки их предсказательной способности и непосредственного применения. В данный раздел входят четыре главы (Главы 4-7 диссертационной работы).

Глава 4 посвящена проблеме отбора переменных, используемых для построения моделей. Отбор переменных, также известный как отбор признаков или атрибутов, широко исиользуется в химической информатике и машинном обучении, когда среди тысяч или десятков тысяч доступных переменных необходимо выбрать только значимые для построения надежной модели.

Для моделирования «структура-свойство» в предыдущей версии программы ISIDA/MLR использовался либо весь заданный набор дескрипторов или часть из них, выбранных с помощью пошагового обратного отбора переменных (backward stepwise variable selection (BVS)). BVS процедура удаляет переменные с низкими значениями I, = а,/Да,, где Да, - стандартное отклонение для коэффициента а, при /'-ой переменной в MLR модели. В итерационной процедуре выбирается переменная с минимальным значением /,""" < t0, и строится новая модель, исключая эту переменную. Процедура повторяется, чтобы t, > t0 для любой г-той переменной в MLR модели. Здесь t0 - табулированное значение критерия Стыодента. Для неколлинеарных дескрипторов используемый метод сингулярного разложения (SVD) позволяет рассчитать значения Да,, если начальное число дескрипторов М не превышает размера обучающей выборки N. Чтобы применить оправдавшую себя технику BVS к большим начальным наборам дескрипторов (М > N), в настоящей работе разработан новый алгоритм и компьютерная программа пошагового прямого отбора переменных (forward stepwise variable selection (FVS)) для отбора заданного числа Мр (М < Мр< N) наиболее значимых дескрипторов. FVS алгоритм основан на использовании моделей с одной, двумя или тремя переменными для текущих остатков (разностей) между экспериментальными и рассчитанными значениями свойства. В соответствии с этими тремя типами простых моделей, предложены три суб-алгоритма FVS-1, FVS-2 и FVS-3, и исследована их эффективность. Для обучающего набора данных, включающего N объектов, на каждом шаге р процедура FVS минимизирует остатки Ypl = Y1*" - Ycak, где Ym) = УаР, Р = 1, 2, 3,... и УЫс = ce + CiX, (FVS-1), Ycalc = с0 + CiX, + CjXj (FVS-2) или Ycaic - Co + CjX, + CjXj + CkXk (FVS-3). Независимые переменные - одна (XJ, две {X„ Xj) или три , X, и XiJ выбираются, чтобы максимизировать коэффициент корреляции (Ryi, Ryij или R>UJh соответственно) между

7

переменной (переменными) и остатками гр>. Цикл повторяется до достижения заданного числа выбранных переменных Мр. Использованы аналитические формулы и скоростные алгоритмы для расчета коэффициентов корреляции КУх,, Иу1, и Яуук.

Выполнена оптимизация параметров ЕУБ и ВУ8 алгоритмов. Для этого <38Р11 моделирование проведено, используя три суб-алгоритма РУв-1, РУв-2 и РУ8-3 и экспериментальные величины констант устойчивости 10^ комплексов (Са2+)Ь и (8г2+)Ь в воде. Число выбранных дескрипторов Мр систематически варьировалось в интервале от О.Шдо 0.9N, где N -размер обучающей выборки. Ш8Е 2.2

2.0

1.8

1.4

Са2

г

0.3 0.6 0.9

г—т—I 0.3 0.6 0.9 РУ8-2

I г

0.3 0.6 0.9 к

РУЗ-З

Рис. 1. Погрешность ЯМ5Е предсказания константы

устойчивости ^А" комплексов (Са2+)Ь консенсус моделями. Ошибка КМБЕ дана для пятикратного скользящего тестирования и в зависимости от типа суб-алгоритма РУ8-1, РУ8-2 и РУЭ-З и числа к (доля от размера обучающей выборки) отобранных

дескрипторов.

Алгоритм РУв-2 обеспечил лучшие результаты (рис.1) по сравнению с подходами РУ8-1 и РУв-З согласно величине среднеквадратичной ошибки (НМБЕ) прогноза консенсус моделью. Согласно консенсус модели (КМ) величина свойства вычисляется для каждого тестируемого или сконструированного соединения, как среднее арифметическое величин, рассчитанных по ряду отобранных статистически устойчивых моделей, исключая резко выделяющиеся спрогнозированные величины и учитывая

области применимости моделей (см. ниже, глава 6). Оптимальное число выбранных дескрипторов Мр соответствует 0.6М Доказано, что коллинеарность дескрипторов существенно не влияет на предсказательную точность ЯМБЕ консенсус моделей: процедура РУБ-2 удаляла очередную переменную Х„„ если она коррелировала (| | > с другой переменной Х„ которая уже выбрана для данной модели. Граничное значение /?",> при этом систематически варьировалось в интервале от 0.40 до 0.99.

Эффективность предложенной комбинированной процедуры отбора переменных была сопоставлена с широко известными методоми на основе генетического алгоритма и энтропии Шеннона, и была найдена сравнимой с генетическим алгоритмом и превосходящей алгоритм энтропии Шеннона.

В главе 5 изложены результаты изучения влияния коллинеарности моделей на их прогнозирующую способность. Программа ^ША/МЬИ генерирует ансамбль индивидуальных моделей, некоторые из которых могут «перекрывать» друг друга. Практически это означает, что разные исходные наборы субструктурных молекулярных фрагментов (дескрипторов) могут привести к идентичным или очень сходным моделям. В связи с этим возникает вопрос, в какой степени коллинеарность индивидуальных моделей влияет на предсказательную способность консенсус модели? Коэффициент корреляции (речь идет о коэффициенте корреляции Пирсона) между остатками пары моделей /?,„, используется в качестве меры коллинеарности моделей.

Остатки представляют собой разности между экспериментальными и предсказанными значениями свойства. Индивидуальная модель г исключается из КМ, если она коррелирует (| И,,„ | > с другой моделью т, которая уже включена в КМ. Граничное значение К" систематически варьировалось от 0.40 до 0.99. С^РИ. моделирование выполнено для

комплексообразования катионов Са2+, Sr2+ и Ва2+ с органическими лигандами в воде. Результаты (рис. 2) демонстрируют, что неиспользование MLR моделей с коэффициентом корреляции между собой I Rm I > 0.8 приводит к улучшению точности прогноза КМ. Полученный минимум ошибки RMSE при R° = 0.8 определил оптимальную степень коллинеарности моделей, что использовалось во всех дальнейших расчетах.

Рис. 2. Значение

среднеквадратичной ошибки прогноза (RMSE) в

о Sr2+ зависимости от степени кол-ва2+ линеарности индивидуальных моделей.

В Главе 6 описан разработанный нами новый метод, относящийся к одной из наиболее актуальных в последние годы группе подходов известных, как методы определения области применимости моделей (Applicability Domain of Models). Идея заключается в выделении в исходном (дескрипторном) пространстве области с высокой плотностью данных обучающей выборки. Предполагается, что свойства соединений тестовой выборки, попавших в данную область («основной» класс), будут спрогнозированы с более высокой точностью, чем соединения, оказавшиеся за пределами этой области. Технически идея разделения «основного» класса и соединений, ему не принадлежащих, реализуется посредством построения гиперповерхности в специальном пространстве большей размерности Я (пространстве признаков), в которое векторы X дескрипторов отображаются из исходного пространства посредством

нелинейного преобразования Ф: X 3! _ Данное отображение Ф осуществляется таким образом, что для всех пар векторов х, и х: скалярное произведение их проекций Ф(х,)и Ф(х;) в этом новом пространстве может быть вычислено, как функция К(х^ х) (так называемый кернел или ядро) в исходном пространстве:

К{х1, ) =< Ф(х,), Ф(xj) >

Смещение разделяющей гиперповерхности в область большей плотности данных, с одной стороны, увеличивает точность прогноза соединений, идентифицированных как «целевой класс», с другой стороны, возрастает количество соединений, идентифицируемых как чужеродные (не принадлежащие к «целевому» классу). Метод должен быть оптимизирован таким образом, чтобы обеспечить наилучшее соотношение между точностью расчета и покрытием химического пространства с/, определяемого соотношением числа соединений, отнесенных к «целевому классу» к общему числу соединений.

Метод был использован при прогнозе констант устойчивости катионов Са2+, Б Г* и Ва2+ с органическими лигандами в воде. Значительное улучшение предсказательной способности регрессионных моделей (уменьшение ошибки ЯМБЕ на 40-45%) было получено при 80%-м покрытии химического пространства (рис. 3).

В отличие от ранее существовавших методов определения области применимости моделей этот подход зависит только от исходного набора дескрипторов, сгенерированных для обучающей и тестовой выборок. Полученные результаты показывают, что данный метод может быть эффективно применен в виртуальном скрининге для поиска соединений, сходных с «активными»,!! для отброса чужеродных структур.

RMSE

1.8

1.6

1.7

комплексов катионов Са", Бг и Ва2+ с органическими лигандами в воде. Ошибка прогнозирования (ЛД1БЕ) в зависимости от покрытия химического пространства д.

Рис. 3. Прогнозирование

констант устойчивости (logAT) ______

1.5

1.4

1.3

1.2

1.1

о-

■O...Q-

Э'

1.0 ---.---,-.-,-

40 50 60 70 «0 90 100

Ч

В Главе 7 была предложена новая концепция совместного использования методов определения области применимости моделей, призванная улучшить качество прогноза. В большинстве опубликованных на данный момент работ, посвященных концепции области применимости моделей, для улучшения качества прогноза использовался лишь один метод. Тем не менее, в ряде случаев, особенно в ситуациях, когда необходимо учитывать несколько ограничивающих факторов, использование одного подхода может быть недостаточным, и одновременное применение нескольких комплементарных подходов может явиться более эффективным.

В данной главе был предложен еще один метод определения области применимости моделей. Метод фрагментного контроля (MFC) модели, в отличие от подхода, предложенного в предыдущей главе, зависит от модели, так как работает с фрагментными дескрипторами, входящими в рассматриваемую модель. Метод учитывает максимальное и минимальное количество дескрипторов модели в общем наборе молекулярных фрагментов для данной фрагментации обучающего набора данных. Соединение считается не принадлежащим области применения модели,

если данное значение выходит за границы этого диапазона.

Два метода для определения области применения моделей, предложенных в данной диссертационной работе (одноклассовая классификация метода опорных векторов 1-SVM и метод фрагментного контроля модели MFC), вместе с уже известными и применяемыми подходами (фрагментный контроль FC, разновидность метода к ближайших соседей zkNN) были задействованы в данной работе для решения двух задач: (i) удаление так называемых «выбросов» и (ii) отбрасывание заведомо «ложных» соединений. В данной работе «выбросами» считались соединения, для которых ошибка прогноза превышала два стандартных отклонения, полученных на модели.

На рис. 4 представлена точность прогноза величин \ogK для комплексообразования EuJ+ с органическими лигандами в воде в зависимости от выбранного метода определения области применимости моделей. Из рисунка видно, что применение методов фрагментного контроля и одноклассовой классификации метода опорных векторов привело к уменьшению ошибки прогноза моделей.

Рис. 4. Зависимость точности прогноза

величин log/T для комплексообразования Еи3+ с органическими лигандами в воде от выбранного метода

определения области применимости моделей: применение моделей множественной линейной регрессии и метода опорных векторов к внешнему тестовому набору данных.

3.9 3.8 3.7 Ufa 3.6

•J:

г з.5 3.4 3.3 3.2

Coverage,

Wiihoni FC AD

sSILR SVM

Эффективность методов определения области применимости моделей была оценена в данной работе также и при отбрасывании соединений, заведомо не являющихся комплексонами. Для этого был задействован набор данных, содержащий 74 алкана. При анализе результатов было обнаружено, что лишь один из рассматриваемых методов (фрагментный контроль модели MFC) безошибочно отбросил все «ложные» комплексоны.

Глава 8 содержит результаты QSPR моделирования и прогнозирования констант устойчивости logA' комплексов состава 1:1 (M:L) катионов металлов (М) с органическими лигандами (L) в воде при температуре 25 С и ионной силе 0.1 моль/л. Изучены комплексы катионов щелочноземельных металлов (М2+) ввиду их биологической важности (Mg2 \ Са2+) и влияния на окружающую среду (Sr2+, Ва2+), лантанидов (Ln3+) и серебра (Лg4) вследствие их технологической ценности. Выбор объектов моделирования также определялся доступностью экспериментальных данных. Построены сотни линейных (множественная линейная регрессия) и десятки нелинейных (метод опорных векторов, ассоциативные нейронные сети) моделей для прогнозирования устойчивости комплексов катионов щелочноземельных металлов, всех лантанидов (13 катионов Ln3+ за исключением Рг") и серебра (Ag+).

Соответствующие исходные данные, задействованные при разработке моделей, содержали экспериментальные значения констант устойчивости комплексов катионов металлов (122 - 379 (М2т), 152 - 290 (Ln3+) и 188 (Ag+)) с разнообразными классами органических лигандов (рис. 5).

ж

/R1 V

R2 - "2 X = CnH2n,c-C1,H2„-2, C„H2„0H, Ar, C„H2„(NCH2COOH)m, (C„H2„0) m? AlkP(0)(0H)Alk

Ri,R2 = H, CH2COOH, C„H2n(COOH)2, C„H2n(OH), AlkP(0)(0H)2,

СпНзпОСпНь,

CnH2nNXC„H2 lb C6H4OH, CH2Py, ArS(0)20H, CH2C(0)NHR', Ar, ArOH

R-N

Ri-R3 = H,

CH2COOH,

CH(COOH)2,

C„H2n.,(COOH)2:

CH2P(0)(0H)2,

C„H2„S(0)20H,

CH2Py, AlkOH,

CH2PhOH,

AIkP(0)(0H)2,

Ar,

AlkN(R)(CH2CO OH)

О О

HCAR^OH

R = CnH2n, Ar,

C„H2„OCmH2m,

C„H2„.|OH,

CJ-ImNHJ,

CnH2„NXC

C„H2n.i,

CH2COOH

и

R-^^OH ]m

R = Alk, c-AIk, Ar, AlkNH2, Alk(OH)„, AlkSH, ArOAlk, Ar(OH)n, Aiken ш = 1 - 6

Ckrk)

N О N

w

k, m= 1,2

R"H„

R = Ar, n = 1-3

О

о

R = Alk, Ar, ArOH, Ar(OH)p(COOH)m( NH2)k n =1-3

0 о

II II

R-P-OH R-P-OH

1 I OH R

R = Alk, OAlk, OAlk(OH)n, Ar, OAr

n/i

r~\

о o-

P--X X-R.

Vti

6 - c ^

-,N N; R^ \—' R

w

ГЛ

R—N N-R

o~)

R, R[ - Ra = H, CH2COOH, CHMeCOOH, CH2P(0)(0H)2, CH2P(0)(0H)Et; AlkOH

X = О (no R|), N; n~ 0 - 3

0 0

11 11

1 R I

он он R = Alk, CnH^NXCnHa,

Рис. 5. Основные топологические группы органических лигандов, используемых при QSPR моделировании констант устойчивости комплексов катионов металлов.

В качестве дескрипторов были использованы подструктурные молекулярные фрагменты, являющиеся непосредственными производными от молекулярной структуры, определяющей значение свойства. Экспериментальные значения констант устойчивости комплексов были критически отобраны из базы данных IUPAC SC DB.

Процедура пятикратного внешнего скользящего контроля (5-fold external cross-validation) была применена для проверки качества полученных моделей. В зависимости от метода машинного обучения и

15

металла, точность прогноза (среднеквадратичная ошибка RAISE в единицах log/T) меняется в диапазонах: 1.6 - 3.0 (LnJ+), 1.0 - 1.6 (М2+), 1.5 - 1.7 (Ag+) (рис. 6). В большинстве случаев, модели, полученные различными методами машинного обучения, показали схожую предсказательную способность. С другой стороны, консенсус-модель этих методов показала наилучшую прогнозирующую способность по сравнению с моделями каждого подхода.

Се Pr Nd Sm Eu Gd Tb Dy Ho Er Tm Yb Lu Mg Ca Sr Ba Ag ■ MLR eSVM SASNN «CM

Рис. 6. Моделирование "структура-свойство" констант устойчивости logAT комплексов состава 1:1 (M:L) катионов лантанидов с органическими лигандами (L) в воде с использованием линейных и нелинейных методов машинного обучения и их консенсус-моделей: среднеквадратична» ошибка прогноза (RMSE) при пятикратном внешнем скользящем контроле.

Нами был разработан предиктор COMET (COmplexation of METals) для применения QSPR моделей для прогноза констант устойчивости комплексов катионов металлов с органическими лигандами в растворах.

доступный к использованию как интерактивное интернет-приложение (http://infochim. u-strasbs. fr/czi-bin/predictor.cgi) и как стандартное приложение. Разработанные в настоящей работе QSPR модели (от 35 до 154 моделей на металл) комплексообразования щелочноземельных катионов, лантанидов и серебра были интегрированы в COMET предиктор. Эти модели могут быть применены по отдельности или все вместе, образуя консенсус модель, как среднее арифметическое индивидуальных моделей, исключая резко выделяющиеся прогнозы некоторых из них и принимая во внимание разработанные подходы по оценке области применимости моделей. Это позволяет теоретически конструировать новые органические лиганды, обеспечивая экспериментаторов структурами новых потенциальных реагентов.

Разработанные и интегрированные в предиктор модели прошли также внешний контроль на наборе данных, не участвовавшем в получении моделей и содержащем экспериментальные константы устойчивости для 32 комплексов лантанидов с органическими лигандами в воде. Были проверены различные сочетания методов машинного обучения и методов определения области применимости моделей. Проведенные расчеты показали схожую точность прогноза с полученной при пятикратном внешнем скользящем контроле. Информация о предикторе и результаты внешнего контроля моделей вошли в Главу 9 диссертации.

Глава 10 содержит результаты моделирования «структура -свойство» температур плавления ионных жидкостей. Ионные жидкости -класс новых растворителей, обладающих технически полезными свойствами, и способные заменить традиционные органические растворители в экстракции, синтезе, катализе и др. Несколькими авторами из различных научных центров было проведено совместное моделирование

и прогнозирование температуры плавления ионных жидкостей трех структурных классов. Применен широкий набор методов машинного обучения: метод опорных векторов, ассоциативные нейронные сети, множественная линейная регрессия, метод к ближайших соседей, метод частичных наименьших квадратов, нейронные сети обратного распространения в сочетании с использованием разных типов дескрипторов. Расчеты были выполнены на структурно разнообразном наборе данных, содержащем 717 соединений и включающем 126 бромидов производных пиридиния, 384 бромида производных имидазолия и бензоимидазолия, 207 бромидов четвертичных аммониевых солей (рис. 7).

Кг Р!,

Рис. 7. Структурные классы ионных жидкостей, использованные для С^РЯ моделирования температуры плавления.

Для оценки точности прогноза температуры плавления с использованием полученных моделей была применена процедура пятикратного внешнего скользящего контроля, выявившая небольшое преимущество нелинейных методов (методы опорных векторов и нейронных сетей) над другими подходами вне зависимости от выбранного типа дескрипторов. Были получены модели 16 комбинаций методов машинного обучения и используемых типов дескрипторов как для полного набора соединений, так и для трех отдельных структурных классов пиридиния, имидазолия и четвертичных аммониевых солей. Среднеквадратичная ошибка прогноза, рассчитанная на комбинации пяти независимых тестовых выборок,

варьируется в диапазоне 37.5 - 46.4 °С.

Несколько заниженный уровень точности прогноза может быть связан как с недостаточным качеством известных экспериментальных данных, используемых при получении моделей, так и со сложностями учета возможных структурных особенностей ионных жидкостей в твердой фазе (полиморфизм, эвтектики).

ВЫВОДЫ.

1. Моделирование «структура-свойство».

• Разработаны модели "структура - свойство" для прогнозирования устойчивости комплексов состава 1:1 (М:Ь) катионов 13 лаитанидов (Ьп3*), 4 щелочноземельных металлов (М2+) и серебра (Ag+) с разнообразными органическими лигандами в воде. В зависимости от метода машинного обучения, точность прогноза (среднеквадратичная ошибка в 1о§ЛЭ меняется в диапазонах: 1.6 - 3.0 (Ьп3+), 1.0 - 1.6 (М2+), 1.5 - 1.7 (Ag+). Методы машинного обучения показали схожую предсказательную способность. Консенсус-модель методов показала лучшую прогнозирующую способность по сравнению с моделями каждого подхода.

• Разработанные в настоящей работе (}8Р11 модели (от 35 до 154 моделей на металл) комплексообразования щелочноземельных катионов, лантанидов и серебра и методы определения области применимости моделей были интегрированы в программное обеспечение СОМЕТ (СОтр1ехаиоп оГ МЕТаЬ) - предиктор, доступный для использования как интерактивное интернет-приложение (р1Пр://т{осМт. и-ч/га^Ь? {г/сы-ЬЫргесИсШ. с&).

• Проведено моделирование «структура - свойство» температур плавления 717 ионных жидкостей на основе бромидов производных пиридиния, имидазолия и бензоимидазолия, четвертичных аммониевых солей. Широкий набор методов машинного обучения был применен в сочетании с разными типами дескрипторов. Среднеквадратичная ошибка прогноза, рассчитанная на комбинации пяти независимых тестовых выборок, варьируется в диапазоне от 37.5 до 46.4 °С.

2. Методологические разработки.

• Разработан новый алгоритм и компьютерная программа пошагового прямого отбора переменных для выбора заданного числа наиболее значимых дескрипторов. Выполнена оптимизация параметров процедуры отбора переменных.

• Был определен диапазон коллинеарности индивидуальных моделей, обеспечивающий наилучшее прогнозирование моделируемого свойства.

• Предложены два новых подхода по определению области применимости моделей: одноклассовая классификация метода опорных векторов и метод фрагментного контроля модели.

• Предложена новая концепция совместного использования методов определения области применимости моделей для улучшения качества прогноза.

3. Разработка программного обеспечения.

• Модуль для прямого пошагового отбора переменных (Delphi)

• Скрипты, организующие работу процедуры одкоклассовой классификации метода опорных векторов и обработку результатов (Perl)

• Проект COMET: скрипты для создания XML файлов (Perl).

• Процедура расчета индекса энтропии Шеннона для фрагментных дескрипторов.

Основные результаты диссертации опубликованы в следующих научных работах:

Статьи

1. Соловьев В. П., Киреева Н. В., Цивадзе А. Ю., Варнек А. А. Моделирование «структура - свойство» комплексообразования стронция с органическими лигандами в воде.// Ж. структур, химии -2006. - Т. 47, N 2 - С. 303-317.

2. Varnek A., Kireeva N„ Tetko I.V., Baskin LI. and Solov'ev V.P. Exhaustive QSPR studies of a large diverse set of ionic liquids: How accurately can we predict melting points? J. Chem. Inf. Mod., 47 (3), pp. 1111-1122(2007).

3. Varnek A., Fourches D., Kireeva N., Klimchuk O., Marcou G., Tsivadze A. and Solov'ev V.P. Computer-aided design of new metal binders. Radiochimica Acta, 96, pp 505-511 (2008).

Тезисы докладов

1. N. Kireeva, G. Marcou, V.P. Solov'ev, D. Fourches, O. Klimchuk and A. Varnek. COMET - chemoinformatics tools for predicting stability of metal complexes in solution. XVIII Mendeleev's Congress on General and Applied Chemistry, 23 - 28 September 2007, Moscow, Russia.

2. N. Kireeva, G. Marcou, V.P. Solov'ev, D. Fourches, O. Klimchuk and A. Varnek. COMET - predictive tools to assess stability of metal complexes in solution. GDR PARIS, 7-8 February, 2008, Avignon, France.

3. Baskin I.I., Zhokhova N.I., Varnek A., Kireeva N., Tetko I.V. and Solov'ev V.P. The use of modern machine ¡earning approaches to model properties depending on intermolecular interactions. The melting points of ion liquids ans stability constants of supramolecular complexes. XVIII Mendeleev's Congress on General and Applied Chemistry, 23 - 28 September 2007, Moscow, Russia

4. Kireeva N, Marcou G., Varnek A., Baskin I., Migita K., Arakawa M., Funatsu K. Ensemble approach to applicability domains of SAR/QSAR models. Strasbourg Summer School on Chemoinformatics, Obernai, France, 22-25 June 2008.

5. N, Kireeva, G. Marcou, V.P. Solov'ev, D. Fourches, O. Klimchuk and A. Varnek. Development of predictive tools to assess stability of metal complexes in solution. Tuapse, International Summer School "Supramolecular Systems in Chemistry and Biology", 28 September - 2 October 2008.

6. N. Kireeva, G. Marcou, V.P. Solov'ev, O. Klimchuk and A. Varnek. WEB-COMET - interactive tool for prediction of stabilities of metal complexes in solution. GDR PARIS, 12 - 14 March, 2009, Avignon, France.

Благодарности.

Автор выражает глубокую признательность руководителям диссертационной работы академику АЛО. Цивадзе и профессору A.A. Варнеку за всестороннюю помощь; д.х.н. В.П. Соловьёву (ИФХЭ им. Фрумкииа РАН), к.х.н. И.И. Баскину (МГУ), д-ру Ж. Марку (Dr. G. Marcou) и д-ру И.В. Тетко (ÎBSB, Мюнхен, Германия) за содействие в выполнении работы и плодотворное обсуждение результатов, коллегам из лаборатории химической информатики университета Страсбурга (UdS) д-ру Д. Хорвату (Dr. D. Horvath) и д-ру О. Климчук (Dr. О. Klimchuk), членам жюри защиты диссертации в Университете Страсбурга д-рам И. Бияр (Dr. I. Billiard), Ф. Жофре (Dr. Ph. Jauffret) и к.х.н. В. А. Палюлину а также драм Д. Фуршу (Dr. D. Fourches), Ф. Хонаккеру (Dr. F. Hoonakker) и С. Годану (Dr. С. Gaudin). Автор также благодарит за поддержку Российско-Французский проект Suprachem, в рамках которого выполнялась данная работа, Посольство Республики Франции в России и College Doctoral Européen (Strasbourg).

Подписано в печать: 27.04.2010

Заказ № 3647 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

 
Содержание диссертации автор исследовательской работы: кандидата химических наук, Киреева, Наталья Вадимовна

Введение.

Раздел I. Обзор литературы.

1. Разработка моделей и оценка их прогнозирующей способности.

1.1. Молекулярные дескрипторы.

1.2. Методы машинного обучения.

1.2.1. Множественная линейная регрессия.

1.2.2. Искусственные нейронные сети.

1.2.3. Метод опорных векторов.

1.3. Методы отбора переменных.

1.3.1. Фильтры.

1.3.2. Методы-оболочки.

1.3.3. Вложенные методы.

1.4. Методы определения области применимости моделей.

1.4.1. Диапазонные методы.

1.4.2. Методы, основанные на расчете расстояний.

1.4.3. Методы на основе плотности распределения вероятности.

1.5. Программное обеспечение ISIDA для моделирования "структура-свойство".

1.5.1. Общая информация.

1.5.2. Фрагментные дескрипторы ВША.

1.5.3. Процедура отбора переменных.

1.5.4. Использование ансамбля моделей, выбор моделей.

1.5.5. Проверка прогностической способности моделей.

2. Обзор работ по моделированию комплексообразования металлов в растворах.

3. Обзор работ по моделированию "структура-свойство" температур плавления ионных жидкостей.

Раздел П. Методологические разработки.

4. Комбинированный алгоритм отбора переменных.

5. Изучение влияния коллинеарности моделей на их прогнозирующую способность.

6. Область применимости моделей структура-свойство: одноклассовая классификация для анализа данных и определения области применимости моделей.

7. Концепция совместного использования методов определения области применимости моделей.

Раздел Ш. Моделирование "структура-свойство".

8. Количественные модели "структура - свойство" для прогнозирования комплексообразования металлов в воде.

8.1. Лантаниды.

8.2. Щелочноземельные металлы.

8.3. Переходные металлы: Ag+.

9. Программное обеспечение для прогнозирования значений констант устойчивости: COMET (COmplexation of METals) предиктор.

9.1. Интеграция моделей.

9.2. Информация о программе.

9.2.1. Общая информация.

9.2.2. Стандартный и WEB-интерактивный интерфейс COMET предиктора.

9.3. Внешний контроль прогнозирующей способности моделей "структура-свойство".

10. Ионные жидкости: моделирование температур плавления.

 
Введение диссертация по химии, на тему "Прогнозирование констант устойчивости комплексов лантанидов и щелочноземельных металлов с органическими лигандами и температур плавления ионных жидкостей методами химической информатики"

Актуальность темы.

Создание новых реагентов для селективного связывания и разделения катионов металлов представляет современную актуальную и сложную задачу. Реагенты для селективного связывания катионов металлов используются в качестве флуоресцентных и фотохромных лигандов, в экстракции для разделения катионов, в транспорте ионов через мембраны, в ион-селективных электродах, самоорганизующихся наносистемах, в качестве компонентов супрамолекулярных устройств. Актуальность исследований обусловлена и развитием супрамолекулярной химии, применением ее технологий, важная ветвь которой - химия ионофоров. За долгие годы в этих областях был накоплен большой объем экспериментальных данных. Средства современной информатики, и, в частности, методы химической информатики, могут играть важную роль в анализе этих данных при поиске новых соединений, обладающих заданной селективностью комплексообразования и определенной устойчивостью их комплексов. Еще одним аргументом в пользу использования информационных технологий является трудоемкость экспериментальных измерений устойчивости комплексов металлов с различными лигандами.

Компьютерный поиск новых реагентов для селективного связывания и разделения ионов металлов в растворах является серьёзной задачей вследствие сложности меж- и внутримолекулярных взаимодействий, происходящих при связывании металл-лиганд. Комплексообразование — сложный процесс, включающий стадии десольватации катиона, конформационные преобразования лиганда, взаимодействия катион-лиганд и сольватацию, где стабильность комплексов зависит от числа и типа координационных центров лиганда, его топологии, а также влияния растворителя. Возможно протонирование/депротонирование лиганда, образование ионных пар и др.

Традиционно при моделировании комплексообразования используются методы квантовой химии, молекулярного моделирования и химической информатики. Первые два метода в большинстве случаев применяют для интерпретации уже известных феноменов. Химическая информатика - это раздел теоретической химии, базирующийся на своей собственной молекулярной модели. В отличие от квантовой химии, в которой молекулы представлены как ансамбли электронов и ядер, и основанного на силовых полях молекулярного моделирования, имеющего дело с классическими "атомами" и "связями", химическая информатика рассматривает молекулы как объекты в пространстве химических дескрипторов (некоторых численных молекулярных параметров). При подобном представлении, моделируемое свойство представляется как функция дескрипторов. Значение данной функции определяется с помощью методов машинного обучения {machine learning) и может быть представлено как QSPR (Quantitative Structure Property Relationship) модель, связывающая структуру соединения с его свойством (нередко употребляется термин «модель «структура-свойство»»). В последние десятилетия методы химической информатики используются для решения таких задач, как разработка новых лекарственных препаратов, прогноз физико-химических свойств молекул, для моделирования и прогноза биологической активности.

Прогнозирование констант устойчивости комплексов до сих пор не является стандартной процедурой в силу структурного многообразия объектов. Сложность прогнозирования констант устойчивости является одной из основных причин малого числа публикаций моделей «структура-свойство» в этой области. Большая часть этих моделей была получена на небольших и однородных наборах лигандов, и, в ряде случаев, прогнозирующая способность моделей не была оценена, что не позволяет признать их надежность.

В рассматриваемой работе предложен ряд методологических разработок, позволивших получить линейные и нелинейные QSPR модели, характеризующиеся надежной предсказательной способностью при прогнозировании констант устойчивости комплексов состава 1:1 (M:L) катионов металлов (М) с органическими лигандами (L) в воде. Разработанные подходы и алгоритмы были также применены при моделировании температуры плавления ионных жидкостей, в последнее время часто применяемых в качестве «зелёных» растворителей.

Цель работы.

Моделирование и прогнозирование констант устойчивости комплексов катионов лантанидов и щелочноземельных металлов с органическими лигандами в воде и температуры плавления ионных жидкостей методами химической информатики.

Поставленная цель достигнута путем решения следующих задач:

- сбор, анализ и стандартизация экспериментальных данных: констант устойчивости комплексов катионов металлов с органическими лигандами и температуры плавления ионных жидкостей,

- выбор соответствующих свойству дескрипторов и разработка подходов для выбора наиболее значимых дескрипторов,

- выбор эффективных методов машинного обучения и рациональных процедур тестирования моделей,

- построение математических моделей взаимосвязи структуры со свойством и тестирование моделей на прогностическую способность,

- разработка подходов по определению области применимости моделей,

- применение моделей к прогнозированию свойств новых соединений,

- разработка программного обеспечения, необходимого для реализации поставленных задач.

Научная новизна.

Впервые выполнено QSPR моделирование и построены математические модели для прогноза констант устойчивости комплексов катионов лантанидов и щелочноземельных металлов с разнообразными органическими лигандами в воде с использованием линейных и нелинейных методов машинного обучения с применением субструктурных молекулярных фрагментов в качестве дескрипторов. Полученные модели «структура-свойство» могут использоваться практически для расчета комплексообразующих свойств органических молекул и поиска новых лигандов при помощи разработанного программного обеспечения COMET (COmplexation of METals). Разработаны новые алгоритмы по отбору переменных (дескрипторов) для моделей и новые подходы по определеншо области применимости моделей.

Практическая значимость работы

Полученные QSPR модели комплексообразования щелочноземельных катионов, лантанидов и серебра были интегрированы в программное обеспечение COMET, позволяющее интерактивно применять модели для прогноза констант устойчивости химических соединений - потенциальных кандидатов для проведения синтеза.

Разработанный алгоритм и компьютерная программа пошагового прямого отбора переменных для выбора наиболее значимых дескрипторов, вошел в состав информационной системы ISIDA (http://infochim.u-strasbg.fr/recherche/isida/ index.php), развиваемый в Университете Страсбурга и Институте физической химии и электрохимии РАН.

Настоящая работа была выполнена в рамках Российско-Французского проекта "Suprachem в 2 организациях: Институте физической химии и электрохимии им. А. Н. Фрумкина Российской академии наук и Университете Страсбурга.

Вклад автора. Все включенные в диссертацию результаты получены, проанализированы и обобщены лично автором или при его непосредственном участии. Автор участвовала в выборе стратегии работы и постановки задач, ей выбраны методы решения поставленной задачи и сформулированы выводы. Автор также принимала участие в создании необходимого программного обеспечения.

Апробация работы. По материалам работы были представлены доклады на симпозиумах и конференциях, в частности: Meeting Chemoinformatics in Europe (Obernai, France, 29 may - 1 June 2006); на ХУШ Менделеевском съезде по общей и прикладной химии в Москве в 2007 г., Международной летней школе по химической информатике «CheminfoS3» в Оберне (Франция) в 2008 г., конференции GDR PARIS (Авиньон, Франция) в 2008 г.

Публикации. Содержание работы изложено в трёх статьях в реферируемых журналах и тезисах 6 докладов па научных конференциях.

 
Заключение диссертации по теме "Физическая химия"

Основные результаты диссертации опубликованы в следующих научных работах: Статьи

1. Соловьев В. П., Киреева Н. В., Цивадзе А. Ю., Варнек А. А. Моделирование «структура - свойство» комплексообразования стронция с органическими лигандами в воде.// Ж. структур, химии - 2006. - Т. 47, N 2 - С. 303-317.

2. Varnek A., Kireeva N., Tetko I.V., Baskin I.I. and Solov'ev V.P. Exhaustive QSPR studies of a large diverse set of ionic liquids: How accurately can we predict melting points? J. Chem. Inf. Mod., 47 (3), pp. 1111-1122 (2007).

3. Varnek A., Fourches D., Kireeva N., Klimchuk O., Marcou G., Tsivadze A. and Solov'ev V.P. Computer-aided design of new metal binders. Radiochimica Acta, 96, pp 505-511 (2008).

Тезисы докладов

1. N. Kireeva, G. Marcou, V.P. Solov'ev, D. Fourches, O. Klimchuk and A. Varnek. COMET — chemoinformatics tools for predicting stability of metal complexes in solution. XVIH Mendeleev's Congress on General and Applied Chemistry, 23 - 28 September 2007, Moscow, Russia.

2. N. Kireeva, G. Marcou, V.P. Solov'ev, D. Fourches, O. Klimchuk and A. Varnek. COMET — predictive tools to assess stability of metal complexes in solution. GDR PARIS, 7-8 February, 2008, Avignon, France.

3. Baskin I.I., Zhokhova N.I., Varnek A., Kireeva N„ Tetko I.V. and Solov'ev V.P. The use of modern machine learning approaches to model properties depending on intermolecular interactions. The melting points of ion liquids ans stability constants of supramolecular complexes. XVIII Mendeleev's Congress on General and Applied Chemistry, 23 - 28 September 2007, Moscow, Russia

4. Kireeva N, Marcou G., Varnek A., Baskin I., Migita K., Arakawa M., Funatsu K. Ensemble approach to applicability domains of SAR/QSAR models. Strasbourg Summer School on Chemoinformatics, Obernai, France, 22-25 June 2008.

5. N. Kireeva, G. Marcou, V.P. Solov'ev, D. Fourches, O. Klimchuk and A. Varnek. Development of predictive tools to assess stability of metal complexes in solution.

Tuapse, International Summer School "Supramolecular Systems in Chemistry and Biology", 28 September - 2 October 2008. 6. N. Kireeva, G. Marcou, V.P. Solov'ev, O. Klimchuk and A. Varnek. WEB-COMET-interactive tool for prediction of stabilities of metal complexes in solution. GDR PARIS, 12 - 14 March, 2009, Avignon, France.

Благодарность.

Автор выражает глубокую признательность руководителям диссертационной работы академику А.Ю. Цивадзе и профессору А.А. Варнеку за всестороннюю помощь; д.х.н. В.П. Соловьёву (ИФХЭ им. Фрумкина РАН), к.х.н. И.И. Баскину (МГУ), д-ру Ж. Марку (Dr. G. Marcou) и д-ру И.В. Тетко (IBSB, Мюнхен, Германия) за содействие в выполнении работы и плодотворное обсуждение результатов, коллегам из лаборатории химической информатики университета Страсбурга (UdS) д-ру Д. Хорвату (Dr. D. Horvath) и д-ру О. Климчук (Dr. О. Klimchuk), членам жюри защиты диссертации в Университете Страсбурга д-рам И. Бияр (Dr. I. Billiard), Ф. Жофре (Dr. Ph. Jauffret) и к.х.н. В. А. Палюлину а также д-рам Д. Фуршу (Dr. D. Fourches), Ф. Хонаккеру (Dr. F. Hoonakker) и С. Годану (Dr. С. Gaudin). Автор также благодарит за поддержку Российско-Французский проект Suprachem, в рамках которого выполнялась данная работа, Посольство республики Франции в России и College Doctoral Europcen (CDE, Strasbourg).

 
Список источников диссертации и автореферата по химии, кандидата химических наук, Киреева, Наталья Вадимовна, Москва

1. Gasteiger, J. and Т. Engel, eds. Chemoinformatics: A Textbook. 2003, Wiley-VCH: Weinheim.

2. Wiener, H. Structural Determination of Paraffin Boiling Points. // J. Am. Chem. Soc. -1947. Vol. 69 № p. 17-20.

3. Balaban, A.T. Topological Indices Based on Topological Distances in Molecular Graphs. // Pure Appl. Chem. 1983. - Vol. 55 № p. 199.

4. Randic, M. Characterization of Molecular Branching. // J. Am. Chem. Soc. 1975. - Vol. 97 №23.-p. 6609-6615.

5. Kier, L.B. and L.H. Hall. Molecular Connectivity in Chemistry and Drug Research. 1976, New York (NY): Academic Press. 257.

6. Kier, L.B. and L.H. Hall. Molecular Connectivity in Structure-Activity Analysis. 1986, Letchworth: Research Studies Press.

7. Hall, L.H. and L.B. Kier. Electrotopological State Indices for Atom Types: A Novel Combination of Electronic, Topological, and Valence State Information. // J. Chem. Inf. Comput. Sci. -1995. Vol. 35 № p. 1039-1045.

8. Kier, L.B. and L.H. Hall. An Electrotopological State Index for Atoms in Molecules. // Pharm. Res. -1990. Vol. 7 № p. 801-807.

9. Kier, L.B. and L.H. Hall. Molecular Structure Description: The Electrotopological State. 1999, London: Academic Press. 257.

10. Varnek, A. and A. Tropsha. Chemoinformatics: Approaches to Virtual Screening. . 2009: Royal Society of Chemistry.

11. Adamson, G.W., et al. Strategic Considerations in the Design of a Screening System for Substructure Searches of Chemical Structure Files. // J. Chem. Doc. 1973. - Vol. 13 № 3.-p. 153-157.

12. Feldman, A. and L. Hodes. An Efficient Design for Chemical Structure Searching. I. The Screens. // J. Chem. Inf. Model. 1975. - Vol. 15 № 3. - p. 147-152.

13. Milne, M., et al. Search of CA Registry (1.25 Million Compounds) with the Topological Screens System. // J. Chem. Doc. 1972. - Vol. 12 № 3. - p. 183-189.

14. Willett, P. A Screen Set Generation Algorithm. // J. Chem. Inf. Model. 1979. - Vol. 19 № 3. - p. 159-162.

15. Willett, P. The Effect of Screen Set Size on Retrieval from Chemical Substructure Search Systems. // J. Chem. Inf. Model. 1979. - Vol. 19 № 4. - p. 253-255.

16. Benson, S.W. and J.H. Buss. Additivity Rules for the Estimation of Molecular Properties. Thermodynamic Properties. // J. Chem. Phys. 1958. - Vol. 29 № 3. - p. 546-572.

17. Benson, S.W., et al. Additivity Rules for the Estimation of Thermochemical Properties. // Chem. Rev. 1969. - Vol. 69 № 3. - p. 279-324.

18. Tatevskii, V.M. The Classical Theory of the Structure of Molecules and Quantum Mechanics. 1973, M.: Khimiya.

19. Tatevskii, V.M. The Theory of Physicochemical Properties of Molecules and Substances. 1987, M.: MSU Publishing House.

20. Allen, T.L. Bond Energies and the Interactions between Next-Nearest Neighbors. I. Saturated Hydrocarbons, Diamond, Sulfanes, Ssub 8., and Organic Sulfur Compounds. // J. Chem. Phys. 1959. - Vol. 31 № 4. - p. 1039-1049.

21. Baskin, I.I., et al. NASAWIN A Universal Software for QSPR/QSAR Studies. // in EuroQSAR 2002 Designing Drugs and Crop Protectants: processes, problems and solutions., M. Ford, Editor. - 2003. Blackwell Publishing, p. 260-263.

22. Convard, Т., et al. SMILOGP: A Program for a Fast Evaluation of Theoretical LogP from the Smiles Code of a Molecule. // Quant. Struct.-Act. Relat. 1994. - Vol. 13 № p. 34-37.

23. Gakh, A.A., et al. Neural Network-Graph Theory Approach to the Prediction of the Physical Properties of Organic Compounds. // J. Chem. Inf. Comput. Sci. 1994. - Vol. 34 № 4. - p. 832-9.

24. Klopman, G. MULTICASE. 1. A Hierarchical Computer Automated Structure Evaluation Program. // Quant. Struct.-Act. Relat. 1992. - Vol. 11 № 2. - p. 176-84.

25. Klopman, G. The MultiCASE Program П. Baseline Activity Identification Algorithm (BAIA). // J. Chem. Inf. Comput. Sci. 1998. - Vol. 38 № 1. - p. 78-81.

26. Nilakantan, R., et al. Topological Torsion: A New Molecular Descriptor for SAR Applications. Comparison with Other Descriptors. // J. Chem. Inf. Comput. Sci. 1987. -Vol. 27 № 2. - p. 82-85.

27. Rucker, G. and C. Rucker. Counts of All Walks as Atomic and Molecular Descriptors. // J. Chem. Inf. Comput. Sci. 1993. - Vol. 33 № 5. - p. 683-695.

28. Smolenskii, E.A. Utilization of the Theory of Graphs for the Calculation of Structure-Additive Properties of Hydrocarbons. // Zh. Fiz. Khim. 1964. - Vol. 38 № 5. - p. 128891.

29. Suzuki, Т. and Y. Kudo. Automatic log P Estimation Based on Combined Additive Modeling Methods. // J. Comput. Aided. Mol. Des. 1990. - Vol. 4 № 2. - p. 155-98.

30. Wildman, S.A. and G.M. Crippen. Prediction of Physicochemical Parameters by Atomic Contributions. //J. Chem. Inf. Comput. Sci. 1999. - Vol. 39 № 5. - p. 868-873.

31. Zahn, C.T. The Significance of Chemical Bond Energies. // J. Chem. Phys. 1934. - Vol. 2 № p. 671-680.

32. Varnek, A., et al. Substructural Fragments: an Universal Language to Encode Reactions, Molecular and Supramolecular Structures. // J. Comput. Aided Mol. Des. 2005. - Vol. 19 № 9-10. - p. 693-703.

33. Todeschini, R. and P. Grammatica. New 3D molecular Descriptors: The WHIM theory and QSAR Applications. // Perspective in Drug Discovery and Design. 1996. - Vol. 9 № p. 355 - 380.

34. Todeschini, R., M. Lasagni, and E. Marengo. New Molecular Descriptors for 2D- and 3D- Structures Theory. // J. Chemom. 1994. - Vol. 8 № p. 263 - 273.

35. Broto, P., G. Moreau, and C. Vandycke. Molecular Structures: Perception, Autocorrelation Descriptor and SAR Studies. // Eur. J. Med. Chem. 1984. - Vol. 19 № p. 66 - 70.

36. Wagener, M., J. Sadowski, and J. Gasteiger. Autocorrelation of Molecular Surface Properties for Modeling Corticosteroid Binding Globulin and Cytosolic Ah Receptor Activity by Neural Networks. // J. Am. Chem. Soc. 1995. - Vol. 117 № p. 7769 - 7775.

37. Soltzberg, L.G. and C.L. Wilkins. Molecular Transforms: a Potential Tool for Structure-Activity Studies. // J. Am. Chem. Soc. 1977. - Vol. 99 № p. 439 - 443.

38. Hemmer, M.C., V. Steinhauer, and J. Gasteiger. The Prediction of the 3D Structure of Organic Molecules from Their Infrared Spectra. // Vibrat. Spectroscopy. 1999. - Vol. 19 № p. 151 - 164.

39. Todeschini, R. and V. Consonni. Handbook of Molecular Descriptors. 2000, Weinheim: Wiley-VCH Publishers.

40. Mining Graph Data. ed. D.J. Cook and L.B. Holder. 2007, New Jersey: John Wiley & Sons.

41. Golub G. H. and Reinsch C. Singular Value Decomposition and Least Squares Solutions. // Numer. Math. 1970. - Vol. 14 № p. 403-420.

42. Tetko, I.V. Neural Network Studies. 4. Introduction to Associative Neural Networks. // J. Chem. Inf. Comput. Sci. 2002. - Vol. 42 № 3. - p. 717-728.

43. Tetko, I.V. Assocoative Neural Network. // Neural Proc. Lett. 2002. - Vol. 16 № 2. - p. 187 - 199.

44. Bishop, C. Neural Networks for Pattern Recognition. 1995, Oxford: Oxford University Press.

45. Tetko, I.V. and A.E.P. Villa. Efficient Partition of Learning Data Sets for Neural Network Training. // Neural Networks. 1997. - Vol. 10 № p. 1361-1374.

46. Press, W.H., et al. Numerical Recipes in C. The art of Scientific Computing. 1988: Cambridge University Press.

47. Cristianini, N. and J. Shawe-Taylor. An Introduction To Support Vector Machines (and Other Kernel-Based Learning Methods). Cambridge Monographs on Applied and Computational Mathematics 2000: Cambridge University Press.

48. Ivanciuc, O., ed. Applications of Support Vector Machines in Chemistry. Reviews in Computational Chemistry, ed. K.B. Lipkowitz and T.R. Cundary. Vol. 23. 2007, Wiley-VCH: Weinheim.

49. Vapnik, V. Statistical Learning Theory. 1998: Wiley-Interscience.

50. Vapnik, V.N. The Nature of Statistical Learning Theory. 1995: Springer.

51. Gonzalez, M.P., et al. Variable Selection Methods in QSAR: An Overview. // Current Topics in Medicinal Chemistry. 2008. - Vol. 8 № p. 1606-1627.

52. Livingstone, D.J. and D.W. Salt, Variable selection Spoilt for choice?, in Rev. in Comput. Chem. 2005. p. 287-348.

53. Guyon, I., et al., eds. Feature Extraction: Foundations and Applications. Studies in Fuzziness and Soft Computing. 2006, Springer.

54. Whitley, D.C., M.G. Ford, and D.J. Livingstone. Unsupervised Forward Selection: A Method for Eliminating Redundant Variables. // J. Chem. Inf. Сотр. Sci. 2000. - Vol. 40№5. -p. 1160-1168.

55. Godden, J.W. and J. Bajorath. Differential Shannon Entropy as a Sensitive Measure of Differences in Database Variability of Molecular Descriptors. // J. Chem. Inf. Comput. Sci. 2001. - Vol. 41 № 4. - p. 1060-1066.

56. Godden, J.W. and J. Bajorath. An Information -Theoretic Approach to Descriptor Selection for Database Profiling and QSAR Modeling. // QSAR Comb. Sci. 2003. - Vol. 22 № p. 487 - 497.

57. Shannon, C.E. and W. Weaver. The Mathematical Theory of Communication. 1963: University of Illinois Press.

58. Stahura, F.L., et al. Distinguishing Between Natural Products and Synthetic Molecules by Shannon Descriptor Entropy Analysis and Binary QSAR Calculations. // J. Chem. Inf. Comput. Sci. 2000. - Vol. 40 № p. 1245 - 1252.

59. Liu, H., J. Li, and L. Wong. A Comparative Study on Feature Selection and Classification Methods Using Gene Expression Profiles and Proteomic Patterns. // Genome Informatics. 2002. - Vol. 13 № p. 51-60.

60. Liu, Y. A comparative Study on Feature Selection Methods for Drug Discovery. // J. Chem. Inf. Comput. Sci. 2004. - Vol. 44 № p. 1823 - 1828.

61. Venkatraman, V., A.R. Dalby, and Z.R. Yang. Evaluation of Mutual Information and Genetic Programming for Feature Selection in QSAR. // J. Chem. Inf. Comput. Sci. -2004. Vol. 44 № p. 1686 - 1692.

62. Kovahi, R. and G.H. John. Wrappers for Feature Subset Selection. // Artif. Intell. 1997. - Vol. 97 № p. 273 - 324.

63. Agostinelli, C. Robust Stepwise Regression. // J. Appl.Stat. 2002. - Vol. 29 № p. 825 -840.

64. Miller AJ. Subset Selection in Regression. // Chapman and Hall, London. 1990. - Vol. № p. 43 - 82.

65. Steyerberg, E.W., M.J. Eijkemans, and J.D. Habbema. Stepwise Selection in Small Data sets: A Simulation Study of Bias in Logistic Regression Analysis. // J. Clin. Epidemiol. 1999. - Vol. 52 № p. 935 - 942.

66. Zhokhova, N.I., et al. Fragmental Descriptors with Labeled Atoms and Their Application in QSAR/QSPR Studies. // Doklady Chemistry. 2007. - Vol. 417 № 2. - p. 282-284.

67. Kubinyi, H. Variable Selection in QSAR Studies. П. A Highly Efficient Combination of Systematic Search and Evolution. // Quant. Struct.-Act. Relat. 1994. - Vol. 13 № 4. - p. 393-401.

68. Gonzalez, M.P., et al. A Radial Distribution Function Approach to Predict A(2B) Agonist Effect of Adenosine Analogues. // Bioorg. Med. Chem. 2005. - Vol. 13 № p. 601 - 608.

69. Solov'ev, V.P., A. Varnek, and G. Wipff. Modeling of Ion Complexation and Extraction Using Substructural Molecular Fragments. // J. Chem. Inf. Comput. Sci. 2000. - Vol. 40 № 3. - p. 847-858.

70. Varnek, A., et al. Assessment of the Macrocyclic Effect for the Complexation of Crown-Ethers with Alkali Cations Using the Substructural Molecular Fragments Method. // J. Chem. Inf. Comput. Sci. 2002. - Vol. 42 № 4. - p. 812-829.

71. Sutter, J.M. and J.H. Kalivas. Comparison of Forward Selection, Backward Elimination, and Generalized Simulated Annealing for Variable Selection. // Microchemical journal -1993. Vol. 47 № 1-2. - p. 60 - 66.

72. Dellivers, J. Genetic Algorithms in Molecular Modelling. 1996, London: Academic Press.

73. Rogers, D. and A.J. Hopfinger. Application of Genetic Function Approximation to Quantitative Structure-Activity Relationships and Quantitative Structure-Property Relationships. // J. Chem. Inf. Сотр. Sci. 1994. - Vol. 34 № p. 854.

74. Leardi, R., R. Boggia, and M. Terrile. Genetic Algorithms as a Strategy for Feature Selection. // J. Chemom. 1992. - Vol. 6 № p. 267.

75. Kubinyi, H. Variable Selection in QSAR Studies. I. An Evolutionary Algorithm. // Quant. Struct.-Act. Relat. 1994. - Vol. 13 № 3. - p. 285-94.

76. Kovalishyn, V.V., et al. Neural Network Studies. 3. Variable Selection in the Cascade-Correlation Learning Architecture. // J. Chem. Inf. Comput. Sci. 1998. - Vol. 38 № 4. -p. 651-659.

77. So, S.-S. and M. Karplus. Genetic Neural Networks for Quantitative Structure-Activity Relationships: Improvements and Application of Benzodiazepine Affinity for Benzodiazepine/GABAA Receptors. // J. Med. Chem. 1996. - Vol. 39 № 26. - p. 52465256.

78. Nicolotti, O. and A. Carotti. QSAR and QSPR Studies of a Highly Structured Physicochemical Domain. // J. Chem. Inf. Model. 2006. - Vol. 46 № 1. - p. 264-276.

79. Cho, S.J. and M.A. Hermsmeier. Genetic Algorithm Guided Selection: Variable Selection and Subset Selection. // J. Chem. Inf. Comput. Sci. 2002. - Vol. 42 № 4. - p. 927-936.

80. Wegner, J.K., H. Frohlich, and A. Zell. Feature Selection for Descriptor Based Classification Models. 1. Theory and GA-SEC Algorithm. // J. Chem. Inf. Comput. Sci. -'2003. Vol. 44 № p. 921 - 930.

81. Jalali-Heravi, M. and A. Kyani. Application of Genetic Algorithm-Kernel Partial Least Square as a Novel Nonlinear Feature Selection Method: Activity of Carbonic Anhydrase П Inhibitors. // Eur. J. Med. Chem. 2007. - Vol. 42 № p. 649 - 659.

82. Schefzick, S. and M. Bradley. Comparison of Commercially Available Genetic Algorithms: GAs as Variable Selection Tool. // J. Comput. Aided Mol. Des. 2004. -Vol. 18 №7-9.-p. 511-521.

83. Metropolis, N., et al. Equation of State Calculations by Fast Computing Machines. // J. Chem. Phys. 1953. - Vol. 21 № p. 1087 - 1092.

84. Zheng, W. and A. Tropsha. Novel Variable Selection Quantitative Structure-Property Relationship Approach Based on the K-Nearest-Neighbor Principle. // J. Chem. Inf. Comput. Sci. 2000. - Vol. 40 № 1. - p. 185-194.

85. Kapetanios, G. Variable Selection in Regression Models Using Nonstandard Optimisation of Information Criteria // Comput. Statistics & Data Analysis. 2007. - Vol. 52 № 1. - p. 4-15.

86. Dorigo, M. and T. Stiitzle. Ant Colony Optimization. Bradford Books. 2004: MIT Press.

87. Izrailev, S. and D.K. Agrafiotis. Variable Selection for QSAR by Artificial Ant Colony Systems. // SAR & QSAR in Environmental Research. 2002. - Vol. 13 № 3 & 4. - p. 417-423.

88. Shen, Q., et al. Modified Ant Colony Optimization Algorithm for Variable Selection in QSPR Modeling: QSAR Studies of Cyclooxygenase Inhibitors. // J. Chem. Inf. Model. -2005. Vol. 45 № p. 1024 - 1029.

89. Kennedy, J. and R.C. Eberhart. Swarm Intelligence. 2001: Morgan Kaufmann.

90. Agrafiotis, D. and W. Cedeno. Feature Selection for Structure-Activity Correlation Using Binary Particle Swarms. // J. Med. Chem. 2002. - Vol. 45 № 5. - p. 1098-1107.

91. Cedeno, W. and D. Agrafiotis. Using Particle Swarms for the Development of QSAR Models Based on K-Nearest Neighbor and Kernel Regression. // J. Comput. Aided Mol. Des. 2003. - Vol. 17 № 2-4. - p. 255-263.

92. Breiman, L., et al. Classification and Regression Trees. 1984: Wadsworth and Brooks.

93. Weston, J., et al. Feature Selection for SVMs. // Advances in Neural Inf. Proc. Syst. -2000. Vol. 12 № p. 526 - 532.

94. Perkins, S., K. Lacker, and J. Theiler. Grafting: Fast, Incremental Feature Selection by Gradient Descent in Function Space. // J. Machine Learning Research. 2003. - Vol. 3 № p. 1333 - 1356.

95. Guyon, I., et al. Gene Selection for Cancer Classification using Support Vector Machines. // J. Machine Learning Research. 2003. - Vol. 3 № p. 1439 - 1461.

96. Rakotomamonjy, A. Variable Selection Using SVM-based Criteria. // J. Machine Learning Research. 2003. - Vol. 3 № p. 1357 - 1370.

97. Tibshirani, R. Regression Shrinkage and Selection via the Lasso. // J. Royal Stat. Society. 1996. - Vol. 58 № 1. - p. 267 - 288.

98. Jaworska, J., N. Nikolova-Jeliazkova, and T. Aldenberg. QSAR Applicability Domain Estimation by Projection of the Training Set in Descriptor Space: A Review. // ATLA Alternatives to Laboratory Animals. 2005. - Vol. 33 № 5. - p. 445-459.

99. Sheridan, R.P., et al. Similarity to Molecules in the Training Set Is a Good Discriminator for Prediction Accuracy in QSAR. // ATLA Alternatives to Laboratory Animals. 2004. -Vol. 44 № 6. - p. 1912-1928.

100. Fernandez Piema, J.A., et al. Methods for Outlier Detection in Prediction. // Chem. Int. Lab. Syst. 2002. - Vol. 63 № p. 27- 39.

101. Bruneau, P. and N.R. McElroy. LogD7.4 Modeling Using Bayesian Regularized Neural Networks. Assessment and Correction of the Errors of Prediction. // J. Chem. Inf. Model. 2006. - Vol. 46 № 3. - p. 1379-1387.

102. Papa, E.e.a. Statistically Validated QSARs, Based on Theoretical Descriptors for Modeling Aquatic Toxicity of Organic Chemicals in Pimephales Promelas (fathead minnow). // J. Chem. Inf. Model. 2005. - Vol. 45 № p. 1256 - 1276.

103. Shen, M., et al. Development and Validation of k-Nearest-Neighbor QSPR Models of Metabolic Stability of Drug Candidates. // J. Med. Chem. 2003. - Vol. 46 № 14. - p. 3013-3020.

104. Tetko, I.V., et al. Can We Estimate the Accuracy of ADMET Predictions? // Drug Discovery Today. 2006. - Vol. 11 № 15/16. - p. 700-707.

105. Tetko, I.V., et al. Critical Assessment of QSAR Models of Environmental Toxicity against Tetrahymena pyriformis: Focusing on Applicability Domain and Overfitting by Variable Selection. // J. Chem. Inf. Model. 2008. - Vol. 48 № 9. - p. 1733-1746.

106. Tropsha, A., P. Gramatica, and V.K. Gombar. The Importance of Being Earnest: Validation is the Absolute Essential for Successful Application and Interpretation of QSPR Models. // QSAR & Combinatorial. Sci. 2003. - Vol. 22 № i. p. 69 - 77.

107. Duda, R. and P. Hart. Pattern Classification and Scene Analysis. 1973, New York: John Wiley & Sons.

108. Parzen, E. On Estimation of a Probability Density Function and Mode. // Annals of Math. Stat. 1962. - Vol. 33 № p. 1065-1076.

109. Constans, P. and J.D. Hirst. Nonparametric Regression Applied to Quantitative Structure-Activity Relationships. // J. Chem. Inf. Comput. Sci. 2000. - Vol. 40 № 2. - p. 452-459.

110. Nadaraya, EA. On Estimating Regression. // Theory. Probability Its Appl. 1964. - Vol. 10 № p. 186-190.

111. Watson, G.S. Smooth Regression Analysis. // Sankhya, Ser. A. 1964. - Vol. 26 № p. 359-372.

112. Mosier, P.D. and P.C. Jurs. QSAR/QSPR Studies Using Probabilistic Neural Networks and Generalized Regression Neural Networks. // J. Chem. Inf. Comput. Sci. 2002. -Vol. 42 № 6. - p. 1460-1470.

113. Niculescu, S.P., et al. Using Fragment Chemistry Data Mining and Probabilistic Neural Networks in Screening Chemicals for Acute Toxicity to the Fathead Minnow. // SAR & QSAR in Environ. Research. 2004. - Vol. 15 № 4. - p. 293-309.

114. Niculescu, S.P. and K.L.E. Kaiser. Modeling the Relative Binding Affinity of Steroids to the Progesterone Receptor with Probabilistic Neural Networks. // Quant. Struct.-Act. Relat. 2001. - Vol. 20 № 3. - p. 223-226.

115. Niwa, T. Using General Regression and Probabilistic Neural Networks To Predict Human Intestinal Absorption with Topological Descriptors Derived from Two-Dimensional Chemical Structures. // J. Chem. Inf. Comput. Sci. 2003. - Vol. 43 № 1. -p. 113-119.

116. Specht, D. Probabilistic Neural Networks. // Neural Networks. 1990. - Vol. 3 № p. 109118.

117. Schioler, H. and U. Hartmann. Mapping Neural Network Derived from the Parzen Window Estimator. // Neural Networks. 1992. - Vol. 5 № 6. - p. 903-909.

118. Feng, X., X. Yang, and Y. Xu. New Method for Density Estimation by Using Forward Neural Network. // in Proceed, of the International Joint Conf. on Neural Networks. -1999.

119. Fiori, S. Nonsymmetric PDF Estimation by Artificial Neurons: Application to Statistical Characterization of Reinforced Composites. // IEEE Transactions on Neural Networks. -2003. Vol. 14 № 4. - p. 959-962.

120. Fiori, S. and P. Bucciarelli. Probability Density Estimation Using Adaptive Activation Function Neurons. // Neural Proc. Lett. 2001. - Vol. 13 № 1. - p. 31-42.

121. Firmin, С. and D. Hamad. Gaussian Based Neural Networks Applied to Pattern Classification and Multivariate Probability Density Estimation. // in IEEE International Conference on Neural Networks Conference Proceedings. - 1994.

122. Fukumizu, K. and S. Watanabe. Probabililty Density Estimation by Regularization Method. // in Proceed, of the International Joint Conf. on Neural Networks. 1993.

123. Likas, A. Probability Density Estimation Using Artificial Neural Networks. // Comput. Phys. Communications. 2001. - Vol. 135 № 2. - p. 167-175.

124. Lowe, D. Non Local Radial Basis Functions for Forecasting and Density Estimation. // in IEEE International Conference on Neural Networks Conference Proceedings. - 1994.

125. Martinez, D. Neural Tree Density Estimation for Novelty Detection. // IEEE Transactions on Neural Networks. 1998. - Vol. 9 № 2. - p. 330-338.

126. Rogers, G.W., et al. Nonparametric density estimation by a self-consistent neural network. // in Proceedings of the International Joint Conference on Neural Networks. -1993.

127. Sanger, T.D. Probability Density Estimation for the Interpretation of Neural Population Codes. // J. of Neurophysiology. 1996. - Vol. 76 № 4. - p. 2790-2793.

128. Yin, H. and N.M. Allinson. Averaging Ensembles of Self-Organizing Mixture Networks for Density Estimation. // in Proceed, of the International Joint Conf. on Neural Networks. 1999.

129. Fadda, D., E. Slezak, and A. Bijaoui. Density estimation with non-parametric methods. // Astronomy and Astrophysics Supplement Series. 1998. - Vol. 127 № 2. - p. 335-352.

130. Hazelton, M.L. and B.A. Turlach. Reweighted kernel density estimation. // Computational Statistics and Data Analysis. 2007. - Vol. 51 № 6. - p. 3057-3069.

131. Munoz, A. and J.M. Moguerza, eds. One-Class Support Vector Machines and Density Estimation: The Precise Relation. Lecture Notes in Computer Science. Vol. 3287. 2004. 216-223.

132. Taylor, C. Classification and Kernel Density Estimation. // Vistas in Astronomy. 1997. -Vol.41 № 3. - p. 411-417.

133. Teh, C.S. and C.P. Lim. An Artificial Neural Network Classifier Design Based on Variable Kernel and Non-Parametric Density Estimation. // Neural Proc. Lett. 2008. -Vol. 27 №2.-p. 137-151.

134. Wu, C.O. and A.Q. Mao. Minimax Kernels for Density Estimation with Biased Data // Annals of the Institute of Stat. Math. 1996. - Vol. 48 № 3. - p. 451-467.

135. Yin, X.F. and Z.F. Hao. Adaptive Kernel Density Estimation Using Beta Kernel. // in Proceed, of the Sixth International Conf. on Machine Learning and Cybernetics, ICMLC 2007. 2007.

136. Zhang, Z., et al. Density Estimation Based on Support Vector Machines. // J. Syst. Simulation. 2005. - Vol. 17 № 10. - p. 2355-2357.

137. Zychaluk, K. and P.N. Patil. A Cross-Validation Method for Data with Ties in Kernel Density Estimation. // Annals of the Institute of Stat. Math. 2008. - Vol. 60 № 1. - p. 2144.146. http://infochim. u-strasbg.fr/recherche/isida/index.php.

138. Grubbs, F.E. Procedures for Detecting Outlying Observations in Samples. // Technometrics. 1969. - Vol. 11 № 1. - p. 1-21.

139. Muller, P.H., P. Neumann, and R. Storm, eds. Tafeln der mathematischen Statistik. 1979, Leipzip: VEB Fachbuchverlag. 280.

140. Shi Z. G. and McCullough E. A. A Computer-Simulation Statistical Procedure for Predicting Complexation Equilibrium-Constants. // J. Inclusion Phenom. Mol. Recogn. -1994.-Vol. 18 № 1. - p. 9-26.

141. Raevskii, O.A., et al. Development of a Model for the Relation between Structure and Complex Forming Ability. // Koord. Khim. (Russ.). 1990. - Vol. 16 № p. 1175-1184.

142. Toropov, A.A. and A.P. Toropova. QSPR Modeling of Complex Stability by Optimization of Correlation Weights of the Hydrogen Bond Index and the Local Graph Invariants. //Russ. J. Coord. Chem. 2002. - Vol. 28 № 12. - p. 877-880.

143. Toropov, A.A., et al. QSPR Modeling of Complex Stability by Correlation Weighing of the Topological and Chemical Invariants of Molecular Graphs. // Russ. J. Coord. Chem. -2004. Vol. 30 № 9. - p. 611-617.

144. Gakh A. A., et al. Prediction of Complexation Properties of Crown Ethers Using Computational Neural Networks. // J. Incl. Phenom. and Molec. Recog. in Chem. 1997. - Vol. 27 № 3. - p. 201-213.

145. Qi, Y.-H., Q.-Y. Zhang, and L. Xu. Correlation Analysis of the Structures and Stability Constants of Gd(III) Complexes. // J. Chem. Inf. Comput. Sci. 2002. - Vol. 42 № 6. - p. 1471-1475.

146. Svetlitski, R., A. Lomaka, and M. Karelson. QSPR Modelling of Lanthanide-Organic Complex Stability Constants. // Separation Science and Technology. 2006. - Vol. 41 № l.-p. 197-216.

147. Solov'ev, V.P. and A.A. Varnek. Structure-Property Modeling of Metal Binders Using Molecular Fragments. // Russ. Chem. Bull. 2004. - Vol. 53 № 7. - p. 1434-1445.

148. Varnek, A., et al. Successful "In Silico" Design of New Efficient Uranyl Binders. // Solvent Extraction and Ion Exchange. 2007. - Vol. 25 № p. 433-462.

149. Tetko, I.V., et al. Benchmarking of Linear and Nonlinear Approaches for Quantitative Structure-Property Relationship Studies of Metal Complexation with Ionophores. // J. Chem. Inf. Model. 2006. - Vol. 46 № 2. - p. 808-819.

150. Katritzky, A.R., et al. Correlation of the Melting Points of Potential Ionic Liquids (Imidazolium Bromides and Benzimidazolium Bromides) Using the CODESSA Program. // J. Chem. Inf. Comput. Sci. 2002. - Vol. 42 № 2. - p. 225-231.

151. Katritzky, A.R., et al. QSPR Correlation of the Melting Point for Pyridinium Bromides, Potential Ionic Liquids. // J. Chem. Inf. Comput. Sci. 2002. - Vol. 42 № 1. - p. 71-74.

152. Ionic Liquids in Synthesis., ed. P. Wasserscheid and T. Welton. 2002, Weinheim: Wiley-VCH Verlag GmbH & Co. KGaA.

153. Holbrey, J.D., et al. Crystal Polymorphism in l-Butyl-3-methylimidazolium Halides: Supporting Ionic Liquid Formation by Inhibition of Crystallization. // Chem. Commun. -2003. Vol. № p. 1636-1637.

154. Xu, W., E.I. Cooper, and C.A. Angell. Ionic Liquids: Ion Mobilities, Glass Temperatures, and Fragilities. // J. Phys. Chem. B. 2003. - Vol. 107 № p. 6170-6178.

155. Eike, D., J. Brennecke, and E. Maginn. Predicting Melting Points of Quaternary Ammonium Ionic Liquids. // Green Chem. 2003. - Vol. 5 № p. 323-328.

156. Sun, N., et al. Prediction of the Melting Points for Two Kinds of Room Temperature Ionic Liquids. // Fluid Phase Equilibria. 2006. - Vol. 246 № p. 137-142.

157. Abraham, M., et al. Some Novel Liquid Partitioning Systems: Water-Ionic Liquids and Aqueous Biphasic Systems. // Ind. Eng. Chem. Res. 2003. - Vol. 42 № p. 413-418.

158. Mathieu, D. and J.-P. Becker. Improved Evaluation of Liquid Densities Using van der Waals Molecular Models. // J. Phys. Chem. 2006. - Vol. 110 № p. 17182-17187.

159. Trohalaki, S. and R. Pachter. Prediction of Melting Points for Ionic Liquids. // QSAR Comb. Sci. 2005. - Vol. 24 № p. 485-490.

160. Trohalaki, S., et al. Quantitative Structure-Property Relationships for Melting Points and Densities of Ionic Liquids. // Energy & Fuels. 2005. - Vol. 19 № p. 279-284.

161. Carrera, G. and J. Aires-de-Sousa. Estimation of Melting Points of Pyridinium Bromide Ionic Liquids with Decision Trees and Neural Networks. // Green Chem. 2004. - Vol. № 7. - p. 20-27.

162. Bini, R., et al. Ionic Liquids: Prediction of their Melting Points by a Recursive Neural Network Model. // Green Chem. 2008. - Vol. 10 № p. 306 - 309.

163. Selwood, D.L., et al. Structure-Activity Relationships of Antifilarial Antimycin Analogs: a Multivariate Pattern Recognition Study. // J. Med. Chem. 1990. - Vol. 33 № 1. - p. 136-142.

164. Horvath, D., et al. Stochastic versus Stepwise Strategies for Quantitative Structure-Activity Relationship Generation How Much Effort May the Mining for Successful QSAR Models Take? // J. Chem. Inf. Model. - 2007. - Vol. 47 № p. 927-939.

165. Jaworska, J.S., et al. Summary of a Workshop on Regulatory Acceptance of (Q)SARs for Human Health and Environmental Eendpoints. // Environm. Health Perspect. 2003. -Vol. Ill №10.-p. 1358-1360.

166. Tax, D.M.J., One-Class Classification. Concept-Learning in the Absence of CounterExamples. 2001, Technische Universiteit Delft: Delft, p. 202.

167. Markou, M. and S. Singh. Novelty Detection: A Review Part 1: Statistical Approaches. // Signal Processing. - 2003. - Vol. 83 № 12. - p. 2481-2497.

168. Markou, M. and S. Singh. Novelty Detection: A Review Part 2: Neural Network Based Approaches. // Signal Processing. - 2003. - Vol. 83 № 12. - p. 2499-2521.

169. Moya, M., M. Koch, and L. Hostetler. One-Class Classifier Networks for Target Recognition Applications. // in Proceedings world congress on neural networks. 1993. International Neural Network Society, INNS: Portland, OR. p. 797-801.

170. Japkowicz, N., C. Myers, and M. Gluck. A novelty detection approach to classification. // in Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence. 1995. p. 518-523.

171. Hartigan, J.A. and M.A. Wong. A K-Means Clustering Algorithm. // Applied Statistics. -1979. Vol. 28 № 1. - p. 100-108.

172. Scholkopf, B. and A.J. Smola. Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. 2002, Cambridge, MA; London, England: МГГ Press.

173. Japkowicz, N., С. Myers, and M. Gluck. A Novelty Detection Approach to Classification. // in Proceed, of the Fourteenth International Joint Conf. on Artificial Intelligence. 1995. p. 518-523.

174. Holger, S. The Diabolo Classifier. // Neural Comput. 1998. - Vol. 10 № 8. - p. 21752200.

175. Baldi, P. and K. Hornik. Neural Networks and Principal Component Analysis: Learning from Examples without Local Minima. // Neural Networks. 1989. - Vol. 2 № 1. - p. 5358.

176. Hertz, J., A. Krogh, and R. Palmer. Introduction to the Theory of Neural Computation. 1991: Addison Wesley Publishing Company.

177. Scott, D.W. Multivariate Density Estimation. Theory, Practice and Visualization. 1992, New York: Wiley.

178. Vert, R. and J.P. Vert. Consistency and Convergence Rates of One-Class SVMs and Related Algorithms. // J. Machine Learning Research. 2006. - Vol. 7 № p. 817-854.

179. Ypma, A. and R.P.W. Duin. Support Objects for Domain Approximation. // in ICANN'98. 1998,- Skovde (Sweden).

180. Breunig, M., et al. LOF: Indentifying Density-Based Local Outliers. // in Proceedings of the ACM SIGMOD 2000 international conference on management of data. 2000.

181. Knorr, E., R. Ng, and V. Tucakov. Distance-Based Outliers: Algorithms and Applications. // VLDB Journal. 2000. - Vol. 8 № 3. - p. 237-253.

182. Scholkopf, В., et al. Estimating the Support of a High-Dimensional Distribution. // Neural Computation. 2001. - Vol. 13 № 7. - p. 1443-1471.

183. Tax, D.M.J, and R.P.W. Duin. Support Vector Data Description. // Machine Learning. -2004. Vol. 54 № 1. - p. 45-66.

184. IUPAC Stability Constants Database, http://www.acadsoft.co.uk (accessed June 2001).

185. Chang, C.-C. and C.-J. Lin. LIBSVM : a Library for Support Vector Machines. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm. 2001.

186. Smola, A.J. and B. Scholkopf. A Tutorial on Support Vector Regression. // Statistics and Computing. 2004. - Vol. 14 № 3. - p. 199-222.

187. Varnek, A. and V.P. Solov'ev. Quantitative Structure-Property Relationships in Solvent Extraction and Complexation of Metals. // in Ion Exchange and Solvent Extraction, B.A. Moyer and A.K. Sengupta, Editors. 2009. Taylor and Francis: Philadelphia.

188. Gupta, C., P. Kanungo, and R. Mehta. // Indian J. Chem. 1978. - Vol. 16A № p. 1101.

189. Mali, M., D. Seghal, and R. Mehta. // J. bd. Chem. Soc. 1978. - Vol. 55 № p. 510.

190. Mehta, К., K. Sharma, and R. Mehta. // Indian J. Chem. 1982. - Vol. 21A № p. 656.

191. Zaidi, S. and S. Mukheijee. // J. Inorg. Nucl. Chem. 1980. - Vol. 42 № p. 455.

192. Aguilar-Perez, F., et al. Phosphate Ester Hydrolysis by Hydroxo Complexes of Trivalent Lanthanides Stabilized by 4-Imidazolecarboxylate. // Inorg. Chem. 2006. - Vol. 45 № p. 9502.

193. Forsterova, M., et al. Thermodynamic study of lanthanide(IH) complexes with bifunctional monophosphinic acid analogues of H4dota and comparative kinetic study of yttrium(in) complexes. // Dalton Transactions. 2007. - Vol. № p. 535.

194. Kotek, J., et al. Study of Thermodynamic and Kinetic Stability of Transition Metal and Lanthanide Complexes of DTPA Analogues with a Phosphorus Acid Pendant Arm. // Eur. J. Inorg. Chem. 2006. - Vol. № p. 1976.

195. Nonat, A., et al. Lanthanide Complexes of a Picolinate Ligand Derived from 1,4,7-Triazacyclononane with Potential Application in Magnetic Resonance Imaging and Time-Resolved Luminescence Imaging. // Chem. Eur. J. 2006. - Vol. 12 № p. 7133.

196. Ionic Liquids Database- (ILThermo) NIST Standard Reference Database 147 2006, http://ilthermo.boulder.nist.gov/ILThermo/mainmenu.uix.

197. He, L. and P.C. Jurs. Assessing the Reliability of a QSAR Model's Predictions. // J. Mol. Graphics and Modelling. 2005. - Vol. 23 № p. 503-523.

198. Raevskii, O.A., V.P. Solov'ev, and L.V. Govorkova. The Study of the Polymorphism of Dibenzo-24-Crow-8 by the Methods of Differential Scanning Calorimetry and IR Specrtroscopy. // Zh. Obshchei Khimii (Rus.). 1985. - Vol. 55 № 6. - p. 1381-1384.

199. Solov'ev, V.P., L.V. Govorkova, and O.A. Raevskii. Determination of the Purity, Melting-Point and Heat of Melting of Cyclic Polyethers. // Bull. Acad. Sci. USSR Div. Chem. Sci. 1986. - Vol. 35 № p. 632-633.

200. Blanchard, L.A. and J.F. Brennecke. Recovery of Organic Products from Ionic Liquids Using Supercritical Carbon Dioxide. // Ind. Eng. Chem. Res. 2001. - Vol. 40 № p. 287292.

201. Dutta, L.M., School of Chemistry and Molecular Sciences. Thesis. 1994, University of Sussex.

202. Modarresi, H., J.C. Dearden, and H. Modarress. QSPR Correlation of Melting Point for Drug Compounds Based on Different Sources of Molecular Descriptors. // J. Chem. Inf. Model. 2006. - Vol. 46 № 2. - p. 930-936.

203. Nigsch, F., et al. Melting Point Prediction Employing k-Nearest Neighbor Algorithms and Genetic Parameter Optimization. // J. Chem. Inf. Model. 2006. - Vol. 46 № 6. - p. 2412-2422.