Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов тема автореферата и диссертации по химии, 02.00.17 ВАК РФ

Баскин, Игорь Иосифович АВТОР
доктора физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2009 ГОД ЗАЩИТЫ
   
02.00.17 КОД ВАК РФ
Диссертация по химии на тему «Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов»
 
Автореферат диссертации на тему "Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов"

0034Э3254

На правах рукописи

БАСКИН Игорь Иосифович

МОДЕЛИРОВАНИЕ СВОЙСТВ ХИМИЧЕСКИХ СОЕДИНЕНИЙ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ И ФРАГМЕНТНЫХ ДЕСКРИПТОРОВ

02.00.17 - математическая и квантовая химия

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора физико-математических наук

Москва - 2009

1 1 МДР 2010

003493254

Работа выполнена в лаборатории органического синтеза кафедры органической химии Химического факультета Московского государственного университета имени М.В.Ломоносова

Официальные оппоненты: доктор физико-математических наук, профессор Жидомиров Георгий Михайлович

Ведущая организация: Институт физиологически-активных веществ Российской академии наук (г. Черноголовка)

Защита состоится 18 марта 2010 г. в 15 часов на заседании диссертационного совета Д 501.001.50 по химическим и физико-математическим наукам при Московском государственном университете имени М.В.Ломоносова по адресу: 119991, г. Москва, Ленинские горы, МГУ имени М.ВЛомоносова, д. 1, стр. 3, Химический факультет, ауд. 446.

С диссертацией можно ознакомиться в библиотеке Химического факультета Московского государственного университета им. М.В.Ломоносова

Автореферат разослан «11» февраля 2010 г.

доктор физико-математических наук Кумсков Михаил Иванович

доктор химических наук, профессор Пивина Татьяна Степановна

Матушкина Н.Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Современный этап развития нашей цивилизации характеризуется, прежде всего, беспрецедентным ростом мощности и распространенности компьютерной техники, и, вслед за этим, проникновением информатики во все сферы человеческой деятельности. Роботы, всевозможные устройства и компьютерные программы, оснащенные искусственным интеллектом, который уже в ближайшее время превзойдет по своим возможностям человеческий, начинают играть доминирующую роль не только в быту и промышленном производстве, но и в научных исследованиях.

Процессы информатизации быстро проникают я в химию. Этому особенно способствует то, что на протяжении многих лет химия развивалась как преимущественно эмпирическая наука, и потому в ней накоплено огромное количество экспериментальных данных, проведение глубокого анализа которых уже невозможно без применения средств современной информатики. Как результат, на стыке химии и информатики возникает и быстро оформляется в самостоятельную научную дисциплину хемоинформатика. методы которой начинают активно внедряться во все области химии, и, прежде всего, в органическую химию. Ранее этому процессу препятствовало отсутствие универсальной и строго обоснованной методологии и реализующего ее программного обеспечения, которые позволили бы химику на основе обработки экспериментальных данных осуществлять прогнозирование самых разнообразных свойств химических соединений и материалов.

На первом этапе выполнения настоящей диссертационной работы нами было теоретически обосновано, что такой универсальной методологией является сочетание искусственных нейронных сетей ГИНС) и фрагментных дескрипторов (ФД). Однако методология применения ИНС для прогнозирования свойств химических соединений была в это время практически неразвита, а в литературе имелись лишь единичные публикации в этом направлении. Известные ранее типы ФД, как правило, были нацелены на решение узкого круга задач и никак не могли быть положены в основу универсальной методологии поиска зависимостей между структурой органических соединений и их физико-химическими свойствами (С)8РК), а также биологической активностью (ОЯЛЯ). Кроме того, в рамках методологии (28АК/(38Р11 практически не предпринималось попыток учета влияния внешних условий (таких, например, как температура, давление, концентрация вещества, наличие и свойства того или иного растворителя и т.п.) на свойства химических соединений.

Таким образом, весьма актуальным является усовершенствование и интеграция нейросетевых и фрагментных подходов для моделирования и прогнозирования свойств органических соединений.

Цель работы. Целью настоящей диссертационной работы является создание универсальной методологии на базе ИНС и ФД, а также реализующего ее программного комплекса, позволяющего находить и анализировать количественные

зависимости между структурами органических соединений и их свойствами (с учетом и без учета влияния внешних условий), и на основе этого прогнозировать свойства еще неизученных соединений. Научная новизна работы.

1. Впервые применен аппарат искусственных нейронных сетей для количественного прогнозирования физико-химических свойств органических соединений и их реакционной способности.

2. Впервые разработан и применен универсальный подход к прогнозированию свойств органических соединений на основе комбинированного использования искусственных нейронных сетей и фрагментных дескрипторов.

3. Впервые предложена методика построения нелинейных зависимостей «структура-условия-свойства».

4. Впервые предложен метод интерпретации нейросетевых количественных зависимостей свойств органических соединений от их структуры.

5. Впервые разработаны и применены методы интеграции нейросетевых моделей «структура-свойство» на основе многоуровневого и многозадачного принципов их построения.

6. Впервые предложена концепция проведения прямых корреляций «структура-свойство» и на ее основе разработаны специальные архитектуры нейронных сетей, позволяющие осуществлять прогнозирование свойств органических соединений непосредственно из описания молекулярного графа без промежуточного вычисления вектора молекулярных дескрипторов. Тем самым впервые было осуществлено построение статистических регрессионных моделей с использованием невекгорных (структурных, графовых) данных.

7. Впервые построены (^РЯ-модели «структура-свойство», позволяющие прогнозировать спектральные свойства красителей, а также кинетические константы гомогенных органических реакций.

Результатом работы явилось создание нового научного направления - нейросе-тсвого моделирования свойств органических соединений на основе фраг-ментного подхода.

Практическая значимость работы. Предложенные методики позволяют расширить область традиционного моделирования «структура-свойство», улучшить прогнозирующую способность получаемых моделей, интерпретировать нейросе-тевые модели. Разработанный программный комплекс является универсальным инструментом для изучения зависимостей «структура-свойство», «структура-условия-свойство» и может широко использоваться для моделирования и прогноза широкого спектра свойств химических соединений. Построенные нейросетевые модели позволяют прогнозировать ряд физико-химических свойств, реакционную способность и биологическую активность органических соединений.

Личный вклад автора. Все результаты диссертации получены лично автором или в соавторстве при его непосредственном участии. Автору принадлежит выбор стратегии работы, постановка задач, математическое обоснование выбранного подхода, планирование расчетов и анализа их результатов, необходимых для решения поставленных задач, а также разработка необходимых для этого компьютерных программ.

Автор выражает глубокую признательность своему глубокоуважаемому учителю академику РАН Зефирову Н.С., а также всем сотрудникам, принимавшим участие в проведении исследований: в.н.с. Палюлину В.А., проф. Скворцовой М.И., с.н.с. Жоховой Н.И., д.б.н. Абилеву С.К., к.б.н. Любимовой И.К., к.ф-м.н. Айту А.О, u.c. Зефирову А.Н., к.ф-м.н. Кештовой C.B., prof. Vamek A. (University of Strasbourg, France), Tetko I.V. (Institute of Bioinformatics and Systems Biology, Neuherberg, Germany), аспирантам Гальбер-штам H.M., Артеменко Н.В., Ивановой A.A. Основные вклады соавторов указаны в соответствующих разделах диссертации и автореферата.

Апробация работы. Основные результаты работы были представлены на 28 всесоюзных, российских и международных научных конференциях, в том числе, на межвузовской конференции "Молекулярные графы в химических исследованиях" в Калинине в 1990 г., на 1-ой Всесоюзной конференции по теоретической органической химии в Волгограде в 1991 г., на 10-ом европейском симпозиуме "QSAR and Molecular Modelling" в Барселоне (Испания) в 1994 г., на II Российском национальном конгрессе "Человек и лекарство" в Москве в 1995 г., на втором международном симпозиуме по приобретению, представлению и обработке знаний «KARP-95» в Оборне (США, штат Алабама) в 1995 г., на 7-ом международном симпозиуме по наукам об окружающей среде «QSAR-96» в Эльсиноре (Дашы) в 1996 г., на Международном симпозиуме по применению компьютеров в химических исследованиях «CACR-96» в Москве в 1996 г., на IV Российском национальном конгрессе «Человек и лекарство» в Москве в 1997 г., на 5-ом Европейском конгрессе по интеллектуальным и мягким вычислениям «EUFIT'97» в Аахене (Германия) в 1997 г., на XVI Менделеевском съезде по общей и прикладной химии в Санкт-Петербурге в 1998 г., на I Всероссийской конференции "Молекулярное моделирование" в Москве в 1998 г., на первом индо-американском симпозиуме по математической химии в приложении к молекулярному дизайну и оценке токсичности химикатов в Сантиникетане (Индия, западная Бенгалия) в 1998 г., на 12-ом европейском симпозиуме по количественным соотношениям структура-активность «Molecular Modelling and Prediction of Bioactivity» в Копенгагене (Дания) в 1998 г., на V Всероссийской конференции «Нейрокомпьютеры и их применение» в Москве в 1999 г., на международной школе-семинаре по компьютерной автоматизации и информатизации в науке и технике «ACS'2000» в Москве в 2000 г., на 9-ом международном симпозиуме по количественным соотношениям «структура-активность» в науках об окружающей среде «Crossroads to the XXI Century» в Бургасе (Болгария) в 2000 г., на VII Всероссийской конференции «Нейрокомпьютеры и их применение» в Москве в 2001 г., на II Всероссийской конференции «Молекулярное моделирование» в Москве в 2001 г., на 3-ей Всероссийской школе-конференции по квантовой и вычислительной химии им. В.А.Фока в

Москве в 2001 г., на международной конференции по фотохимии в Москве в 2001 г., на 14-ом Европейском симпозиуме по количественным соотношениям «структура-активность» «Еиго(}8А11-2002» в Борнемуте (Великобритания) в 2002 г., на 1-ой Российской школе-конференции «Молекулярное моделирование в химии, биологии и медицине» в Саратове в 2002 г., на II Российской школе-конференции «Молекулярное моделирование в химии, биологии и медицине» в Саратове в 2004 г., на XVI Европейском симпозиуме по количественным соотношениям «структура-активность» и молекулярному моделированию на Средиземном море в Италии в 2006 г., на 2-ой германской конференции по химической информатике в Госляре (Германия) в 2006 г., на 5-ой Всероссийской конференции «Молекулярное моделирование» в Москве в 2007 г., на XVIII Менделеевском съезде по общей и прикладной химии в Москве в 2007 г., в Страсбургской летней школе по хемоинфор-матике «СЬеттйэЗЗ» в Оберне (Фраиция) в 2008 г., на 4-ой германской конференции по химической информатике в Госляре (Германия) в 2008 г.

Публикации. Содержание диссертации изложено в 54 публикациях, включая 2 главы в монографиях, 41 оригинальную статью в российских и международных журналах, в том числе 40 в журналах, рекомендованных ВАК, и 11 статей в сборниках.

Структура и объем работы. Диссертация изложена на 365 страницах машинописного текста, состоит из введения, 2 глав обзора литературы, 6 глав обсуждения результатов, выводов и списка цитированной литературы (517 ссылок), содержит 34 таблиц и 66 рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Главным содержанием настоящей работы является создание универсальной методологии, позволяющей с единых позиций осуществлять количественный прогноз самых разнообразных свойств органических соединений на основе обработки экспериментальных данных. Математически обоснован и на множестве примеров продемонстрирован центральный тезис диссертационной работы: такой универсальной методологией является сочетание многослойных искусственных нейронных сетей (ИНС) персептронного типа и фрагментных дескрипторов (ФД).

Первая и вторая главы диссертационной работы являются литературным обзором, главы с третьей по восьмую - обсуждением результатов.

Глава 1. Искусственные нейронные сети

В данной главе рассматривается математический аппарат ИНС - современного метода машинного обучения, в основе работы которого лежит имитация функционирования клеток головного мозга человека. Основное преимущество ИНС перед классическими методами статистического анализа состоит в возможности аппроксимации по экспериментальным данным любых сколь угодно сложных нелинейных зависимостей произвольного и заранее неизвестного вида.

После краткого введения в разделе 1.2 рассмотрены основные принципы нейросетевого моделирования. ИНС состоят из определенного количества «искусственных нейронов» (являющихся упрощенной математической моделью биологических нейронов) и связей между ними, соответствующих контактам через синапсы между аксонами и дендритами биологических нейронов. В процессе работы нейросети осуществляется преобразование сигналов (кодирующих обрабатываемые данные) внутри нейронов и их передача между соседними нейронами..

Архитектура ИНС определяется топологией соединений нейронов между собой. Нейроны внутри сети, как правило, организованы в группы, называемые слоями. Нейроны, принимающие внешние данные для последующей обработки, называются входными: нейроны, выводящие уже обработанные данные, называются выходными. Остальные нейроны, участвующие в промежуточной обработке данных, называются скрытыми.

Подобно сетям биологических нейронов, ИНС способны обучаться на примерах путем подстройки весов связей между нейронами. В главе подробно рассматриваются методы обучения многослойных нейронных сетей - самой популярной архитектуры ИНС, имитирующей послойную организацию коры головного мозга человека. Все эти методы основаны на использовании алгор!ггма «обратного распространения (Ьаскргора§аПоп) ошибки» для вычисления производных, вследствие чего такие ИНС часто называют нейросетями обратного распространения. Альтернативное название - многослойные персептроны. Важнейшее свойство ИНС этого типа заключается в способности обучаться апроксимации любых сколь угодно сложных нелинейных зависимостей между входными и выходными данными. Именно поэтому они и были выбраны в качестве основного инструмента обработки данных в рамках диссертационной работы.

В разделе 1.3 рассматриваются основные принципы применения многослойных ИНС для прогнозирования свойств химических соединений. Прежде всего, для построения нейросетевой модели подготавливается база данных, содержащая структуры химических соединений и известные значения тех свойств, которые в дальнейшем предполагается при помощи обученной ИНС прогнозировать. Как правило, эта база разбивается на две части. По первой из них, называемой обучающей выборкой, путем многократного предъявления ее ИНС, производится обучение последней. По второй, называемой контрольной выборкой, производится контроль прогнозирующей способности ИНС. На следующем этапе для всех химических соединений из выборок производится расчет дескрипторов, т.е. чисел, описывающих структуру химических соединений. Далее следует этап построения нейронной сети. Число нейронов входного слоя обычно берется равным числу дескрипторов, и уровень выходного сигнала каждого из них устанавливается равным значению соответствующего дескриптора. Число выходных нейронов равно числу одновременно прогнозируемых свойств, причем в качестве прогнозируемого значения каждого из свойств берется выходное значение соответствующего выходного нейрона. Скрытые же нейроны служат для промежуточных вычислений, и их

число подбирается, исходя из критерия максимизации прогнозирующей способности ИНС.

Обучающая выборка в процессе обучения ИНС ей многократно предъявляется. При каждом таком предъявлении значения дескрипторов каждого из соединений устанавливаются на входных нейронах. Далее ИНС запускается на счет, и с выходных нейронов снимаются прогнозируемые значения свойств, которые сравниваются с экспериментальными. На основании найденной разницы между экспериментальными и прогнозируемыми значениями, по определенным алгоритмам производится подстройка весов связей между нейронами с целью уменьшения этой разницы. Таким образом, в процессе обучения происходит постепенное уменьшение ошибок прогнозирования свойств химических соединений, входящих в обучающую выборку. Обученная таким образом ИНС может быть использована для прогнозирования свойств новых химических соединений. Для этого значения вычисленных для них дескрипторов устанавливаются на входные нейроны, ИНС запускается на счет, и с выходных нейронов снимаются спрогнозированные значения свойств этих соединений.

В разделе 1.4 перечислены основные ограничения ИНС и проблемы, связанные с их применением. Разработка эффективных методов решения этих проблем составила важную часть диссертационной работы (см. Главу 4).

Глава 2. Фрагмснтные дескрипторы в поиске зависимостей «структура-

свойство»

Данная глава посвящена рассмотрению фрагментных дескрипторов (ФД), т.е. чисел, показывающих наличие данного фрагмента внутри химической структуры. К преимуществам ФД обычно относят следующие: 1) простота и эффективность вычисления; 2) простота интерпретации со структурно-химической точки зрения; 3) базисный характер, выражающийся в возможности аппроксимировать с их помощью любую зависимость «структура-свойство» (это было показано в рамках данной диссертационной работы, см. главу 3).

Глава начинается с изложения в разделе 2.1 истории ФД, берущей начало с появления первых аддитивных схем в 30-40-ых годах прошлого века.

В разделе 2.2 приведена подробная классификация ФД по следующим категориям: 1) типам молекулярных графов, соответствующих структурным фрагментам; 2) типам молекулярных структур; 3) типам значений дескрипторов; 4) типам дескрипторных наборов; 5) связности фрагментов; 6) уровням детализации молекулярных графов.

В разделе 2.3 перечислены основные ограничения ФД и проблемы, связанные с их использованием. Разработка способов решения этих проблем составила важную часть диссертационной работы (см. главу 5).

Глава 3. Математическое обоснование выбранного подхода

В данной главе содержится математическое обоснование использования сочетания многослойных ИНС с ФД в качестве универсального подхода к прогнозированию свойств органических соединений на основе анализа эмпирических данных.

Раздел 3.1 посвящен рассмотрению значимости для химии поиска базиса инвариантов помеченных графов. В нем отмечается, что один из наиболее популярных подходов к решению проблемы поиска соотношений «структура-свойство» основан на представлении химической структуры в виде помеченного молекулярного графа. В этом случае молекулярные дескрипторы (т.е. числа, описывающие химические структуры) и функции, аппроксимирующие разнообразные свойства химических соединений, являются инвариантами графов, т.е. числовыми характеристиками, не зависящими от нумерации вершин графа. Следовательно, при известном базисе инвариантов помеченных графов задачу поиска соотношений «структура-свойство» можно решить путем разложения зависимости моделируемого свойства от структуры химического соединения по такому базису (таковой ранее известен не был).

Раздел 3.2 содержит две основные теоремы о базисе инвариантов помеченных графов, впервые сформулированные в ходе совместной работы с М.И.Скворцовой, которая предложила их строгое математическое доказательство.

Теорема 1. Любой инвариант ЛЯ) помеченного графа II е может быть единственным образом представлен в виде:

/(Я) = £сА(Я) (1)

где: Нуд - множество всех возможных помеченных графов с максимальным числом вершин п; с, - некоторые константы, не зависящие от Я и зависящие от/; ,§}(Я) - число вложений графа II1 е II[,"1 в граф Я (т.е. количество различных подграфов графа Я, изоморфных Я,). Таким образом, множество gj образует базис в алгебре инвариантов графов из множества . Суммирование ведется по подграфам Я,, получаемым из Я путем удаления ребер всеми неэквивалентными способами. •

Теорема 2. Любой инвариант АН) помеченного графа ЯеЯ^ может быть представлен в виде полинома от переменных, равных числам встречаемости некоторых связных подграфов в Я. Количество вершин в таких подграфах и степень полинома меньше либо равно п.

Таким образом, теорема 1 строго определяет, что базисом инвариантов помеченных графов являются числа вложений различных подграфов §(Я). Единственным отличием g){H) от вышеупомянутых ФД является то, что при их вычислении рассматриваются вложения всех подграфов - как связных, так и, главным образом, несвязных, тогда как ФД строятся, как правило, на основе связных подграфов. Несвязных подграфов, однако, чрезвычайно много по сравнению со связными и с ними очень неудобно работать. Теорема 2 как раз и позволяет не рассмат-

ривать несвязные подграфы и устанавливает полиномиальный характер связи между значением произвольного инварианта ДЯ) и значениями ФД, построенных на основе связных подграфов. Таким образом, теорема 2 устанавливает тип дескрипторов, с помощью которых может быть аппроксимирован любой инвариант помеченного графа и, следовательно, любое скалярное свойство химических соединений. При этом, однако, остается нерешенной проблема о способах нахождения огромного числа коэффициентов, содержащихся в таком полиноме.

В разделе 3.3 рассматривается найденное нами эффективное решение этой проблемы путем применения теоремы Колмогорова о представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одного переменного и сложения. С использованием нейросетевой интерпретации вышеупомянутой теоремы, данной Р. Хехт-Нильсеном (К.НесЫ-МеЬеп), а также математических результатов, полученных в работах Куркова (Кйгкоуа), можно сделать вывод о возможности аппроксимации рассматриваемой в теореме 2 полиномиальной зависимости с помощью многослойной ИНС. Это легло в основу центрального положения диссертационной работы: любая сколь угодно сложная зависимость между структурой органического соединения и его свойством может быть аппроксимирована при помощи многослойной ИНС с двумя слоями скрытых нейронов и набора ФД. Отметим, что в большинстве случаев для аппроксимации зависимостей «структура-свойство» достаточно и одного слоя скрытых нейронов.

Глава 4. Разработка иейросетевых подходов

Данная глава содержит описание предложенных нами подходов к решению задач, связанных с применением ИНС для поиска количественных корреляций «структура-свойство».

Раздел 4,1 содержит описание разработанных нами способов решения проблем, связанных с явлением «переучивания» ИНС. Подраздел 4.1.1 содержит анализ этого явления. Суть его заключается в следующем: процесс обучения нейросе-ти может быть условно разделен на две последовательные фазы - «обобщения» и «запоминания». Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная ошибка прогнозирования свойств постоянно уменьшается по ходу обучения в обеих фазах. В то же время, для соединений, отсутствующих в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала уменьшается в фазе «обобщения», но потом начинает расти в последующей фазе «запоминания». В результате этого «переобученная» нейросеть хорошо воспроизводит свойства соединений из обучающей выборки, но плохо прогнозирует свойства любых других соединений, содержащихся, например, в контрольных выборках. Эффект «переучивания» схематически показан на Рис. 1.

-и -

Е

Рис. 1. Эффект "переучивания" нейросети. Нижняя кривая показывает ход изменения среднеквадратичной ошибки прогнозирования для соединений, входящих в обучающую выборку, а верхняя - в контрольную выборку. Восклицательным знаком отмечена точка перехода из фазы «обобщения» в фазу «запоминания»

В подразделе 4.1.2 рассмотрены известные из литературы способы предотвращения «переучивания» и показано, что наиболее эффективным из них является остановка обучения при достижении наименьшей среднеквадратичной ошибки прогнозирования на контрольной выборке. Тем не менее, при его применении возникает новая проблема, суть которой состоит в следующем. Поскольку контрольная выборка используется для остановки обучения, т.е. для отбора модели, то содержащаяся в ней информация частично попадает в отобранную модель, и поэтому контроль по такой выборке уже не может считаться полностью независимым, а среднеквадратичная ошибка прогнозирования на ней - для объективной оценки прогнозирующей способности этой модели. В подразделе 4.1.3 изложено предложенное нами эффективное решение этой проблемы.

Для решения вышеизложенной проблемы предлагается использовать трех-выборочный метод, согласно которому производится деление всего набора данных на 3 выборки: обучающую, внутреннюю контрольную и внешнюю контроль-щто. По обучающей выборке идет построение моделей, внутренняя контрольная выборка используется для отбора оптимальной для прогнозирования модели, а ошибка прогнозирования на внешней контрольной выборке, которая никаким образом не участвует ни в построении, ни в отборе модели, используется для оценки прогнозирующей способности этой модели. Разбивку набора данных на три выборки можно осуществлять либо случайным образом, либо систематически в рамках процедуры скользящего контроля.

Трехвыборочный метод был нами впервые представлен в 1995 г. в рамках приглашенного пленарного доклада на конференции по интеллектуальной обработке данных (г. Оборн, штат Алабама, США) и был положительно воспринят сообществом математиков, специализирующихся в области ИНС. Почти одновременно и независимо от нас сходные идеи были также опубликованы И.Тетко с соавторами. С тех пор трехвыборочный метод превратился в обязательный атрибут нейросетевых исследований в данной области. Трехвыборочный метод, в сочетании с идеями ансамблевого подхода к построению моделей «структура-свойство», лег в основу как более ранней методики, изложенной в подразделе 6.3.1 (т.н. трех-выборочного скользящего контроля), так и более поздней разработки - процедуры двойного скользящего контроля, описанной в подразделе 4.1.4.

- 12В рамках предложенной нами процедуры двойного скользящего контроля исходная база данных систематически разбивается на 3 части: обучающую, внутреннюю контрольную и внешнюю контрольную выборки в соотношении (УУ-2):1:1. Внутренняя контрольная выборка используется для отбора моделей с наилучшей прогнозирующей способностью, а внешняя контрольная выборка - для оценки прогнозирующей способности отобранных моделей. Предсказанное значение свойства для каждого химического соединения вычисляется как среднее из предсказанных значений при всех N-1 разбиениях, при которых оно попадает во внешнюю контрольную выборку, тогда как дисперсия предсказанных значений может быть использована для оценки точности прогноза для данного соединения. На Рис. 2 представлена диаграмма разбиения баз данных для 7/= 5.

В результате на основе усреднения ;Ух(ЛЧ) частных моделей, выводимых при разных разбиениях исходной базы данных, получаются соответствующие комбинированные модели. Вычисляемые статистические характеристики включают: 1) $осу - параметр О2 (определяемый как (/-(ЗБ-РЗ^/БЗ, где РББ - сумма квадратов ошибок прогноза свойства, - сумма квадратов отклонения свойства от среднего значения) для усредненных спрогнозированных значений; 2) !1М8Е0Су - среднеквадратичная ошибка прогнозирования; 3) МЛЕху - средняя абсолютная ошибки прогнозирования.

УШ

УА I И .!

ж.

ж

1 ШЛ I

жшп

жги

ж

{ | - обучающая выборка | - внутренняя контрольная выборка ^ - внешняя контрольная выборка

Ж

Рис. 2. Схема 5х4-кратного двойного скользящего контроля

Метод двойного скользящего контроля обеспечивает коррекгную оценку реальной прогнозирующей способности моделей, процедура отбора которых предполагает использование контрольной выборки либо процедуры скользящего контроля. Он не только позволяет эффективно предотвращать «переучивание» нейро-сетей (благодаря трехвыборочному подходу), но и обращает стохастические свойства нейросетевых моделей из кажущегося недостатка в преимущество, поскольку благодаря этому позволяет оценивать ожидаемую ошибку прогноза.

В подразделе 4.1.5 описан разработанный нами статистический метод построения линейно-регрессионных моделей, названный мегодом Быстрой Пошаго-

вой Множественной Линейной Регрессии (БПМЛР). который основан на трехвы-борочном подходе, совместим с процедурой двойного скользящего контроля, и позволяет очень эффективно осуществлять предварительный отбор дескрипторов для ИНС. Благодаря его использованию решается проблема невозможности обработки при помощи ИНС выборок, включающих большое число дескрипторов.

В рамках метода БПМЛР внутренняя контрольная выборка используется для определения оптимального числа включаемых в модель дескрипторов. Работа метода основана на использовании текущего вектора ошибок (невязок); который в начале работы инициализируется экспериментальными значениями свойств соединений из обучающей выборки. На каждой итерации дескриптор, наилучшим образом коррелирующий с текущим вектором ошибок на обучающей выборке, добавляется к текущему набору отобранных дескрипторов, а соответствующая регрессионная модель, построенная на этом дескрипторе, используется для пересчета текущего вектора ошибок, который уже используется на следующей итерации для отбора следующего дескриптора и т.д. Каждый дескриптор может быть включен в модель несколько раз на разных итерациях. При добавлении очередного дескриптора. регрессионный коэффициент при свободном члене из построенного на нем регрессионного уравнения суммируется с текущим коэффициентом при свободном члене в многомерной модели. Что касается регрессионного коэффициента при самом дескрипторе, то он переносится в многомерную модель, если дескриптор включается в нее в первый раз, либо суммируется с уже имеющимся значением при последующем включении его в модель. Процесс пошагового отбора дескрипторов и построения результирующей модели останавливается по достижению наименьшей среднеквадратичной ошибки прогнозирования на внутренней контрольной выборке, тогда как среднеквадратичная ошибка прогнозирования на внешней контрольной выборке используется для оценки прогнозирующей способности итоговой многомерной линейной регрессионной модели.

Хотя метод БПМЛР первоначально был предназначен только для предварительного отбора дескрипторов для построения нейросетевых моделей, однако за время эксплуатации он успел себя зарекомендовать как мощный метод статистического анализа, обладающий очень высокой производительностью и позволяющий даже на персональном компьютере эффективно работать с очень большим числом дескрипторов. Последнее свойство важно при работе с ФД ввиду их очень большого числа.

Раздел 4.2 содержит описание предложенного нами подхода к интерпретации нейросетевых регрессионных моделей. Необходимость его разработки была обусловлена тем, что раньше ИНС рассматривались как «черный ящик», способный осуществлять прогноз, но не предоставляющий никакой возможности описать нейросетевые модели на содержательном уровне. Ранее именно это и считалось основным недостатком ИНС, поскольку для обоснованного использования построенных моделей часто требуется понимание лежащих в их основе физико-химических и биологических явлений. И действительно, наборы весовых коэффи-

циентов не могут быть непосредственно использованы для интерпретации нейро-сетевых моделей, поскольку их числовые значения в значительной мере меняются при перестроении последних, а также сильно зависят от числа скрытых нейронов, и поэтому нельзя их непосредственно использовать для описания нейросетевых моделей «структура-свойство» на качественном уровне.

Для решения этой проблемы мы предлагаем использовать специальный набор статистических характеристик, значения которых, в отличие от значений весовых коэффициентов, почти не меняются при перестроении моделей, слабо зависят от числа скрытых нейронов и вполне могут быть использованы для интерпретации нейросетевых моделей. Более того, с их помощью можно анализировать даже такие характеристики соотношений «структура-свойство»; которые обычно невозможно извлечь при помощи стандартных статистических подходов и которые могут быть важны для понимания природы соответствующих физико-химических и биологических процессов.

Основная идея предлагаемого подхода состоит в использовании для интерпретации нейросетевых моделей статистических характеристик, основанных на коэффициентах разложения в ряд по Тэйлору-Маклорену функции описывающей зависимость выходов ЙНС от входов. Итак, предлагаются следующие характеристики: Мх - среднее значение первой частной производной по отношению к значению дескриптора х по выборке; Дг - дисперсия значений первой частной производной по выборке; М„ - среднее значение второй частной производной по выборке; М1у - среднее значение второй смешанной частной производной по отношению к значениям двум дескрипторов (х и у)', 1Х - сумма квадратов значений первой частной производной, Заметим, что значения Мх являются аналогами регрессионных коэффициентов в линейно-регрессионных моделях; аналогично Вх показывают степень нелинейности нейросетевых моделей, а Мр и М^ служат для анализа нелинейного характера моделей и взаимодействия в них дескрипторов.

Нами продемонстрировано на нескольких примерах, что при использовании вышеперечисленных статистических характеристик стало возможным извлечь из набора данных не только информацию, которую предоставляют традиционные методы линейного регрессионного анализа (например, о знаке и величине влияния дескрипторов на свойства химических соединений), но и получить дополнительную ценную информацию о нелинейном характере зависимостей «структура-свойство» и взаимодействии дескрипторов.

В разделе 4.3 рассматривается предложенная нами концепция обучаемой симметрии как пример использования ИНС для решения' одной из задач, возникающих при построении корреляций «структура-свойство», которые в принципе не могут быть корректно решены при помощи линейных статистических методов. Как известно, классический подход к выявлению количественной зависимости «структура-свойство» («структура-активность») для узкого ряда соединений, обладающих одинаковым скелетом, предполагает использование в качестве дескрипторов констант заместителей. В этом случае может возникнуть проблема, ко-

гда несколько положений заместителей топологически эквивалентны. Например, для пиридина (1) заместители и 11б, а также и находятся в топологически эквивалентных положениях. В этом случае корректно построенная модель «структура-свойство» должна обеспечить, например, одинаковое значение спрогнозированного свойства для 2-хлоргшридина (2) и 6-хлорпиридина (3), поскольку это одно и то же соединение.

« N N0

1 2 3

Возникает вопрос: как можно построить такую модель? Нами показано, что такие обычно применяемые для этой цели подходы, как предварительная канонизация структур и использование простейших аддитивных симметрических функций, не дают адекватного решения задачи. Более того, строго математически доказано, что общий вид необходимой для построения такой модели функции, инвариантной относительно перестановки некоторых своих аргументов, должен быть нелинейным относительно этих аргументов. Следовательно, обычно применяемые в «классическом С^АЯ» средства линейного статистического моделирования не могут в принципе привести к построению оптимальной модели с необходимыми свойствами симметрии. Поэтому в данном случае мы рекомендуем использовать процедуры анализа данных, обеспечивающие возможность построения нелинейных моделей произвольной сложности, например ИНС.

Для решения этой проблемы мы предлагаем концепцию обучаемой симметрии. Согласно этой концепции необходимо: а) расширить обучающую выборку соединений путем добавления копий соединений («клонов») с теми же значениями моделируемого свойства, но различающихся перестановкой топологически эквивалентных позиций присоединения заместителей (например, структура 2 должна быть дополнена структурой 3); б) использовать ИНС для выявления количественной зависимости «структура-активность». В этом случае ИНС обучаются строить нелинейные зависимости «структура-активность» с необходимыми свойствами симметрии.

Эффект применения концепции обучаемой симметрии проиллюстрирован в данной диссертационной работе на двух примерах построения количественных моделей «структура - биологическая активность» для блокаторов кальциевых канатов Ь-типа (4) и для обладающих галлюциногенной активностью фенилалкила-минов (5). В обоих случаях в качестве дескрипторов использовались константы заместителей (как и в оригинальных работах, откуда выборки были взяты), а в качестве метода анализа данных - ИНС. Модели строились как на исходных базах, так и на базах, расширенных путем добавления «клонов», и при этом использовалась одна и та же разбивка на обучающую и контрольную выборки (второй кон-

трольной выборки не понадобилось из-за отсутствия «переучивания»), В Табл. 1 представлены значения среднеквадратичной ошибки прогнозирования на контрольных выборках для этих двух случаев.

Как видно из Табл. 1, применение концепции обучаемой симметрии в обоих случаях привело к значительному улучшению прогнозирующей способности ией-росетевых моделей. Подчеркнем также, что построенные нами нейросетевые количественные модели «структура-активность» существенно лучше по своим статистическим характеристикам опубликованных ранее для этих же наборов дан-

Табл. 1. Сравнение прогнозирующей способности нейросетевых моделей, построенных без и с добавлением "клонов" в соответствии с концепцией обучаемой симметрии_

Моделируемое свойство Размер выборки Среднеквадратичная ошибка прогнозирования на контрольной выборке (в логарифмических единицах)

без «клонов» с «клонами»

Блокирующая способность дигидропи-ридинов 4 46 1.59 0.71

Галлюциногенная активность фенилал-киламинов 5 35 0.98 0.47

Глава 5. Разработка фрагментных подходов

Данная глава содержит набор разработанных нами концепций, методов, программ и алгоритмов, нацеленных на превращение фрагментаого подхода в мощный инструмент максимально точного моделирования широкого разнообразия свойств органических соединений. В главе не только приводятся способы преодоления существовавших ранее ограничений ФД, но и предлагаются методики, направленные на значительное расширение сферы применения фрагментного подхода.

Раздел 5.1 посвящен описанию принципов построения разработанных нами ФД, а также методов, и алгоритмов их генерации при помощи дескрштгорного блока Fragment. Отмечается, что основными отличительными особенностями раз-

работанного нами варианта ФД является чрезвычайная гибкость (и, как следствие, универсальность их применения для моделирования самых разнообразных свойств органических соединений), а также очень высокая производительность их генерации. Гибкость достигается наличием: а) большого числа типов генерируемых фрагментов (см. Рис. 4) в сочетании с развитой четырехуровневой классификацией типов атомов (см. подраздел 5.1.2); б) механизма их автоматического обобщения; в) нескольких стратегий комбинирования разных уровней классификации атомов внутри фрагментов. Эффективность достигается за счет совершенного алгоритма, генерирующего все типы фрагментов за два просмотра структуры, использования оригинального трехуровневого иерархического списка кодов генерируемых фрагментов с очень быстрым доступом к его элементам, а также поддержкой динамически меняющегося списка групп статистически эквивалентных дескрипторов. Важными особенностями также является возможность работы с «выделенными» атомами (см. раздел 5.3), полимерными структурами (см. раздел 5,4) и етереохимической информацией. Пример кодировки фрагмента дан на Рис. 5.

Рис. 3. Типы фрагментных дескрипторов. Коды р1...ре соответствуют линейным фрагментам, включающим, соответственно, от 1 до 15 атомов; коды с3...сГ соответствуют циклическим фрагментам, включающим от 3 до 15 атомов; коды в4...5б соответствуют разветвленным фрагментам, включающим от 4 до б атомов; коды Ь0...Ьс1 - 14 типам бициклических фрагментов; коды Ю .Ле - 15 типам трициклических фрагментов.

Рис. 4. Иерархическая система классификации атомов во фрагментах. Полностью показана ветка, соответствующая атомам углерода. Переход к более высокому уровню обобщения достигается путем замены в коде атома крайнего правого символа, отличного от символа подчеркивания, на символ подчеркивания.

I [_

— N =!—5=0 , p4.ND2CD3CD30D_.212

Рис. 5. Пример кодировки фрагмента. Код фрагмента формируется из разделенных через запятую кода типа фрагмента, сцепленных кодов атомов и сцепленных кодов связей..

В разделе 5.2 приведены примеры прогнозирования физико-химических свойств органических соединений с использованием ФД и статистического аппарата множественной линейной регрессии. Эффект от перехода к нейросетевому моделированию описан ниже в разделе 6.6. Далее в подразделах 5.2.1 (на примере прогнозирования поляризуемости химических соединений) и 5.2.2 (на примере прогнозирования энтальпии образования алифатических полинитросоединений) показано, что ФД при линейном моделировании являются удобным средством автоматического создания аддитивных схем расчета физико-химических свойств органических соединений. В подразделах от 5.2.3 до 5.2.7 приведены работы (сделанные в соавторстве с Н. И. Жоховой), в которых ФД, в сочетании с множественной линейной регрессией, были успешно использованы для прогнозирования таких видов физико-химических свойств, которые лишь с большим трудом поддаются расчету при помощи методов квантовой химии и молекулярного моделирования. Такими свойствами являются: а) магнитная восприимчивость; б) энтальпия парообразования; в) энтальпия сублимации; г) температура вспышки; д) сродство азо- и антрахиноиовых красителей к целлюлозному волокну. В Табл. 2 приведены статистические характеристики построенных моделей с наиболее высокой прогнозирующей способностью. Отметим, что во всех случаях построенные модели превзошли по своим статистическим показателям модели, ранее опубликованные в литературе и построенные на тех же данных.

Табл. 2. Статистические характеристики моделей, основанных на сочетании ФД с _аппаратом множественной линейой регрессии_

Свойство Обучающая выборка Контрольная выборка

Д* 5 МАЕ или ЯМБЕ*

Поляризуемость, А1 0.997 0.38 .

Энтальпия образования алифатических полинитросоединений, ккал/моль 0.985 2.65

Магнитная восприимчивость хЮ"6 единиц 0.985 4.99 7.02

Энтальпия парообразования, ккал/моль 0.993 • 1.79 1.57

Энтальпия сублимации, ккал/моль 0.845 2.97 2.16

Температура вспышки, °С 0.956 11.4 11.8

Сродство азо- и антрахиноновых красителей к целлюлозному волокну, кДж-моль"' 0.954 0.76 0.83*

В разделе 5.3 рассматривается подход, который позволяет значительно расширить круг свойств, для прогнозирования которых можно применять ФД за счет указания специальных «выделенных» атомов, играющих специфическую роль в природе моделируемого свойства. Например, при моделировании константы основности аминов логично отметить тот самый атом азота внутри химической структуры, который участвует в рассматриваемом кислотно-основном равновесии. Суть предлагаемого метода заключается в том, что: 1) такие «выделенные» атомы помечаются определенными метками в соответствии с тем, по каким причинам этот атом выделен; 2) при генерации ФД каждая такая метка рассматривается как отдельный псевдоатом с именем, соответствующем символу метки; 3) при построении уравнений «структура-свойство» предусмотрена возможность включать в модели только те дескрипторы, которые содержат такой псевдоатом.

Мы предлагаем использовать ФД с "выделенными" атомами для моделиро-. вания широкого круга свойств: 1) при расчете локальных характеристик молекул, таких, например, как химические сдвиги в спектрах ЯМР, либо кислотно-основные свойства определенных атомов в молекулах; 2) при прогнозировании биологической активности для однородных выборок соединений, содержащих общий фрагмент с анкерными атомами, к которым присоединены заместители; 3) для прогнозирования кинетических параметров химических реакций одного типа; 4) при прогнозировании физических свойств полимеров (за счет добавления специальных меток к атомам, принадлежащим основной цепи полимера); 5) для прогнозирования свойств, обусловленных образованием супрамолекулярных комплексов (за счет добавления специфических меток, указывающих на роль атомов в супрамолекулярном взаимодействии); 6) для учета стереохимической информации (путем добавления меток Б и Л либо О и Ь к стереохимическим центрам, а также Е и Ъ к атомам, связанным двойной связью). В каждом случае предлагаемый прием

обеспечивает использование в построении моделей наиболее важных по смыслу ФД. Таким образом, использование ФД с «выделенными» атомами позволяет значительно расширить сферу применения фрагментного подхода в поиске количественных соотношений «структура-свойство».

Далее на нескольких примерах рассмотрено применение ФД с «выделенными» атомами. Во всех случаях генерация дескрипторов проводилась при помощи блока Fragment. Предварительный отбор дескрипторов осуществлялся с помощью метода БПМЛР, а построение окончательной модели - при помощи трехслойной ИНС. Оценка прогнозирующей способности проводилась с помощью процедуры двойного скользящего контроля.

В подразделе 5.3.1 рассмотрено применение ФД с «выделенными» атомами для моделирования химических сдвигов в 51Р ЯМР спектрах производных моно-фосфинов. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики построенной модели приведены на Рис. 6. Этот пример иллюстрирует возможность использования дескрипторов данного типа для прогнозирования локальных свойств химических соединений, которые можно приписать определенным атомам или группам атомов внутри молекулы. В этом случае использование цепочечных фрагментов с терминальными «выделенными» атомами позволяет получать легко интерпретируемые модели, наглядно показывающие пути влияния отдельных атомов или групп внутри молекулы на изучаемое свойство. Например, первые три фрагмента на Рис. 6 отражают ст-индукционное влияние ал-кильных заместителей на атом фосфора, четвертый - эффект сопряжения с ароматическим ядром, пятый - влияние расположенного в орто-положении атома фтора.

3 Р С С

3 а"

■ р—|■<;( н

сн

g^ocv = 0.8298, RMSEocv = 5.7 ppm, MAEnCv = 6.1 ppm

Рис. 6. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики нейросетевой модели для прогнозирования химических сдвигов в 3|Р ЯМР спектрах производных монофосфинов.

-21В подразделе 5.3.2 рассмотрено применение ФД с «выделенными» атомами для моделирования способности аналогов 1-[(2-гидроксиэтокси)-метил]-6(фенил'тио)тимина (НЕРТ) ингибировать обратную транскриптазу вируса ВИЧ-1. Соответствующие диаграмма разброса, список наиболее важных фрагментов и статистические характеристики построенной модели приведены на Рис. 7. Данный пример иллюстрирует возможность применения ФД с «выделенными» атомами для количественного прогнозирования биологической активности органических соединений внутри рядов соединений с одинаковым общим фрагментом (скелетом). Следует отметить, что обычно ФД редко используются для этой цели, поскольку аппроксимируемый с их помощью вклад конкретной группировки атомов в общее свойство оказывается независимым от того, где именно внутри химической структуры она находится. Поскольку это плохо соотносится с природой биологической активности, которая связана с точным пространственно-электронным распознаванием молекул, то это часто приводит к плохой прогнозирующей способности построенных С^АЯ-моделей и невозможности их интерпретации с целью выявления факторов, влияющих на биологическую активность.

Предлагаемые ФД с «выделенными» атомами полностью решают эту проблему, поскольку позволяют позиционировать все рассматриваемые фрагменты относительно заранее заданных внутри химической структуры «реперных точек». На изображенной (Рис. 7) общей структуре для рассматриваемого ряда соединений такими «реперными» точками являются места подсоединений заместителей к общему скелету, которые мы «выделили» путем приписывания им меток а, 6, с и (/. Благодаря этому аппроксимируемый при помощи ФД (с «выделенными» таким образом атомами) вклад группировки атомов в общую биологическую активность оказывается зависимым от ее положения внутри химической структуры. Это приводит не только к существенному росту прогнозирующей способности получающихся <38А11-моделей, но и делает их легко интерпретируемыми со структурно-химической точки зрения, поскольку значения регрессионных коэффициентов в линейных моделях и введенной нами характеристики Мх для нейросетевых моделей четко показывают, какая группировка атомов в каком положении вносит тот или иной вклад в биологическую активность, и, следовательно, какие изменения нужно внести для ее оптимизации. Более того, рассмотрение характеристик М\у позволяет выявить синергию и диссинерппо во влиянии различных группировок атомов на биологическую активность.

О

И'

Л;

о

У с-з

а 2

Ш

Ш

с—

<1—

X'

5 7 9

Эксперимент, 1о§ 1/ЕС50

о2ОСУ = 0.856, ЯШЕоСУ = 0.52 и МАЕ0су = 0.41

'ЭСУ

Рис. 7. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики нейросетевой модели для прогнозирования способности аналогов НЕРТ ингнбировать обратную транскриптазу.вируса ВИЧ-1

В подразделе 5.3.3 рассмотрено применение ФД с «выделенными» атомами для прогнозирования констант скорости гидролиза эфиров карбоновых кислот. В данном случае в качестве «выделенных» атомов взяты реакционные центры, включающие атомы углерода, входящие в образующиеся в входе реакции карбоксильную и гидроксильную группы. Кроме ФД с «выделенными» атомами, в соответствии с развиваемой нами методологией построения моделей «структура-условия-свойство» (см. раздел 7.2), мы также использовали дескрипторы, описывающие условия реакции: состав растворителя и температуру. В результате была получена нейросетевая модель со следующими статистическими характеристиками, определенными при помощи процедуры двойного скользящего контроля: ^псу = 0.9162, ЛМЖцсу = 0.31 и МАЕтхх = 0.19. Три наиболее важных фрагмента из вошедших в построенную модель изображены на Рис. 8. Первый из них описывает стерическое влияние заместителей при а-углеродном атоме карбоновой кислоты, второй - электронное влияние расположенного в уходящей группе атома кислорода, несущего неподеленные электронные пары, третий — влияние фениль-ной группы при карбоксиле.

Таким образом, данный пример иллюстрирует возможность применения ФД с «выделенными» атомами для количественного прогнозирования кинетических констант органических реакций, а также для автоматизированного извлечения из огромной массы экспериментальных данных основных факторов, влияющих на протекание органических реакций. Можно надеяться, что в будущем подобного рода анализ займет достойное место в широком арсенале средств теоретической органической химии.

-Д!

Л

V

он

I

-с—

X

"~ОН НО 1 о'

Рис. 8. Наиболее важные фрагменты для прогнозирования констант скоростей гидролиза сложных эфиров

Раздел 5.4 посвящен предложенной нами концепции пеевдофрагментных дескрипторов (ПФД) как одного из возможных подходов к решению проблемы «отсутствующих» (или «редких») фрагментов, которые могут отсутствовать (либо быть недостаточно представленными) в обучающей выборке, но присутствовать в соединениях, для которых осуществляется прогноз. Поскольку величины вкладов таких фрагментов не могут быть определены по обучающей выборке, то можно ожидать значительных ошибок прогнозирования для соединений, их содержащих. Мы предлагаем решать эту проблему путем введения дополнительных дескрипторов, значения которых в какой-то мере были бы связаны с величинами вкладов фрагментов в прогнозируемое свойство. Для этой цели мы предлагаем использовать особую категорию ФД, значения которых вычисляются путем комбинирования свойств атомов, присутствующих в этих фрагментах. Дескрипторы такого рода мы будем называть псевдофрагментными дескрипторами (ПФД), чтобы их отличать от «настоящих» ФД, имеющих в качестве значения числа встречаемости либо индикаторы наличия тех или иных фрагментов в структурах химических соединений. В качестве свойств атомов для прогнозирования физико-химических свойств органических молекул можно, например, использовать атомную массу, число электронов, ковалентный радиус, электроотрицательность, потенциал ионизации и т.д., поскольку предполагается, что от них зависят величины вкладов фрагментных дескрипторов в прогнозируемое свойство. Важно также, чтобы используемые комбинации свойств имели ясный физический смысл, поскольку в этом случае возрастают шансы наличия корреляции их значений с величинами вкладов фрагментов. При такой корреляции небольшое число ПФД начинает входить в статистические модели вместо многочисленных «настоящих» ФД, в том числе и потенциально редких, выступая тем самым в качестве сжатого обобщения последних. Это в значительной степени и решает проблему редких фрагментов,

если ПФД строятся на основе присутствующих практически во всех молекулах отдельных атомов или небольших цепочек атомов.

1

В качестве примера простейшего ПФД рассмотрим конструкцию —У R;,

где: R, - ковалентный радиус атома, Na - число атомов в молекуле. Очевидно, что куб атомного радиуса пропорционален «объему» атома. Поскольку суммирование идет по атомам, то они и выступают в качестве базового фрагмента для вычисления дескриптора. Физический смысл всего дескриптора - средний удельный объем атома. Можно предположить, что он будет играть существенную роль при прогнозировании волюметрических свойств веществ, например, плотности. При включении такого дескриптора в модель, даже если будет требоваться осуществить прогноз подобного свойства для химического соединения, содержащего редкий элемент (отсутствующий в обучающей выборке), все равно будет дана разумная аппроксимация его вклада в прогнозируемое свойство.

В соответствии с вышеизложенными принципами нами было сконструировано 50 ПФД на основе как отдельных атомов, так и коротких цепочек, включающих до 5 атомов. Для их вычисления нами разработан дескрипторный блок FRAGPROP (в составе созданного нами программного комплекса NASA WIN). Опыт работы с этим блоком показал, что добавление ПФД к «настоящим» ФД практически всегда повышают прогнозирующую способность моделей, предназначенных для прогнозирования физико-химических свойств органических соединений. Приведем в качестве примера прогнозирование трех ключевых физических свойств полимеров на основе структур мономеров при помощи статистических моделей, построенных методом БПМЛР. В Табл. 3 приведено сравнение статистических характеристик для построенных с использованием ФД моделей как с добавлением, так и без добавления ПФД.

Как видно из таблицы, ПФД позволяют в значительной степени улучшать качество моделей, построенных на основе ФД, за счет решения проблемы редких фрагментов. Следует отметить, что хотя ПФД можно применять и без ФД для построения моделей «структура-свойство», наилучшие модели всегда получаются только в сочетании с «настоящими» ФД. Поэтому их применение следует рассматривать как способ улучшения моделей, построенных на базе ФД.

Табл. 3. Статистические характеристики моделей, полученных для прогнозирования физических свойств полимеров с использованием как только ФД, так и с добавлением

пфд __;_

Свойство Только ФД ФД с добавлением ПФД

Q1DCV RMSEocv МАЕОСУ Q DCV RMSEqcv MAEjxy

п 0.782 0.033 0.021 0.872 0.026 0.015

Т 0.849 45.0 32.0 0.864 42.7 28.0

Р 0.474 0.159 0.096 0.910 0.066 0.043

где: п - показатель преломления при 298К; Гг - температура стеклования (в градусах Кельвина); р — плотность в аморфном состоянии (г/см3,298К).

Глава 6. Сочетание ИНС и ФД

Данная глава посвящена изучению эффекта от совместного использования ИНС и ФД. На большом числе примеров проводится сравнение с линейными моделями и делается вывод о преимуществах этого сочетания.

Раздел 6.1 посвящен изложению результатов нашей первой работы по ней-росетевому моделированию, опубликованной еще в 1993 г., в которой математические аппараты ИНС и пошаговой множественной линейной регрессии в сочетании с ФД и топологическими индексами (ТИ) были систематически применены для построения моделей, позволяющих прогнозировать разнообразные свойства углеводородов (главным образом, алканов). Для возможности сравнений при построении моделей одна и та же база была одинаковым образом разбита на обучающую и контрольную выборки. Результаты вычислительных экспериментов приведены в Табл. 4. В экспериментах 1-6 прогнозировалось по одному свойству (один выходной нейрон в ИНС), тогда как в моделях 7 и 8 одновременно прогнозировалось шесть различных свойств (шесть выходных нейронов) с помощью единой нейросетевой модели. Все линейно-регрессионные модели строились отдельно для каждого свойства.

Из анализа данных в Табл. 4 можно сделать следующие, выводы.

1) Для углеводородов температура кипения, плавления, октановое'число, критическая температура и поверхностное натяжение прогнозируются существенно лучше при использовании ИНС по сравнению с линейным регрессионном анализом. Это свидетельствует о нелинейном характере зависимости перечисленных выше свойств от рассматриваемых дескрипторов.

2) При прогнозирований молярного объема, молярной рефракции и теплоты испарения алканов предпочтительно использовать линейный регрессионный анализ по сравнению с ИНС, что свидетельствует о практически строгой линейной зависимости этих свойств от рассматриваемых дескрипторов.

3) В большинстве случаев использование ФД приводит к построению моделей с лучшей прогнозирующей способностью по сравнению с топологическими индексами.

4) Сочетание ИНС с ФД чаще всего приводит к построению моделей с наилучшей прогнозирующей способностью.

Именно этот последний вывод и послужил отправным толчком для проведения большой серии разноплановых исследований, которые и легли в основу данной диссертационной работы.

Итак, оценивая рассмотренную в данном разделе работу, можно сказать, что она во многих отношениях явилась пионерной:

-261) Она явилась первой работой, в которой аппарат ИНС был применен для прогнозирования физико-химических свойств органических соединений.

2) В ней впервые применено сочетание аппарата ИНС и ФД д^я прогнозирования свойств органических соединений.

3) В ней впервые было успешно применено многозадачное обучение, позволяющее одновременно осуществлять прогноз нескольких свойств в рамках одной модели.

Табл. 4. Результаты нейросетевого и линейно-регрессионного моделирования физико-

№ Выборка Дескрипторы ИНС Множественная линейная регрессия

Свойство N, К S, R S, R •Sv

1 Ьр(а) 159 18 ТИ 4.08 0.999 2.33 9.44 0.996 10.9

2 Ьр(а) 159 16 ФД 4.74 0.999 2.18 23.0 0.979 22.5

3 тр(а) 81 9 ТИ Í6.2 0.976 13.8 29.4 0.924 28.5

4 тр(а) 81 9 ФД 16.0 0.977 16.8 32.9 0.902 31.8

5 on(hc) 138 15 ТИ 10.9 0.841 12.1 13.2 0.761 17.0

6 on(hc) 138 15 ФД* 5.97 0.954 4.37 10.6 0.858 10.4

7 Vm(a) 63 6 ТИ 0.84 0.999 0.89 0.45 1.000 0.64

MR(a) 63 6 ТИ 0.15 1.000 0.18 0.04 1.000 0.09

Ща) 63 6 ТИ 0.44 0.994 0.51 0.27 0.999 0.21

Па) 63 6 ТИ 3.80 0.994 3.94 5.25 0.996 2.82

PÁa) 63. 6 ТИ 0.46 0.984 0.39 0.68 0.988 0.39

Ф) 63 6 ТИ 0.18 0.996 0.28 0.28 0.990 0.29

8 VJa) 63 6 ФД 0.88 0.999 1.10 0.62 1.000 0.42

MR(a) 63 6 ФД 0.20 0.999 0.18 0.04 1.000 0.09

Ща) 63 6 ФД 0.44 0.996 0.56 0.18 1.000 0.07

ТМ 63 6 ФД 3.37 0.995 3.58 7.52 0.993 4.96

РМ 63 6. ФД 0.44 0.986 0.23 0.79 0.986 0.40

Ф) 63 6 ФД 0.17 0.996 0.17 0.31 0.989 0.23

где для алканов: Ьр(а) — температура кипения, 1 атм., °С; тр(а) - температура плавления, °С; VJa) - молярный объем, см3/моль; R(a) - молярная рефракция, см'/моль; Пе(а) - теплота испарения, кДж/моль; Тс(а) — критическая температура, °С; Рс(а) - критическое давление, атм.; а{а) - поверхностное натяжение, дин/см; on(hc) - октановое число углеводородов (алканов, алкенов, циклоалканов); N, - число соединений в обучающей выборке; Nv — число соединений в контрольной выборке; R - множественный коэффициент корреляции (квадратный корень от коэффициента детерминации); s, - среднеквадратичная ошибка на обучающей выборке; sv - среднеквадратичная ошибка на контрольной выборке.

В разделе 6.2 сравнивается прогнозирующая способность нейросетевых и некоторых из рассмотренных выше линейно-регрессионных моделей (см. Табл.2

на стр. 19), построенных, в отличие от моделей из предыдущего раздела, на выборках существенно большего размера. Эти выборки содержат разнородные органические соединения, принадлежащие разным классам. Результаты сравнения прогнозирующей способности на одних и тех же контрольных выборках представлены в Табл. 5.

Табл. 5. Точность прогноза для линейно-регрессионных и ненросетевых моделей

Свойство МАЕр или КМБЕр* для линейно-регрессионной модели МАЕр или ЯМБЕр* для ней-росетевой модели

Магнитная восприимчивость. -<10"4 единиц 7.02 6.25

Энтальпия парообразования, ккал/моль 1.57 1.77

Энтальпия сублимации, ккал/моль 2.16 1.66

Температура вспышки, °С 15.8* 14.6*

Как видно из Табл. 5, для трех из четырех свойств (т.е. для магнитной восприимчивости, энтальпии сублимации и температуры вспышки) применение ИНС приводит к уменьшению ошибок прогноза. Что же касается энтальпии парообразования, то можно предположить, что более высокая прогнозирующая способность линейно-регрессионной модели обусловлена строгим аддитивным характером этого свойства. Это вполне согласуется с рассмотренными выше результатами, полученными для углеводородов. Таким образом, в большинстве случаев применение ИНС вместо аппарата множественной линейной регрессии приводит, к улучшению прогнозирующей способности количественных моделей «структура-свойство».

Раздел 6.3 посвящен применению сочетания ИНС с ФД для моделирования ряда ключевых и технологически-важных физических свойств органических соединений, как то: температуры кипения, вязкости, плотности и давления насыщенных паров. Для этих свойств модели строились только по разнородным выборкам, содержащим представителей разных классов органических соединений. Исследование проводилось в рамках процедуры трехвыборочного скользящего контроля, которая явилась дальнейшим развитием трехвыборочного подхода и предшественницей процедуры двойного скользящего контроля. Основная идея метода - использование процедуры скользящего контроля и ансамбля нейросете-вых моделей вместо единичной модели. Это позволяет сделать прогноз и оценку его качества более обоснованным и не зависящим от конкретной разбивки базы на три выборки - обучающую, внутреннюю и внешнюю контрольные. Статистические показатели построенных моделей представлены в Табл. 6;

Как видно из Табл. 6, нейросетевые модели обладают лучшими статистическими показателями по сравнению с линейно-регрессионными моделями, причем для температуры кипения, плотности и вязкости это различие существенно. Здесь также следует отметить,' что полученные нейросетевые модели по этим показателям превосходят все опубликованные ранее в литературе. В данном разделе

таюке исследуется эффект использования ансамблей нейросетевых моделей, результатом прогноза которых является значение, получаемое путем усреднения прогнозов, выдаваемых индивидуальными моделями. В Табл. 6 также проведено сравнение двух наборов статистических показателей, первый из которых является результатом усреднения соответствующих показателей индивидуальных нейросетевых моделей, а второй описывает прогнозирующую способность их ансамбля. Приведенные данные позволяют сделать вывод о существенных преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. Можно предположить, что в данном случае два основных фактора вносят вклад в это явление. Во-первых, усреднение по моделям, получаемым при разных разбивках базы данных, позволяет эффективно использовать для обучения информацию из внутренних контрольных выборок, что эквивалентно увеличению эффективного размера обучающих выборок. Во-вторых, наблюдается известное явление подавления «шума» при усреднении.

Табл. 6. Статистические показатели моделей для прогнозирования физических свойств

____ прогнозируемое свойство статисгические^--~^_ показатели Т кип,'0 С ^ ОД Пас Й, г/см3 Па

Количество соединений 510 367 803 349

Ансамбль ИНС ■ я 0.9911 0.9904 0.9943 0.9979

ЯМЯЕ, 9.1 . 0.078 0.018 0.095

ЯМ5ЕУ 16.1 0.177 0.036 0.140

и 16.9 0.208 0.043 0.158

Индивидуальные ИНС я 0.9869 0.9815- 0.9911 0.9969

ЯМБЕ, 11.0 0.105 0.034 0.118

ЯМБЕ, 16.1 0.189 0.052 0.143

ЯМ5Е„ 17.2 0.219 0.061 0.161

Линейно-регрессионные модели Я 0.9814 0.9794 0.9897 0.9902

ЯМБЕ, 12.9 0.111 0.036 0.198

ЯШЕ, 16.7 0.195 0.055 0.248

18.6 0.212 0.067 0.258

где: Т кип - температура кипения; г] - вязкость; с1 - плотность; УР - давление насыщенных паров; Л — коэффициент корреляции между спрогнозированными и экспериментальными значениями; ЯМБЕ, - среднеквадратичная ошибка на обучающих выборках; ЯМБЕ, - среднеквадратичная ошибка на внутренних контрольных выборках; ЯМ5ЕР -среднеквадратичная ошибка на внешних контрольных выборках.

На Рис. 9 представлены диаграммы разброса, полученные для внешних контрольных выборок.

S250 «00 ¿150

Sioo

* SO

н о -

0 50 100 150 200 2S0 300 350 T КИП. ЭКСЛ.

(a)

5 30

■2 2.5

i 2.0

^ 1.5

t '•»

S. »-5

■O 0.0

d зксп., г/куб-см

(б)

2.0 4.0

Ig(BaiKQCTH) эксп.

Of -5.0

.2.0 OlO 5.0 10.0

lg(P) ЭКСП., Ig(na)

(B)

(Г)

Рис. 9. Диаграммы разброса, полученные для внешних контрольных выборок при прогнозировании: (а) температуры кипения; (б) плотности; (в) вязкости; (г) давления насыщенных паров

Раздел 6.4 посвящен применению ИНС в сочетании с ФД и ПФД для прогнозирования температуры плавления ионных жидкостей, общие структуры которых приведены на Рис. 10. Были построены модели для четырех выборок, включающих: а) 126 бромидов производных пиридинов (PYR, 6 и 7); б) 384 бромида производных имидазолов и бензимидазолов (IMZ, 8 и 9); в) 207 бромидов четвертичных аммониев (QUAT, 10); г) 717 соединений, входящих во все вышеупомянутые наборы (FULL). В Табл. 7 представлены средние абсолютные ошибки прогноза полученных моделей, оцененные при помощи процедуры скользящего контроля с использованием внешних контрольных выборок. В этой же таблице приведены аналогичные показатели, полученные при применении двух линейных методов -БПМЛР и метода частичных наименьших квадратов (PLS). Как видно из таблицы, в большинстве случаев ИНС приводит к построению лучших моделей по сравнению с БПМЛР и PLS.

R. /

СО-

R<-

R3

Рис. 10. Структуры ионных жидкостей

-N+-

■Rj Br-

Табл. 7. Значения средней абсолютной ошибки прогнозирования температуры плавления __ионных жидкостей (в градусах Кельвина)__

PYR IMZ QUAT FULL

ИНС 26.2 32.4 30.3 31.5

БПМЛР 34.8 36.2 36.1 33.7

PLS 32.5 31.9 31.8 31.9

Для того, чтобы провести объективное сравнение развиваемого нами подхода с широким набором существующих в настоящее время методов поиска количественных соотношений «структура-свойство», мы приняли участие в совместном исследовании, проведенном несколькими группами авторов, в ходе которого широкий набор современных методов машинного обучения (ассоциативные нейронные сети ASNN, машины опорных векторов SVM, метод ближайших соседей kNN, метод частичных наименьших квадратов PLS, нейронные сети обратного распространения и множественная линейная регрессия), реализованные в нескольких программных комплексах (VCCLAB, ISIDA и NASA WIN), в сочетании с разнообразными типами дескрипторов (несколько типов ФД, ПФД, дескрипторы на основе электронно-топологических состояний атомов, а также все виды дескрипторов, генерируемых программой DRAGON) были применены для моделирования температуры плавления ионных жидкостей с использованием вышеупомянутых данных. Было проведено сравнение всех построенных моделей и показано, что модели, построенные при помощи програм,много комплекса NASA WIN на основе ИНС/ФД, заняли первые два места наряду с ASNN/E-coimts. Если учесть, что ASNN построена на основе ИНС, а дескрипторы E-counts являются фрагментны-ми, то можно сделать вывод, что именно комбинация ИНС с ФД приводит к построению наилучших моделей для прогнозирования температуры плавления ионных жидкостей.

Глава 7. Разработка интегрированных подходов

В данной главе излагаются предложенные нами подходы, которые включают разного рода интеграцию ИНС: а) с методами молекулярного моделирования; б) с комбинацией дескрипторных описаний химических соединений и внешних условий, а также: в) между собой. Все это ведет к значительному расширению круга свойств химических соединений, поддающихся надежному прогнозированию при помощи разрабатываемых нами методов.

Раздел 7.1 посвящен совместному применению ИНС и методов молекулярного моделирования, включающих молекулярно-механические и квантово-химические расчеты. В нем отмечается, что, несмотря на большие успехи в области молекулярного моделирования, ни одна даже самая совершенная молекулярная модель не способна охватить всего комплекса взаимодействий, в которые вовле-

чена реальная молекулярная система, равно как и учесть эти взаимодействия с достаточно высокой точностью. Это служит серьезным препятствием к практическому применению построенных теоретических моделей. В связи с этим особую актуальность приобретает проблема соотнесения теоретически рассчитываемых характеристик молекулярных систем с проявляемыми в эксперименте свойствами. Трудность решения этой проблемы обусловлена тем, что общий вид зависимости неучтенных в модели факторов от учитываемых молекулярных характеристик всегда является неизвестным, что является препятствием к применению стандартного аппарата математической статистики.

Генеральным направлением в решении указанной проблемы нам видится использование математического аппарата обработки данных, позволяющего выявлять любые сколь угодно сложные зависимости неизвестного вида между теоретически рассчитываемыми молекулярными характеристиками и экспериментальными данными. Именно это является как раз той самой задачей, для решения которой особенно хорошо подходят ИНС (в особенности в сочетании с ФД)! Преимущество применения ИНС заключается в их уникальной способности извлекать из эксперимента и обобщать зависимости, которые крайне трудно вывести из теоретических соображений. Поэтому аппарат ИНС является необходимым дополнением к методам молекулярного моделирования, способным резко повысить их прогнозирующую способность.

Возникает вопрос: если ИНС в сочетании с ФД могут аппроксимировать любое свойство, то зачем понадобилось их комбинировать с методами молекулярного моделирования? Все зависит от объема имеющихся экспериментальных данных (см. Табл. 8). Если данных достаточно много, то этого сочетания действительно достаточно для моделирования любого свойства. Если данных очень мало либо они вообще отсутствуют, то нейросети не могут быть обучены, поэтому для прогнозирования остаются только методы молекулярного моделирования. В промежуточной же ситуации, когда имеется определенный объем экспериментальных данных, но его недостаточно для построения нейросетевой модели на одних ФД, наилучший эффект дает интеграция молекулярного и нейросетевого моделирования. Это может быть достигнуто, например, путем использования определенных величин, вычисляемых при помощи методов молекулярного моделирования в качестве дескрипторов при построении нейросетевых моделей.

Табл. 8. Выбор метода моделирования в зависимости от объема данных

Объем экспериментальных данных Предпочтительный метод моделирования

Мало либо отсутствуют Молекулярное моделирование

Промежуточный объем данных Сочетание молекулярного и нейросетевого моделирования

Достаточно много Нейросетевое моделирование

-32В подразделе 7.1 Л рассматривается применение ИНС для прогнозирования положения длинноволновой полосы поглощения симметричных цианиновых красителей 11, растворенных в этаноле (работа сделана в соавторстве с А.О. Айтом). . В качестве дескрипторов брались энергии граничных молекулярных орбиталей, рассчитанные при помощи квантово-химического метода РМЗ, а также набор ФД, задающих тип гетероциклов. База данных была случайным образом разбита на обучающую и контрольную выборки. В Табл. 9 представлены статистические характеристики нейросетевых моделей, полученных как при наличии произвольного заместителя Л6, так и при /?6=Н. Следует отметить, что достигнутая точность прогнозирования положения полосы поглощения значительно превосходит точность, с которой это свойство может быть предсказано с помощью прецизионных кван-тово-химических расчетов.

11

Табл. 9. Результаты нейросетевого моделирования положения длинноволновой полосы

Заместитель N Я ЛАЖ, (в нм) Ш£,{в км)

произвольный 398 0.9928 10.6 7.0

Н "174 0.9976 4.4 3.4

где: N - общее число соединений; II - коэффициент корреляции; - среднеквад-

ратичная ошибка на обучающей выборке; ЛМЗЕ, - среднеквадратичная ошибка на контрольной выборке

В подразделе 7.1.2 рассматривается применение ИНС для прогнозирования констант ионизации для нескольких классов органических соединений. В работе были использованы данные для 174 фенолов, 238 карбоновых кислот и 268 азотсодержащих соединений. Прежде всего, при помощи полуэмпирического квантово-химического метода РМЗ нами были рассчитаны значения набора дескрипторов, описывающих электронные свойства молекул, такие, как: 1) энергии граничных орбиталей; 2) заряд на меченом атоме; 3) максимальный отрицательный заряд на атоме; 4) максимальный заряд на атоме водорода; 5) дипольный момент; 6) электрофильная, нуклеофильная и радикальная суперделокализация; 7) атомная самополяризуемость. Кроме того, нами были еще использованы ФД с «выделенными» атомами. Предварительный отбор дескрипторов проводился с помощью метода БПМЛР. Статистические характеристики полученных моделей приведены в Табл. 10.

Табл. 10. Статистические показатели моделей, построенных для фенолов, карболовых __кислот и азотсодержащих соединений_

Класс соединений Параметры моделей, построенных с использованием только ФД Параметры моделей, построенных с использованием ФД и квантово-химических дескрипторов

Фенолы МЛР: R2 = 0.9746, s = 0.40, RMSE, = 0.38, И/ffi, = 0.57 МЛР; R2 = 0.9794, s = 0.36, RMSE, = 0.33, RMSEV = 0.41

ИНС: R' = 0.9815, RMSF., = 0.32, RMSE, = 0.53 ИНС: R2 = 0.9831, RMSE, = 0.30, RMSE, = 0.42

Карбоновые кислоты МЛР: R' = 0.8966, s = 0.33, RMSE, = 0.31, RMSE, = 0.51 МЛР: R2 = 0.9122, s = 0.31, RMSE, = 0.28, RMSE, = 0.34

HHC:R' = 0.9115, RMSE, = 0.28, RMSEy = 0.48 ИНС: R2 = 0.9534, RMSE, = 0.21, RMSEV = 0.27

Азотсодержащие соединения МЛР: R2 = 0.9302, s = 0.99, RMSE, = 0.93, RMSE, =1.14 MJIP: R2 = 0.961 l,s = 0.75, RMSE, = 0.69, RMSEV = 0.94

ИНС: R2 = 0.9306, RMSE, = 0.93, RMSE,. = 1.13 ИНС: R2 = 0.9692, RMSE, = 0.62. RMSE, = 0.60

где: И - коэффициент детерминации; ЯМ5Е„ Я\13ЕУ - среднеквадратичная ошибка на обучающей и контрольной выборке; з - стандартное отклонение.

Из анализа Табл. 10 можно сделать следующие выводы. Во-первых, применение ИНС во всех случаях приводит к получению моделей с лучшими статистическими показателями. Во-вторых, сочетание ФД с квантово-химическими дескрипторами приводит к построению моделей с лучшей прогнозирующей способностью по сравнению с использованием одних ФД.

Следующим этапом стало моделирование этого свойства для объединенной базы данных. При этом была получена модель с характеристиками: R2 - 0.9938, RAiSEt = 0.34, RMSEy = 0.40. Полученные результаты показали хорошую применимость рассматриваемого нами подхода для прогнозирования данного свойства.

В подразделе 7.1.3 рассматривается моделирование мутагенной активности полициклических нитросоединений 12-20 (это исследование было осуществлено в соавторстве с С.К. Абилевым). Были использованы экспериментальные данные по мутагенной активности в штамме Salmonella typhimurium ТА 1538 (hisD3052, rfa, wr), регистрирующем мутации сдвига рамки считывания, без метаболической активации фракцией S9 печени млекопитающих.

Особенность этого исследования состоит в том, что в нем исходный набор дескрипторов формировался экспертным путем в соответствии с гипотезами о механизме действия нитроароматических соединений и эмпирическими заключениями о влиянии элементов структуры на мутагенную активность. Как известно, основным путем биотрансформации нитроаренов, приводящим к образованию мутагенных, канцерогенных и токсичных метаболитов, является восстановление нитрогруппы нитроредуктазами клетки. Способность к восстановлению нитроаренов коррелирует с таким параметром, как энергия низшей незанятой молекуляр-

ной орбитали Ешмо (дескриптор с!,)- По этой же причине были выбраны и два других квантово-химических дескриптора: максимальный заряд на атоме азота (дескриптор с12) и максимальный заряд на атоме кислорода (дескриптор dз). В качестве дескриптора сЦ в модель был включен коэффициент распределения окта-нол-вода 1о§Р (гидрофобность), характеризующий способность молекулы достигать сайтов взаимодействия в живом организме. Поскольку мутагенная активность полициклических нитросоединений в значительной мере определяется положением нитрогруппы относительно общего бифенильного фрагмента, то в качестве ФД были выбраны: наличие нитрогруппы в пара-положении - с^; наличие аминогруппы в пора-положении - с!«; наличие мета- и орто-заместителей - с17.

12

13

15

16

17

ин2

о он 18

19

N02

Моделирование проводилось как для всей выборки (54 соединения), так и для подвыборок, содержащих нитропроизводные гетероциклических аналогов полициклических углеводородов (пирена, фенантрена, флуорена) 12-19 и бифенила 20. Построение модели проводилось двумя методами: а) пошагового метода множественной линейной регрессии МЛР; б) трехслойной ИНС. Статистические показатели полученных моделей приведены в Табл. 11. Анализ приведенных в ней данных указывает на значительные преимущества нейросетевого по сравнению с линейно-регрессионным моделированием. Следует отметить, что столь большое

различие мы наблюдали всегда при использовании наборов дескрипторов, сформированных экспертным путем с учетом природы моделируемого свойства. В этом случае эксперт может указать лишь на важные дескрипторы, но никак не может специфицировать точный тип функциональной зависимости от них. Именно поэтому ИНС, способные аппроксимировать произвольные зависимости заранее неизвестного вида, значительно лучше подходят для решения этой задачи.

Табл. 11. Статистические показатели нейросетевых и линейно-регрессионных моделей

Выборка соединений Дескрипторы Метод Характеристики модели

Я1 ЯМБЕ, ЯА{БЕу

Производные пи-рена, фегшггрена, флуоренона ¿1, ¿2, с13, ¿5, ¿7 ИНС 0.81 0.76 0.96

МЛР 0.56 1.45 1.94.

Замещенные бифе-нилы ИНС 0.94 0.59 0.13

МЛР 0.64 1.21 1.34

Все соединения с1\, (¡4, <15 ИНС 0.76 1.30 1.57

МЛР 0.56 ■1.45 1.94

где: Я - коэффициент детерминации; ЯМ8Е„ ЯМ8ЕУ - среднеквадратичная ошибка на обучающей и контрольной выборке (логарифмические единицы).

В подразделе 7.1.4 рассмотрено совместное применение ИНС и методов молекулярного моделирования для прогнозирования пяти констант заместителей: двух констант Гаммета ош и ор; двух констант Свейна и Лаптона - полевой и резонансной Я; стерической константы Тафта Е,. Набор использованных дескрипторов включает значения энергий граничных молекулярных орбиталей, зарядов на атомах, а также теплот образования производных бензола, содержащих исследуемые заместители. Полученные низкие среднеквадратичные ошибки прогнозирова- -ния на контрольных выборках (0.13 для ат, 0.16 для ар, 0.14 для Г, 0.15 для Л, 0.39 для ¿'¡) свидетельствуют о работоспособности данного подхода к прогнозированию констант заместителей.

Раздел 7.2 посвящен применению ИНС для построения моделей «структура-условия-свойство». Он начинается с обоснования предложенной нами концепции построения нейросетевых моделей «структура-условия-свойство». Отмечается, что классический подход к построению моделей «структура-свойство» основан на аппроксимации зависимости исследуемого свойства от дескрипторов, описывающих структуры химических соединений, при фиксированных «стандартных» условиях, накладываемых на его измерение. Такими условиями могут являться, например, температура, давление, ионная сила раствора и т.д. Это, однако, оставляет открытым вопрос о прогнозировании этого же свойства при других условиях, а также значительно снижает объем доступных для обработки экспериментальных данных.

Поскольку, как правило, зависимость свойств химических соединений от условий, в которых они измерены, носит нелинейный характер, мы предположили,

что с помощью методологии ИНС можно расширить классический подход путем добавления характеристик внешних условий к входным данным, поступающим на вход нейросети. В качестве характеристик среды могут использоваться такие параметры, как температура, давление, концентрация, наличие того или иного растворителя, дескрипторы, характеризующие свойства растворителя, и т.д. Принцип построения моделей «структура - условия - свойство» при помощи ИНС показан на Рис. 11.

Возможность построения нейросетевых зависимостей «структура - условия - свойство» проиллюстрирована на примере моделей для физико-химических свойств углеводородов произвольной структуры, содержащих от 1 до 40 атомов углерода, а также констант скорости кислотного гидролиза сложных эфиров кар-боновых кислот при различной температуре и различных составах растворителей. В случае углеводородов строились зависимости температуры кипения от структуры (при различных значениях давления), а также динамической вязкости и плотности (при различных температурах). В этом случае для описания химической структуры углеводородов были использованы ФД, тогда как для описания условий - значения температуры либо давления. При моделировании реакции гидролиза сложных эфиров их структуры были описаны при помощи квантово-химических дескрипторов. При этом условия проведения реакции были представлены: а) температурой; б) концентрацией органического компонента бинарного растворителя (в смеси с водой); в) значениями четырех параметров, предложенных В.А. Пальмом для описания влияния реакционной среды на скорости органических реакций, как то: общей кислотностью (электрофилыюстью) (£); общей основностью (нуклеофильностью) (В); полярностью (У); поляризуемостью (Р). Любопытно отметить, что осуществленная позже замена квантово-химических дескрипторов на ФД с «выделенными» атомами привела к модели с несколько лучшей прогнозирующей способностью. Статистические показатели построенных моделей представлены в Табл. 12. Они свидетельствуют о работоспособности предложенного подхода к моделированию зависимостей «структура-условия-свойство» при помощи ИНС.

Рис. 11. Принцип построения моделей «структура-условия-свойство» при помощи ИНС

моделируемое свойство

___

V V

Характеристики структуры Характеристики условий

Табл. 12. Статистические показатели моделей «структура-условия-свойство»

Моделируемое свойство Число пар «структура- условие» R1 RMSE, RMSEP

Температура кипения углеводородов при разном давлении. ("С) 14346 0.999 2.80 2.80

Динамическая вязкость углеводородов при разной температуре (log сантипуа-зов) 3426 0.990 0.14 0.16

Плотность углеводородов при разной температуре (г/см3) 3056 0.995 0.0063 0.0063

Константа скорости гидролиза сложных эфиров карбоновых кислот при разной температуре и разном составе растворителя 2092 0.935 0.27 0.34

Раздел 7.3 посвящен рассмотрению методов, основанных на индуктивном переносе знаний при интеграции нейросетевых моделей «структура-свойство». Он начинается с констатации того, что одним из основных факторов, препятствующих построению моделей «структура-свойство» с высокой прогнозирующей способностью. является недостаток экспериментальных данных. Одним из путей преодоления связанных с этим ограничений нам видится в том, чтобы рассматривать разнообразные свойства химических соединений в их тесной взаимосвязи, и с учетом этого строить модели «структура-свойство» не изолированными, а связанными друг с другом. В этом случае, вследствие т.н. индуктивного переноса знаний должна происходить интеграция данных, при которой объем полезной информации для каждого из свойств будет увеличен за счет эффективного использования информации, касающейся других свойств, тесно с ним связанным. Такой перенос информации возможен между моделями, расположенными внутри сети взаимосвязанных моделей как последовательно (см. подраздел 7.3.1), так и параллельно друг относительно друга (см. подраздел 7.3.2). Можно предвидеть, что в перспективе место разрозненных и независимых друг от друга моделей «структура-свойство» займет организованная в виде «химического мозга» сеть тесно связанных между собой моделей, позволяющая интегрировать внутри себя значительный объем как экспериментальных данных, так и знаний, что позволит значительно улучшить качество прогнозирования разнообразных свойств органических соединений.

В подразделе 7.3.1 рассматривается последовательный способ интеграции нейросетевых моделей на основе предложенного нами многоуровневого принципа построения моделей «структура-свойство», суть которого заключается в следующем. Прогнозирование свойств органических соединений проводится в рамках фрагментного подхода, однако вместо изолированных одноуровневых моделей

(см. Рис. 12), берущих на входе значения ФД и выдающих на выходе значения прогнозируемых свойств, предлагается использовать организованную в виде нескольких слоев сеть моделей. Выходы моделей предыдущих слоев являются входами для моделей последующих (см. Рис. 13). В этом случае многоуровневая организация дает возможность проводить индуктивный перенос знаний от моделей предыдущего слоя к моделям последующего, что должно приводить к улучшению качества последних.

Рис. 12. Традиционный одноуровневый подход (т.н. однозадачное обучение), в котором отдельные нейросетевые модели не связаны друг с другом

Рис. 13. Схема многоуровневого подхода, в рамках которого за счет последовательного соединения моделей происходит индуктивный перенос знаний из моделей нижнего уровня в модели верхнего

То, что при многоуровневом подходе происходит индуктивный перенос знаний, нами продемонстрировано на двух примерах. Первый из них касается моделирования коэффициента сорбции органических соединений в почве, второй -растворимости фуллерена' С,» в органических растворителях. Построение моделей проводилось при помощи ИНС и ФД в рамках одноуровневого и многоуровневого подхода. В последнем случае были предварительно построены на том же наборе ФД промежуточные модели первого уровня, позволяющие прогнозировать значения липофильности log Р и четырех констант Абрахама А, В, Е и S, характеризующих, соответственно, кислотность и основность по отношению к образованию водородной связи, избыточную молярную рефракцию и диполяр-ность/поляризуемость. Результаты прогноза первого уровня были после этого использованы в качестве дескрипторов при построении моделей второго уровня. В Табл. 13 представлены статистические характеристики промежуточных моделей первого уровня, а в Табл. 14 — целевых моделей второго уровня. Приведенные в последней таблице данные свидетельствуют о значительном улучшении прогно-

i

зирующей способности целевых моделей за счет индуктивного переноса знаний, полученных при формировании промежуточных моделей первого уровня.

Табл. 13. Статистические характеристики моделей «структура-свойство» первого уровня

Свойство Размер выборки R RMSEl RMSEv

Log Р 7805 0.980 0.345 0.395

Абрахам А 457 0.983 0.051 0.058

Абрахам В 457 0.971 0.066 0.081

Абрахам Е 457 0.997 0.040 0.074

Абрахам S 457 0.987 0.072 0.137

Табл. 14. Сравнительные статистические характеристики моделей «структура-свойство»,

полученных в рамках одноуровневого и многоуровневого подходов

Свойство Одноуровневый подход Многоуровневый подход

в~!ХУ RMSЕпс у i^DCV RAISEDCV

Логарифм коэффициента сорбции в почве 0.598 0.759 . 0.800 0.534

Логарифм растворимости фул-лерена Сбо 0.448 0.912 0.637 0.739

Подраздел 7.3.2 посвящен рассмотрению параллельного принципа интеграции нейросетевых моделей «структура-свойство» в рамках т.н. многозадачного обучения, когда проводится одновременное построение моделей, связь между которыми осуществляется за счет использования общих промежуточных данных (см. Рис. 14). При построении моделей «структура-свойство» многозадачное обучение может быть осуществлено, например, при помощи многослойной ИНС, имеющей несколько выходных нейронов по числу одновременно моделируемых свойств, причем индуктивный перенос знаний между моделями осуществляется за счет совместного использования промежуточных данных, формируемых на общем скрытом слое нейронов.

Рис. 14. Многозадачное обучение, при котором проводится одновременное построение взаимосвязанных моделей. Обмен информацией между моделями происходит за счет формирования единого внутреннего представления данных в общем слое скрытых нейронов

Впервые принципиальная возможность построения взаимосвязанных моделей «структура-свойство» была продемонстрирована нами еще в 1993 г. на примере ИНС с шестью выходами, способной одновременно предсказывать шесть физических свойств алканов (см. раздел 6.1). Поскольку исследование было проведено до появления первых математических работ по многозадачному обучению, мы не предпринимали попыток систематического изучения того, какой эффект дает его применение по сравнению с однозадачным обучением (см. Рис. 13), при котором каждое из свойств прогнозируется изолированной нейросетью с одним выходом. Подобное систематическое изучение было предпринято в нашей недавней работе по прогнозированию 11 констант распределения «ткань-воздух», которая была осуществлена совместно с несколькими группами авторов. В этой работе для получения моделей «структура-свойство» использовались ИНС с ФД. Полученные результаты наглядно представлены в виде изображенной на Рис. 15 диаграммы, показывающей зависимость повышения параметра от размера выборки при переходе от однозадачного к многозадачному обучению. На диаграмме виден четкий тренд, показывающий, что с уменьшением размера выборки происходит резкое увеличение прогнозирующей способности моделей при переходе к многозадачному обучению за счет индуктивного перенос;! знаний.

Рис. 15. Зависимость повышения показателя О* от размера выборки при переходе от однозадачного к многозадачному обучению. Каждая точка соответствует одному из 11 моделируемых свойств.

Раздел 7.4 посвящен описанию разработанного нами нейронного устройства для проведения прямых корреляций «структура-свойство». При его применении не требуется предварительного вычисления каких-либо молекулярных дескрипторов. Его универсальная аппроксимирующая способность обеспечивается сочетанием ИНС с ФД либо ПФД, однако вместо использования предварительно отобранных дескрипторов, набор которых, скорее всего, является неоптимальным, происходит направленное «извлечение» наиболее ценных для построения моделей «структура-свойство» дескрипторов непосредственно из первичного описания молекул в виде графа. Эти дескрипторы формируются промежуточно в процессе работы нейронного устройства и не видны извне. На Рис. 16 представлена принципиальная схема нейронного устройства. Работоспособность его проверена на ряде примеров (см. Табл. 15). Во всех случаях подтверждена высокая прогнозирующая способность построенных моделей.

PUtDlCTLD r*Of ERTl ES

-I ■ ■ T T

(х/mrr ьчус*

H IDO EN LA YЕД

"RECEPTOR" r' P /

| ÜLTIHJT LA VER |

т т т ......

1 HJPDEN LA VER I 1 I

'SUMO« 1EU>'

, aa~¡

*SF.NSORST

a a a

a

а а о

□ □ a

Рис. 16. Принципиальная схема нейронного устройства для осуществления прямых корреляций «структура-свойство». Предлагаемое устройство ; имитирует процесс обработки челове-, ком зрительной информации. Оно представляет собой сложную интегрированную систему, состоящую из нескольких ИНС, часть из которых («рецепторы») анализируют при помощи «сенсоров» проецируемые на «сетчатку» молекулярные структуры, • «коллекторы» по результатам этого анализа формируют промежуточные ФД либо ПФД, которые поступают в «мозг»; осуществляющий с их помощью предсказание свойств органических соединений. Набор ИНС, занимающихся формированием промежуточных ФД одного типа, объединены в «глаза».

Табл. 15. Результаты применения нейронного устройства при построении корреляций ■ . _«структура-свойство» _^__

Свойство . Класс соединений R1 RMSE, RMSE,

Температура кипения при нормальном давлении, град алканы 0.999 1.6 2.4.

Вязкость при 40 "С, сангипуазы углеводороды 0.992 0.15 .0.18

Теплота испарения, кДж/моль углеводороды 0.943 1.44 1.26

Плотность, г/см"1 углеводороды 0.971 0.018 0.019

Теплота сольватации в циклогексане, кДж/моль разнообразные 0.980 1.77 2.46

Поляризуемость, см3 разнообразные 0.990 0.86 0.71

Анестетическое давление газов, лог.ед. (1ой(1/р)) разнообразные 0.980 0.18 0.26

Глава 8. Разработка программных средств

Данная глава посвящена рассмотрению разработанных в рамках диссертационной работы программных средств, центральным из которых является программный комплекс ЫАЗА'МГМ. Указанный комплекс позволяет в полном объеме осуществить весь цикл работ по построению моделей «структура-свойство», и с

их помощью осуществлять прогнозирование самых разнообразных свойств органических соединений. Именно на нем была осуществлена большая часть рассмотренных выше исследований. Основные компоненты комплекса: управляющая программа, набор дескрипторных блоков (программных компонент, позволяющих вычислять разнообразные молекулярные дескрипторы), автономная программа для прогнозирования свойств органических соединений и набор утилит. Общий объем программных средств - более 150,000 строк программного кода.

Раздел 8.1 содержит подробное описание истории создания программных средств, использованных на разных этапах выполнения диссертационной работы, большинство из которых в настоящее время включено в состав комплекса NASA WIN.

Раздел 8.2 содержит описание центрального звена этого комплекса - управляющей программы, в которую интегрировано множество средств статистического анализа химических данных. Центральное место в них принадлежит многослойным ИНС. С помощью этой программы можно:

1) загружать и просматривать базы данных, содержащие структуры химических соединений и их свойства;

2) вычислять наборы дескрипторов, описывающих химические структуры, и отбирать наиболее значимые;

3) выявлять и интерпретировать количественные зависимости между значениями дескрипторов и свойств химических соединений;

4) статистически оценивать полученные модели;

5) определять области применимости моделей;

6) использовать полученные нейросетевые модели для прогнозирования свойств ' химических соединений.

Раздел 8.3 содержит описание дескрипторного блока Fragment, позволяющего рассчитывать ФД в соответствии с методологией, изложенной выше в разделе 5.1.

Раздел 8.4 содержит описание дескрипторного блока FragProp, осуществляющего расчет 50 ПФД (см. раздел 5.4).

Раздел 8.5 содержит описание автономной программы, для прогнозирования свойств органических соединений с помощью нейросетевых моделей, построенных при помощи NASAWIN.

Выводы

1. Теоретически обоснован и разработан универсальный подход к прогнозированию свойств органических соединений на основе комбинированного использования искусственных нейронных сетей и фрагментных дескрипторов.

2. В рамках развития нейросетевых подходов разработаны: а) трехвыборочный подход и на его основе - процедуры трехвыборочного и двойного скользящего контроля, позволяющие эффективно предотвращать «переучивание» ней-росетей и объективно оценивать прогнозирующую способность нейросетевых

моделей; б) статистический метод быстрой пошаговой множественной линейной регрессии, позволяющий эффективно осуществлять отбор дескрипторов для построения нейросетевых моделей; в) метод интерпретации нейросе-тевых регрессионных моделей, позволяющий описывать характер найденных зависимостей; г) концепция «обучаемой симметрии», позволяющая улучшать прогнозирующую способность моделей «структура-свойство» за счет корректного учета в них свойств симметрии.

3. В рамках развития фрагментных подходов разработаны: а) иерархическая система классификации типов атомов, входящих в состав фрагментов, а также структура и алгоритм генерации фрагментных дескрипторов, ориентированных на прогнозирование свойств органических соединений; б) концепция фрагментов с «выделенными» атомами, позволяющая прогнозировать: локальные свойства органических соединений; константы заместителей и скоростей реакций; свойства полимерных и супрамолекулярных соединений; биологическую активность внутри рядов органических соединений с учетом стереохимической информации; в) концепция псевдофрагментных дескрипторов как средство повышения прогнозирующей способности моделей «структура-свойство» за счет решения проблемы «редких» фрагментов.

4. В рамках развития интегрированных подходов разработаны: а) методы интеграции нейросетевого и молекулярного моделирования, ведущие к значительному улучшению прогнозирующей способности построенных моделей; б) концепция построения нейросетевых моделей «структура-условия- . свойство», позволяющая прогнозировать разнообразные свойства и реакционную способность органических соединений при различных внешних условиях; в) методы объединения нейросетевых моделей на основе концепций многоуровнего и многозадачного обучения, позволяющие повышать прогнозирующую способность моделей за счет интеграции разнородных экспери- " " ментальных данных; г) концепция проведения прямых корреляций «структура-свойство» и на ее основе специальные архитектуры нейронных сетей, позволяющие осуществлять прогнозирование свойств органических соединений непосредственно из описания молекулярного графа без предваретелного вычисления молекулярных дескрипторов.

5. Разработан программный комплекс, позволяющий в полном объеме осуществить весь цикл работ по построению моделей «структура-свойство» и «струк-тура-условия-свойство», и с их помощью осуществлять прогнозирование самых разнообразных свойств органических соединений.

6. Построены модели для прогнозирования 62 разнообразных свойств органических соединений: а) температуры кипения и плавления, молярного объема, молярной рефракции, теплоты испарения, критической температуры, критического давления и поверхностного натяжения алканов; б) октанового числа, вязкости, теплоты испарения и плотности углеводородов; в) динамической вязкости и плотности углеводородов при разной температуре; г) температуры

кипения, вязкости, плотности, давления насыщенных паров, поляризуемости, магнитной восприимчивости, энтальпии сублимации, энтальпии парообразования, температуры вспышки, теплоты сольватации в циклогексане, анестетического давления газов, липофильности, значений 4 констант Абрахама, коэффициента сорбции в почве и растворимости фуллерена С60 для разнообразных соединений, принадлежащих к разным классам; д) констант ионизации фенолов, карбоновых кислот и азотсодержащих соединений; е) положения длинноволновой полосы поглощения спиртового раствора симметричных цианиновых красителей; ж) энтальпии образования алифатических полинитросо-единешш; з) сродства азо- и антрахиноновых красителей к целлюлозному волокну; и) химических сдвигов в 31Р ЯМР спектрах производных монофосфи-нов; й) температуры плавления ионных жидкостей, представляющих собой бромиды производных пиридинов, имидазолов, бензимидазолов и четвертичных солей аммония; к) показателя преломления, плотности и температуры стеклования аморфных полимеров; л) константы скорости гидролиза сложных эфиров карбоновых кислот при разной температуре и разном составе растворителя; м) констант заместителей а'", ар, F, R, £,; н) 11 констант распределения «ткань-воздух» для произвольных органических соединений: о) мутагенной активности нитропроизводных гетероциклических аналогов полициклических углеводородов и бифенила; п) блокирующей способности ди-гидропиридинов по отношению к ионным каналам L-типа; р) галлюциногенной активности феннлалкиламинов; с) способности аналогов НЕРТ ингибировать обратную транскриптазу вируса ВИЧ-1; т) эмбриотоксичности синтетических аналогов биогенных аминов.

Основное содержание диссертации изложено в опубликованных работах.

Статьи в журналах, рекомендованных ВАК РФ для публикации основных результатов докторской диссертации:

1. Зефиров Н.С., Баскин И.И., Трач С.С. Универсальная программа машинной графики для целей органической химии. // Журн. Всес. хим. о-ва им. Д.И. Менделеева. - 1987. - Т. 32, Ко 1. - С. 112-113.

2. Станкевич М.И., Баскин И.И., Зефиров Н.С. Автоматизированный поиск структурных фрагментов. Алгоритм и программа. // Журн. структ. химии. - 1987. - Т. 28,№6. -С. 136-137.

3. Баскин И.И., Станкевич М.И., Девдариани P.O., Зефиров Н.С. Комплекс программ для нахождения корреляций «структура-свойство» на основе топологических индексов. II Журн. структ. химии. - 1989. - № 6. - С. 145-147.

4. Баскин И.И., Палголин В.А., Зефиров Н.С. Вычислительные нейронные сети как альтернатива линейному регрессионному анализу при изучении количественных соотношений «структура-свойство» на примере физико-химических свойств углеводородов. // Докл. РАН. - 1993. - Т. 332, № 6. - С. 713-716.

-455. Баскин И.И., Палюлин В.А., Зефиров Н.С. Методология поиска прямых корреляций между структурами и свойствами органических соединений при помощи вычислительных нейронных сетей. // Докл. РАН. - 1993. - Т. 333, № 2. - С. 176179.

6. Баскин И.И., Любимова И.К., Абилев С.К., Зефиров Н.С. Исследование количественной связи между мутагенной активностью химических соединений и их структурой. Замещенные бифенилы. И Докл. РАН. - 1993. - Т. 332, № 5. - С. 587-589.

7. Баскин И.И., Палюлин В.А., Любимова И.К., Абилев С.К., Зефиров Н.С. Количественная связь между мутагенной активностью гетероциклтеских аналогов пирена и фенантрена и их структурой. // Докл РАН. - 1994. - Т. 339, № 1. - С. 106-108.

8. Баскин И.И., Скворцова М.И., Станкевич И.В., Зефиров Н.С. О базисе инвариантов помеченных молекулярных графов. // Докл. РАН. - 1994. - Т. 339, № 3. -С. 346-350.

9. Baskin I.I., Skvortsova M.I., Stankevich I.V., Zefirov N.S. On basis of invariants of labeled molecular graphs. // J. Chem. Inf. Coraput. Sei. - 1995. - Vol. 35, № 3. - P. 527-531.

Ю.Сидорова A.B., Баскин И.И., Палюлин B.A., Петелин Д.Ё., Зефиров Н.С. Исследование зависимостей между структурой и октановыми числами углеводородов. // Докл. РАН. - 1996. - Т. 350, № 5. - С. 642-646.

11.Баскин И.И., Айт А.О., Гальберштам Н.М., Палюлин В.А., Алфимов М.В., Зефиров Н.С. Применение методологии искусственных нейронных сетей для прогнозирования свойств сложных молекулярных систем. Предсказание положения длинноволновой полосы поглощения симметричных цианиновых красителей. // Докл. РАН. - 1997. - Т. 357, Ks 1. - С. 57-59.

12.Баскин И.И., Гальберштам Н.М., Палюлин В.А., Зефиров Н.С. Компьютерная реализация искусственных нейронных сетей для решения задач по выявлению связи "структура-свойство". // Информационные технологии. - 1997. - № 9. - С. 27-30.

13.Баскин И.И., Патюлин В.А., Зефиров Н.С. Нейроматематика - будущее вычислительной химии. // Нейрокомпьютеры: разработка, применение. - 1997. - № 3-4.-С. 17-23.

14.Баскин И.И., Бузников Г.А., Кабанкин A.C., Ландау М.А., Лексина Л.А., Орду-ханян A.A., Палюлин В.А., Зефиров Н.С. Компьютерное изучение зависимости между эмбриотоксичностью и структурами синтетических аналогов биогенных аминов. // Изв. РАН, Сер. биол. - 1997. - № 4. - С. 407-413.

15.Skvortsova M.I., Baskin I.I., Skvortsov L.A., Palyulin V.A., Zefirov N,S., Stankevich • I.V. Chemical graphs and their basis invariants. // J. Mol. Struct. (Theochem). -1999. - V. 466. - P. 211-217.

16.Баскин И.И., Палюлин В.А., Зефиров Н.С. Применение искусственных нейронных сетей в химических и биохимических исследованиях. Н Вестн. Моск. ун-та. Сер. 2. Химия. - 1999. - Т. 40, № 5. - С. 323-326.

17.Baskin, I.I.; Halberstam, N.M.; Mukhina, T.V.; Palyulin, V.A.; Zefirov, N.S. The Learned Syipmetry Concept in Revealing Quantitative Structure-Activity Relationships with Artificial Neural Networks. // SAR and QSAR in Env. Res. - 2001. - Vol. 12.-P. 401-416.

18.Артеменко H.B., Баскин И.И., Палюлин B.A., Зефиров Н.С. Прогнозирование физических свойств органических соединений при помощи искусственных нейронных сетей в рамках подструктурного подхода. // Докл. РАН. - 2001. - Т. 381,№2.-С. 203-206.

19.Любимова И.К., Абилев С.К., Гальберштам Н.М., Баскин И.И., Палюлин' В.А., Зефиров Н.С. Компьютерное предсказание мутагенной активности замещенных полициклических соединений. // Изв. РАН, Сер. биол. - 2001. - № 2. - С. 180186.

20.Баскин И.И., Палюлин В.А., Зефиров Н.С. Прогнозирование энтальпий образования алифатических полинитросоединений. // Вестн. Моск. ун-та. Сер. 2. Химия. - 2001. - Т. 42, № 6. - С. 387-389.

21.Baskin I.I., Ait А.О., Halberstam N.M., Palyulin V.A., Zefirov N.S. An approach to the interpretation of backpropagation neural network models in QSAR studies. // SAR and QSAR in Env. Res. - 2002. - Vol. 13, № 1. - P. 35-41

22.Halberstam N.M., Baskin I.I., Palyulin V.A., Zefurov N.S. Quantitative Structure -Conditions - Property Relationships Studies. Neural Network Modelling of Acid Hvdrolysis of Esters. II Mendeleev Communications. - 2002. - Vol. 1, № 6. - P. 185186.

23.Гальберштам H.M., Баскин И.И., Палюлин B.A., Зефиров Н.С. Построение ней-росетевых зависимостей структура-условия-свойство. Моделирование физико-химических свойств углеводородов. II Докл. РАН. - 2002. - Т. 384, № 2. - С. 202-205.

24.Гальберштам Н.М., Баскин И.И., Палюлин В.А., Зефиров Н.С. Нейронные сети как метод поиска зависимостей структура - свойство органических соединений. // Успехи химии. - 2003. - Т. 72, №7. - С. 706-727.

25.Артеменко Н.В., Баскин И.И., Палюлин В.А., Зефиров Н.С. Искусственные нейронные сети и фрагментный подход в прогнозировании физико-химических свойств органических соединений. // Изв. РАН, Сер. хим. - 2003. - № 1. - С. 1928.

26.Жохова Н.И., Баскин И.И,, Палюлин В.А., Зефиров А.Н., Зефиров Н.С. Расчет энтальпии сублимации методом QSPR с применением фрагментного подхода. // Журн. прикл. химии. - 2003. - Т. 76, № 12. - С. 1966-1970,

27.Жохова Н.И., Баскин И.И., Палюлин В.А., Зефиров А.Н., Зефиров Н.С. Фраг-ментные дескрипторы в QSAR: применение для расчета температуры вспышки. // Изв. РАН, Сер. хим. - 2003. - №. 9. - С. 1787-1793.

28.Жохова Н.И., Баскин И.И., Палюлин В.А., Зефиров А.Н., Зефиров Н.С. Фраг-ментные дескрипторы в QSPR: применение для расчета поляризуемости молекул. // Изв. РАН, Сер. хим. - 2003. - № 5. - С. 1005-1009.

29.Жохова Н.И., Баскин И.И., Палюлин В.А., Зефиров А.Н., Зефиров Н.С. Фраг-ментные дескрипторы в QSPR: применение для расчета магнитной восприимчивости. // Журн. структ. химии. - 2004. - Т. 45, № 4. - С. 660-669.

30.Баскин И.И., Палюлин В.А., Зефиров Н.С. Применение искусственных нейронных сетей для прогнозирования свойств химических соединений. // Нейрокомпьютеры: разработка, применение. - 2005. - № 1-2. - С. 98-101.

31 .Жохова Н.И., Баскин И.И., Палюлин В.А., Зефиров А.Н., Зефиров Н.С. Исследование сродства красителей к целлюлозному волокну в рамках фрагментарного подхода в QSPR. // Журн. прикл. химии. -2005. - Т. 78, № 6. - С. 1034-1037.

32.Баскин И.И., Палюлин В.А., Зефиров Н.С. Многослойные персептроны в исследовании зависимостей «структура-свойство» для органических соединений. // Рос. хим. ж. (Ж. Рос. хим. об-ва им. Д.И. Менделеева). - 2006. - Т. L, № 2. - С. 86-96.

33.Иванова АЛ., Баскин И.И., Палюлин В.А., Зефиров Н.С. Оценка значений констант ионизации для различных классов органических соединений с использованием фрагментного подхода к поиску зависимостей «структура-свойство». // Докл. РАН. - 2007. - Т. 413, № 6. - С. 766-770.

34.Жохова Н.И., Баскин И.И., Палюлин В.А., Зефиров А.Н., Зефиров Н.С. Фраг-ментные дескрипторы с «выделенными» атомами и их применение в исследованиях QSAR/QSPR. // Докл. РАН. - 2007. - Т. 417, № 5. - С. 639-641.

35.Varnek A., Kireeva N., Tetko I.V., Baskin I.I., Soiov'ev V.P. Exhaustive QSPR Studies of Large Diverse Set of Ionic Liquids: How Accurately Can We Predict Melting Points? // J. Chem. Inf. Comput. Sci. - 2007. - Vol. 47, № 3. - P. 1111-1122.

36.Жохова Н.И., Палюлин B.A., Баскин И.И., Зефиров А.Н., Зефиров Н.С. Фраг-ментные дескрипторы в методе QSPR: применение для расчета энтальпии испарения органических соединений. // Журн. физ. химии. - 2007. - Т. 81, № 1. -С. 15-18.

37.Жохова Н.И., Бобков Е.В., Баскин И.И., Палюлин В.А., Зефиров А.Н., Зефиров Н.С. Расчет стабильности комплексов органических соединений с р-циклодекстрином с помощью метода QSPR. // Вестн. Моск. ун-та. Сер. 2. Химия. - 2007. - Т. 48, № 5. - С. 329-332.

38.Baskin I., Varnek A. Building a chemical space based on fragment descriptors. // Comb. Chem. High Throughput Screening. - 2008. - Vol. 11, №8.-P. 661-668.

39.Varnek A., Gaudin C., Marcou G., Baskin I., Pandey A.K., Tetko I.V. Inductive Transfer of Knowledge: Application of Multi-Task Learning and Feature Net Approaches to Model Tissue-Air Partition Coefficients. // J. Chem. Inf. Model. - 2009. -Vol. 49, № l.-P. 133-144.

40.Баскин И.И., Жохова Н.И., Палюлин B.A., Зефиров А.Н., Зефиров Н.С. Многоуровневый подход к прогнозированию свойств органических соединений в

рамках методологии исследования количественных соотношений «структура-свойство/структура-активность». // Докл. РАН. - 2009. - Т. 427, № 3. - С. 335339.

Главы в монографиях;

41.Baskin I.I., Palyulin V.A., Zefirov N.S. Chapter 8. Neural Networks in Building QSAR Models. // In: Artificial Neural Networks: Methods and Protocols / Livingstone D.S., Ed. - Humana Press, a part of Springer Science + Business Media -2008.-P. 139-160.

42.Baskin I.I., Varnek A. Chapter 1. Fragment Descriptors in SAR/QSAR/QSPR Studies, Molecular Similarity Analysis and in Virtual Screening. // In: Chemoinformatics Approaches to Virtual Screening / Varnek A., Tropsha A., Ed. - RCS Publishing. -2008.-P. 1-43.

Статьи в рецензируемых журналах:

43.Baskin I.I., Skvortsova M.I., Palyulin V.A., Zefirov N.S. Quantitative chemical structure - property/activity relationship studies using artificial neural networks. // Foundations of Computing and Decision Sciences. - 1997. - Vol. -22, № 2. - P. 107-116.

Стать и в сборниках:

44.Palyulin V.A., Baskin I.I., Petelin D.E., Zefirov N.S. Novel descriptors of molecular structure in QSAR and QSPR studies. // QSAR and Molecular Modelling: Concepts, Computational Tools and Biological Applications. - Barcelona: Prous Science Publishers. - 1995. - P. 51-52.

45.Baskin I.I., Palyulin V.A., Zefirov N.S. NASA. A computer program for performing QSAR/QSPR studies using artificial neural networks. //.QSAR and Molecular Modelling: Concepts, Computational Tools and Biological Applications. - Barcelona: Prous Science Publishers. - 1995. - P. 30-31.

46.Zefirov N.S., Baskin I.I., Halberstam N.M., Palyulin V.A. Artificial Neural Networks Oriented for the Chemical Structure-Property Relationship Modelling. // EUFIT'97 5th European Congress on Intelligent Techniques & Soft Computing. Book of Abstracts. - 1997. -V. 1. -P.552-556.

47.Баскин И.И., Палюлин B.A., Зефиров H.C. Применение искусственных нейронных сетей в химических и биохимических исследованиях. // V Всероссийская конференция «Нейрокомпьютеры и их применение». Москва, 17-19 февраля 1999 г. Сборник докладов. - С. 28-31.

48.Baskin I.I., Keshtova S.V., Palyulin V.A., Zefirov N.S. Combining Molecular Modelling with the Use of Artificial Neural Networks as an Approach to Predict Substituent Constants and Bioactivity. // Molecular Modeling and Prediction of Bioactivity; K. Gundertofte; F.S. Jorgenseri, Eds. - Klumer Academic / Plenum Publishers:" New York, Boston, Dordrecht, London, Moscow. - 2000. - P. 468-469.

49.Гальберштам Н.М., Баскин И.И., Палюлин В.А., Зефиров Н.С. Прогнозирование констант скоростей реакций кислотного гидролиза сложных эфиров с использованием искусственных нейронных сетей. Н Труды VII Всероссийской

. конференции «Нейрокомпьютеры и их применение». НКП-2001 с международным участием.- Москва. -2001. - С. 423-424.

50.Басюш И.И., Палюлин В.А., Зефиров Н.С. Нейрокомпьютеры и геном человека. // Труды VII Всероссийской конференции «Нейрокомпьютеры и их применение». НКП-2001 с международным участием. Москва, 14-16 февраля 2001 г. -Москва. - С. 13-16.

51.Баскин И.И., Гальберштам Н.М., Палюлин В.А., Зефиров Н.С. NASAWIN -программный комплекс для изучения соотношений структура-свойство в химии. // Труды VII Всероссийской конференции «Нейрокомпьютеры и их применение». НКП-2001 с международным участием. Москва. -2001. - С. 419-422.

52.Артеменко Н.В., Баскин И.И., Гальберштам Н.М., Палюлин В.А., Зефиров Н.С. Прогнозирование физических свойств органических соединений при помощи нейронных сетей в рамках подструктурного подхода. // Труды VIT Всероссийской конференции «Нейрокомпьютеры и их применение» НКП-2001 с международным участием.-Москва. -2001; - С. 414-418.

53-Айт А.О., Баскин И.И., Гальберштам Н.М. Прогнозирование физико-химических свойств симметричных цианиновых красителей с использованием . методологии искусственных нейронных сетей. И Труды VII Всероссийской конференции «Нейрокомпьютеры и их применение». НКП-2001 с международным участием. - Москва. - 2001. - С. 411-413.

54.Baskin I.I., Halberstam N.M., Artemenko N.V., Palyulin V.A., Zefirov N.S. NASAWIN - a universal software for QSPR/QSAR studies. // EuroQSAR 2002 Designing Drugs and Crop Protectants: processes, problème and solutions / Eds., M.Ford et al. - Blackwell Publishing. - 2003. - P. 260-263.

Подписано в печать /4 О/, £0(0 \ ГОда. Заказ N9 ■ Формат60x90/16-Усл. печ. л..Тираж /АЗ экз. Отпечатано на ризографе в отделе оперативной печати и информации Химического факультета МГУ.

 
Содержание диссертации автор исследовательской работы: доктора физико-математических наук, Баскин, Игорь Иосифович

Содержание.

Введение.

Глава 1. Искусственные нейронные сети.

1.1. Введение.

1.2. Основные принципы нейросетевого моделирования.

1.2.1. Общая терминология.

1.2.2. Нейрон МакКаллока-Питтса.

1.2.3. Персептрон Розенблатта.

1.2.4. Нейросети обратного распространения (Ьаскргор

§а1:юп).

1.2.5. Другие архитектуры нейронных сетей.

1.3. Основные принципы применения искусственных нейронных сетей для прогнозирования свойств химических соединенй.

1.4. Ограничения искусственных нейронных сетей.

Глава 2. Фрагментные дескрипторы в поиске зависимостей структура-свойство

2.1. История фрагментных дескрипторов.

2.2. Типы фрагментных дескрипторов.

2.2.1. Классификация по типам молекулярных графов.

2.2.2. Классификация по типам молекулярны структур.

2.2.3. Классификация по типам значений дескрипторов.

2.2.4. Класификация по типам дескрипторных наборов.

2.2.5. Классификация по связности фрагментов.

2.2.6. Классификация по уровням детализации молекулярных графов.

2.2.7. Фрагментные дескрипторы с выделенными атомами.

2.3. Ограничения фрагментных дескрипторов.

Глава 3. Математическое обоснование выбранного подхода.

3.1. Химическая значимость поиска базиса инвариантов помеченных графов

3.2. Две основные теоремы о базисе инвариантов графов.

3.3. Теоретические основы сочетания искусственных нейронных сетей и фрагментных дескрипторов.

Глава 4. Разработка нейросетевых подходов.

4.1. Подход к решению проблемы «переучивания» нейронных сетей.

4.1.1. Суть эффекта «переучивания» нейросетей.

4.1.2. Методы предотвращения «переучивания» нейросетей.

4.1.3. Трехвыборочный подход.

4.1.4. Процедура двойного скользящего контроля.

4.1.5. Быстрая пошаговая множественная линейная регрессия.

4.2. Подход к интерпретации нейросетевых моделей.

4.3. Концепция обучаемой симметрии.

Глава 5. Разработка фрагментных подходов.

5.1. Принципы построения и генерации фрагментных дескрипторов.

5.1.1. Типы фрагментов.

5.1.2. Иерархическая классификация атомов во фрагментах.

5.1.3. Построение фрагментного дескриптора.

5.1.4. Генерация кодов фрагментов с обобщенными типами атомов.

5.1.5. Алгоритм генерации фрагментных дескрипторов.

5.2. Примеры прогнозирования физико-химических свойств органических соединений с использованием фрагментных дескрипторов и линейно-регрессионных моделей.

5.2.1. Прогнозирование поляризуемости органических соединений.

5.2.2. Прогнозирование энтальпий образования алифатических полинитросоединений.

5.2.3. Прогнозирование магнитной восприимчивости органических соединений

5.2.4. Прогнозирование энтальпии парообразования органических соединений

5.2.5. Прогнозирование энтальпии сублимации органических соединений.

5.2.6. Прогнозирование температуры вспышки органических соединений.

5.2.7. Прогнозирование сродства азо- и антрахиноновых красителей к целлюлозному волокну.

5.3. Фрагментные дескрипторы с «выделенными» атомами.

5.3.1. Прогнозирование химических сдвигов в Р ЯМР спектрах замещенных монофосфинов.

5.3.2. Прогнозирование способности аналогов 1-[(2-гидроксиэтокси)-метил]-6(фенилтио)тимина (НЕРТ) ингибировать обратную транскриптазу вируса ВИЧ-1.

5.3.3. Прогнозирование констант скорости гидролиза эфиров карбоновых кислот.

5.4. Псевдофрагментные подходы. FRAGPROP. Прогнозирование физических свойств полимеров.

Глава 6. Сочетание искусственных нейронных сетей и фрагментных дескрипторов.

6.1. Первые свидетельства эффективности совместного использования искусственных нейронных сетей и фрагментных дескрипторов.

6.2. Прогнозирование физико-химических свойств органических соединений с использованием фрагментных дескрипторов и нейросетевых моделей.

6.3. Моделирование физических свойств органических жидкостей в рамках процедуры трехвыборочного скользящего контроля.

6.3.1. Общая методология моделирования.

6.3.2. Моделирование вязкости органических соединений.

6.3.3. Моделирование плотности жидких органических соединений.

6.3.4. Моделирование давления насыщенных паров.

6.3.5. Моделирование температуры кипения разнородных органических соединений.

6.4. Прогнозирование температуры плавления ионных жидкостей.

Глава 7. Разработка интегрированных подходов.

7.1. Совместное применение методологии искусственных нейронных сетей и методов молекулярного моделирования.

7.1.1. Предсказание положения длинноволновой полосы поглощения симметричных цианиновых красителей.

7.1.2. Оценка значений констант ионизации для различных классов органических соединений.

7.1.3. Моделирование мутагенной активности замещенных полициклических нитросоединений с помощью искусственных нейронных сетей.

7.1.4. Прогнозирование констант заместителей с использованием искусственных нейронных сетей и квантово-химических дескрипторов.

7.2. Корреляции структура-условия-свойство.

7.2.1. Концепция построения нейросетевых зависимостей структура - условия — свойство.

7.2.2. Построение и анализ нейросетевых зависимостей структура-условие-свойство для физико-химических свойств углеводородов.

7.2.3. Построение и анализ нейросетевых зависимостей структура - условия реакции - константы скорости для реакции кислотного гидролиза сложных эфиров карбоновых кислот.

7.3. Индуктивный перенос знаний при интеграции моделей «структура-свойство»

7.3.1. Многоуровневый принцип построения моделей «структура-свойство»

7.3.2. Параллельный принцип построения моделей «структура-свойство». Многозадачное обучение.

7.4. Нейронное устройство для проведения прямых корреляций «структура-свойство».

7.4.1. Введение.

7.4.2. Описание нейронного устройства.

7.4.3. Примеры разных конфигураций нейронного устройства.

7.4.4. Применение нейронного устройства в исследованиях «структура-свойство» для органических соединений.

7.4.5. Выводы.

Глава 8. Разработка программных средств.

8.1. История разработки программных средств.

8.2. Программный комплекс «NASAWIN».

8.2.1. Представление химической информации.

8.2.2. Интеграция с программными компонентами, осуществляющими расчет дескрипторов химических структур.

8.2.3. Химически-ориентированная визуализация.

8.2.4. Модификация дескрипторов и свойств.

8.2.5. Предварительный отбор дескрипторов.

8.2.6. Построение классификационных моделей структура-активность.

8.2.7. Нейросетевые парадигмы.

8.2.8. Интерпретация нейросетевых моделей.

8.2.9. Отбор дескрипторов в ходе обучения нейросети.

8.2.10. Определение момента начала «переучивания» нейросети.

8.2.11. Кластеризация баз данных.

8.2.12. Динамическая визуализация хода обучения нейросети.

8.2.13. Определение области применимости модели.

8.2.14. Химически-ориентированный блок прогноза.

8.3. Дескрипторный блок «FRAGMENT».

8.4. Дескрипторный блок «FRAGPROP».

8.5. Автономные прогнозаторы свойств органических соединений.

Выводы.

 
Введение диссертация по химии, на тему "Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов"

На современном этапе развития химии, когда накоплен и организован в виде электронных баз данных огромный объем экспериментальных данных, особое внимание уделяется компьютерным методам обработки характеристик уже исследованных веществ с целью предсказания свойств, которыми обладают еще не исследованные соединения либо которыми будут обладать новые, еще не синтезированные вещества. Это, в свою очередь, открывает большие перспективы в решении одной из главных задач химической науки - целенаправленной разработке новых веществ и материалов с заранее заданными свойствами.

Тем не менее, несмотря на актуальность этой задачи, до последнего времени отсутствовала универсальная, строго обоснованная и, в то же время, легкая для понимания методология, которая позволила бы химику на основе обработки экспериментальных данных осуществлять прогнозирование всевозможных свойств химических соединений. Главной целью настоящей диссертационной работы была разработка универсальной методологии, позволяющей с единых позиций прогнозировать самые разнообразные свойства органических соединений на основе обработки эмпирических данных. В данной работе сначала математически обоснован, а потом и на множестве примеров проиллюстрировали центральный тезис диссертационной работы - такой универсальной методологией является сочетание многослойных искусственных нейронных сетей и фрагментных дескрипторов.

Искусственные нейронные сети в настоящее время являются одним из наиболее широко применяемых методов для восстановления по экспериментальным данным как разнообразных количественных зависимостей, так и для проведения качественной классификации. Благодаря уникальной возможности осуществлять построение нелинейных моделей любого уровня сложности, особенно в тех случаях, когда неизвестен общий вид аналитической зависимости, нейронные сети нашли широкое применение в рамках поиска зависимостей между структурами органических соединений и их физико-химическими свойствами (С^РЯ) и биологической активностью (С^АЯ).

Несмотря на широкое использование искусственных нейросетей для получения зависимостей структура - свойство, до настоящего времени не существовало универсального программного комплекса, реализующего все необходимые этапы построения моделей и позволяющего исследователям-химикам комплексно, с учетом особенностей работы со структурной информацией, применять методологию нейронных сетей. Именно разработка такого программного комплекса, реализующего универсальную методологию построения моделей, предназначенных для количественного прогнозирования разнообразных свойства органических соединений на базе сочетания многослойных нейронных сетей и фрагментных дескрипторов, а также его апробация на различных примерах. и составляла важнейшую задачу диссертационной работы.

Следует отметить, что на период начала работы отсутствовало понимание основных принципов работы с нейронными сетями для построения С^АК/С^РЫ-моделей. В частности, не было ясно, как лучше всего предотвращать «переучивание» нейросетей, как объективно оценивать прогнозирующую способность полученных моделей, а также как эффективно отбирать дескрипторы для их построения, как их использовать для определения области применимости моделей. Кроме того, в рамках методологии С)8АК/С)8РК практически не предпринималось попыток учета влияния внешних условий (таких, например, как температура, давление, концентрация вещества, наличие и свойства того или иного растворителя и т.п.) на исследуемые свойства, а также прогнозировать свойства многокомпонентных систем. Не было также ясно, как применять аппарат нейронных сетей в сочетании с техникой молекулярного моделирования. Кроме того, ранее не существовало методов, позволяющих давать понятную химикам интерпретацию нейросетевым регрессионным моделям. На эти и ряд других важных вопросов, связанных с применением нейросетей для построения С^АИС^РЫ-моделей, дан ответ в данной работе.

Следующая важная часть работы связана с разработкой универсального набора фрагментных дескрипторов, которые могли бы служить для как можно

10 более точного прогнозирования самых разнообразных свойств органических и металлоорганических соединений. Кроме специального дизайна самих дескрипторов, основанного на иерархической классификации типов атомов, эта цель была достигнута путем введения «выделенных» атомов, благодаря которым фрагментные дескрипторы удалось распространить на прогнозирование локальных свойств атомов в органических соединениях, кинетических констант органических реакций, физических свойств полимеров, а также на количественное прогнозирование биологической активности внутри рядов соединений. Кроме того, при помощи «выделенных» атомов можно преодолеть один из недостатков большинства фрагментных дескрипторов - игнорирование стереохи-мической информации.

Для преодоления другого недостатка фрагментных дескрипторов — проблемы «редких фрагментов» - нами разработаны «псевдофрагментные» дескрипторы, значения которых формируются путем комбинирования свойств атомов внутри фрагментов. Совместное использование фрагментных и псевдо-фрагментных дескрипторов обычно ведет к заметному повышению прогнозирующей способности построенных моделей за счет эффективной аппроксимации вкладов отсутствующих в обучающей выборке фрагментов. Кроме того, идея псевдофрагментных дескрипторов явилась отправной при разработке специальных архитектур нейронных сетей, позволяющих строить прямые корреляции между структурой химического соединения и его свойствами без предварительного вычисления каких-либо дескрипторов - нейронная сеть сама строит внутри себя наиболее оптимальные псевдофрагментные дескрипторы.

Дальнейшему повышению универсальности нейросетевым количественных моделей «структура-свойство» и повышению точности осуществляемого ими прогноза служат предложенные в данной работе «интегрированные» подходы: 1) концепция построения моделей «структура-условия-свойство; 2) концепция построения моделей «структура-свойство» для многокомпонентных систем; 3) многоуровневый подход и многозадачное обучение как средства объединения различных моделей «структура-свойство» в единую сеть.

Диссертационная работа состоит из семи глав. Первые две главы, составляющие обзор литературы, посвящены математическому аппарату искусственных нейронных сетей и фрагментным дескрипторам. В третьей главе, составляющей начало обсуждения результатов, приводится математическое обоснование выбранного подхода, основанного на сочетании многослойных нейронных сетей и фрагментных дескрипторов. Следующие две главы посвящены, соответственно, разработкам нейросетевых и фрагментных подходов. Шестая глава посвящена сочетанию нейросетей с фрагментными дескрипторами, седьмая - вышеупомянутым интегрированным подходом. В последней восьмой главе диссертационной работы рассматриваются разработанные программные средства.

 
Заключение диссертации по теме "Математическая и квантовая химия"

выводы

1. Теоретически обоснован и разработан универсальный подход к прогнозированию свойств органических соединений на основе комбинированного использования искусственных нейронных сетей и фрагментных дескрипторов.

2. В рамках развития нейросетевых подходов разработаны: а) трехвыборочный подход и на его основе - процедуры трехвыборочного и двойного скользящего контроля, позволяющие эффективно предотвращать «переучивание» нейросе-тей и объективно оценивать прогнозирующую способность нейросетевых моделей; б) статистический метод быстрой пошаговой множественной линейной регрессии, позволяющий эффективно осуществлять отбор дескрипторов для построения нейросетевых моделей; в) метод интерпретации нейросетевых регрессионных моделей, позволяющий описывать характер найденных зависимостей; г) концепция «обучаемой симметрии», позволяющая улучшать прогнозирующую способность моделей «структура-свойство» за счет корректного учета в них свойств симметрии.

3. В рамках развития фрагментных подходов разработаны: а) иерархическая система классификации типов атомов, входящих в состав фрагментов, а также структура и алгоритм генерации фрагментных дескрипторов, ориентированных на прогнозирование свойств органических соединений; б) концепция фрагментов с «выделенными» атомами, позволяющая прогнозировать: локальные свойства органических соединений; константы заместителей и скоростей реакций; свойства полимерных и супрамолекулярных соединений; биологическую активность внутри рядов органических соединений с учетом стереохимической информации; в) концепция псевдофрагментных дескрипторов как средство повышения прогнозирующей способности моделей «структура-свойство» за счет решения проблемы «редких» фрагментов.

4. В рамках развития интегрированных подходов разработаны: а) методы интеграции нейросетевого и молекулярного моделирования, ведущие к значительному улучшению прогнозирующей способности построенных моделей; б) концепция построения нейросетевых моделей «структура-условия-свойство», позволяющая прогнозировать разнообразные свойства и реакционную способность органических соединений при различных внешних условиях; в) методы объединения нейросетевых моделей на основе концепций многоуровнего и многозадачного обучения, позволяющие повышать прогнозирующую способность моделей за счет интеграции разнородных экспериментальных данных; г) концепция проведения прямых корреляций «структура-свойство» и на ее основе специальные архитектуры нейронных сетей, позволяющие осуществлять прогнозирование свойств органических соединений непосредственно из описания молекулярного графа без предварительного вычисления молекулярных дескрипторов.

5. Разработан программный комплекс, позволяющий в полном объеме осуществить весь цикл работ по построению моделей «структура-свойство» и «структу-ра-условия-свойство», и с их помощью осуществлять прогнозирование самых разнообразных свойств органических соединений.

6. Построены модели для прогнозирования 62 разнообразных свойств органических соединений: а) температуры кипения и плавления, молярного объема, молярной рефракции, теплоты испарения, критической температуры, критического давления и поверхностного натяжения алканов; б) октанового числа, вязкости, теплоты испарения и плотности углеводородов; в) динамической вязкости и плотности углеводородов при разной температуре; г) температуры кипения, вязкости, плотности, давления насыщенных паров, поляризуемости, магнитной восприимчивости, энтальпии сублимации, энтальпии парообразования, температуры вспышки, теплоты сольватации в циклогексане, анестетического давления газов, липофильности, значений 4 констант Абрахама, коэффициента сорбции в почве и растворимости фуллерена Сбо для разнообразных соединений, принадлежащих к разным классам; д) констант ионизации фенолов, карбоно-вых кислот и азотсодержащих соединений; е) положения длинноволновой полосы поглощения спиртового раствора симметричных цианиновых красителей; ж) энтальпии образования алифатических полинитросоединений; з) сродства азо- и антрахиноновых красителей к целлюлозному волокну; и) химических сдвигов в 31Р ЯМР спектрах производных монофосфинов; й) температуры плав

313 ления ионных жидкостей, представляющих собой бромиды производных пири-динов, имидазолов, бензимидазолов и четвертичных солей аммония; к) показателя преломления, плотности и температуры стеклования аморфных полимеров; л) константы скорости гидролиза сложных эфиров карбоновых кислот при разной температуре и разном составе растворителя; м) констант заместителей от, ор, Е, Я, Ех; н) 11 констант распределения «ткань-воздух» для произвольных органических соединений; о) мутагенной активности нитропроизводных гетероциклических аналогов полициклических углеводородов и бифенила; п) блокирующей способности дигидропиридинов по отношению к ионным каналам Ь-типа; р) галлюциногенной активности фенилалкиламинов; с) способности аналогов ПЕРТ ингибировать обратную транскриптазу вируса ВИЧ-1; т) эмбрио-токсичности синтетических аналогов биогенных аминов.

 
Список источников диссертации и автореферата по химии, доктора физико-математических наук, Баскин, Игорь Иосифович, Москва

1. Гиллер С.А.; Глаз А.Б.; Растригин Л.А.; Розенблит А.Б. Распознавание физиологической активности химических соединений на перцептроне со случайной адаптацией структуры. // ДАН СССР. - 1971. - Т. 199, № 4. - С. 851-853.

2. Hiller S.A.; Golender V.E.; Rosenblit А.В.; Rastrigin L.A.; Glaz А.В. Cybernetic methods of drug design. I. Statement of the problem—the perceptron approach. // Comput. Biomed. Res. 1973. - V. 6, № 5. - P. 411-421.

3. Zupan J.; Gasteiger J. Neural networks: a new method for solving chemical problems or just a passing phase? // Anal. Chim. Acta. 1991. - V. 248, № 1. - С. 130.

4. McCulloch W.S.; Pitts W. A logical calculus of the ideas immanent in nervous activity. // Bull. Math. Biophys. 1943. - V. 5. - P. 115-133.

5. Розенблатт Ф. Принципы нейродинамики. Мир: М. - 1964. - 480 с.

6. Нильсен Н. Обучающиеся машины. Мир: М. - 1967. - 506 с.

7. Минский М; Пейперт С. Персептроны. Мир: М. - 1971.-261 с.

8. Мкртчян С. О. Нейроны и нейронные сети (Введение в теорию формальных нейронов и нейронных сетей). Энергия: М. - 1971. - 232 с.

9. Галушкин А.И. Синтез многослойных систем распознавания образов. -Энергия: М. 1974. - 376 с.

10. Rumelhart D.E.; McClelland J.L. Parallel Distributed Processing. MIT Press: Cambridge, MA. - 1986. - Vol. 1,2.

11. Горбанъ A.H. Обучение нейронных сетей. ПараГраф: М. - 1990. - 160 с.

12. Freeman J.A.; Skapura D.M. Neural networks: algorithms, applications, and programming techniques. Addison-Wesley Publishing Company: Menlo Park, CA -1991. -414 p.

13. Уоссерман Ф. Нейрокомпьютерная техника. Мир: M. - 1992. -240 с.

14. Ritter Н; Martinetz Т.; Schulten К. Neural Computation and Self-Organizing Maps An Introduction. - Addison-Wesley: New York. - 1992. - 293 p.

15. Veelenturf L.P.J. Analysis and Applications of Artificial Neural Networks. -Prentice Hall: NY 1995. - 242 p.

16. Горбань А.Н.; Россиее Д.А. Нейронные сети на персональном компьютере. Наука: Новосибирск. - 1996. -276 с.

17. Bigus J.P. Data mining with neural networks: solving business problems -from application development to decision support. McGraw-Hill: NY. - 1996. -221 p.

18. Ежов A.A.; Шумский C.A. Нейрокомпьютинг и его приложения в экономике и бизнесе. МИФИ: М. - 1998. - 224 с.

19. Галушкин А.И. Теория нейронных сетей. Кн. 1. ИПРЖР: М. - 2000. -416 с.

20. Kohonen Т. Self-Organizing Maps. Springer: - 2001. - 260 p.

21. Головко B.A. Нейронные сети: обучение, организация и применение. -ИПРЖР: М. -2001. -256 с.

22. Круглое В.В.; Борисов В.В. Искусственные нейронные сети. Теория и практика. Горячая линия - Телеком: М. - 2001. - 382 с.

23. Каллан Р. Основные концепции нейронных сетей. Издательский дом «Вильяме»: М. -2001. -291 с.

24. Rabunal J.R.; Dorrado J. Artificial Neural Networks in Real-Life Applications. IGP: Hershey, London, Melbourne, Singapore. - 2006. - 395 p.

25. Агеев А.Д.; Балухто A.H.; Бычков A.B.; др. Нейроматематика. Кн. 6: Учебное пособие для вузов. ИПРЖР: М. - 2002. - 448 с.

26. Мкртчян С. О. Проектирование логических устройств ЭВМ на нейронных элементах. Энергия: М. - 1977. - 482 с.

27. Кирсанов Э.Ю. Цифровые нейрокомпьютеры: Архитектура и схемотехника. Изд-во Казан, гос. техн. ун-та: Казань. - 1995. - 131 с.

28. Галушкин А.И. Нейрокомпьютеры. Кн. 3: Учебное пособие для вузов. -ИПРЖР: М. -2000. -528 с.

29. Комарцова Л.Г.; Максимов A.B. Нейрокомпьютеры: Учебое пособие для вузов. Изд-во МГТУ им. Н.Э. Баумана: М. - 2002. - 320 с.

30. Gasteiger J.; Zupan J. Neural Networks in Chemistry. // Angew. Chem. Int. Ed. Engl. 1993. - V. 105, № 4. - P. 503-527.

31. Аоуата Т.; Ichikawa H Neural Networks Applied to Pharmaceutical Problems. IV. Basic Operating Characteristics of Neural Networks When Applied to Structure-Activity Studies. // Chem. Pharm. Bull. 1991. - V. 39, № 2. - P. 358-366.

32. Burns J.A.; Whitesides G.M. Feed-forward neural networks in chemistry: mathematical systems for classification and pattern recognition. // Chem. Rev. -1993. V. 93, № 8. - P. 2583-2601.

33. Devillers J. Neural Networks in QSAR and Drug Design. Academic Press: London. - 1996. -284 p.

34. Zupan J.; Gasteiger J. Neural Networks in Chemistry. Wiley-VCH: Weinheim. - 1999. - 380 p.

35. Баскин И.И.; Палюлин В.А.; Зефиров Н.С. Применение искусственных нейронных сетей в химических и биохимических исследованиях. // Вестн. Моск. ун-та. Сер. 2. Хи-мия. 1999. - Т. 40, № 5. - С. 323-326.

36. Kovesdi /.; Dominguez-Rodriguez M.F.; Orfi L.; Naray-Szabo G.; Varro A.; Papp J.G.; Matyus P. Application of neural networks in structure-activity relationships. // Med Res Rev. 1999. - V. 19, № 3. - P. 249-269.

37. Галъберштам H.M.; Баскин И.И.; Палюлин В.А.; Зефиров Н.С. Нейронные сети как метод поиска зависимостей структура свойство органических соединений. // Успехи химии. - 2003. - Т. 72, № 7. - С. 706-727.

38. Баскин И.И.; Палюлин В.А.; Зефиров Н.С. Применение искусственных нейронных сетей для прогнозирования свойств химических соединений. // Нейрокомпьютеры: разработка, применение. 2005. - Т. № 1-2. - С. 98-101.

39. Баскин НИ.; Палюлин В.А.; Зефиров Н.С. Многослойные персептроны в исследовании зависимостей «структура-свойство» для органических соединений. // Рос. хим. ж. (Ж. Рос. хим. об-ва им. Д.И. Менделеева). 2006. - Т. 50, № - С. 86-96.

40. Baskin I/.; Palyulin V.A.; Zefirov N.S. Neural networks in building QSAR models. // Methods in molecular biology (Clifton, N.J.). 2008. - V. 458. - P. 137158.

41. Rumelhart D.E.; Hinton G.E.; Williams R.J. Learning Internal Representations by Back-Propagating Errors. //Nature. 1986. - V. 323, № 6088 - P. 533-536.317

42. Widrow В.; Hoff M.E. Adaptive switching circuits. 11 1960 IREWESCON Convention Record, IRE: New York. 1960. - P. 96-104.

43. Lehtokangas M.; Saarinen J. Weight initialization with reference patterns. // Neurocomputing. 1998. - V. 20, № 1-3. - P. 265-278.

44. Yam J. Y.F.; Chow T. W.S. A weight initialization method for improving training speed in feedforward neural network. //Neurocomputing. 2000. - V. 30, № 1-4. - P. 219-232.

45. Patnaik L.M.; Rajan K. Target detection through image processing and resilient propagation algorithms. // Neurocomputing. 2000. - V. 35, № 1-4. - P. 123135.

46. Riedmiller M.; Braun H. A direct adaptive method for faster backpropagation learning: The RPROP algorithm. // Proceedings of the IEEE International Conference on Neural Networks. 1993. -P. 586-591.

47. Hagan M.T.; Demuth H.B.; Beale M.H. Neural Network Design. PWS Publishing: Cambridge, MA. - 1996. - 252 p.

48. Медведев B.C.; Потемкин В.Г. Нейронные сети. MATLAB 6. ДИАЛОГ-МИФИ: M. -2002. -496 с.

49. Charalambous С. Conjugate gradient algorithm for efficient training of artificial neural netwoks. // IEEE Proceedings. 1992. - V. 139, № 3. - P. 301-310.

50. Fletcher R.; Reeves C.M. Function minimization by conjugate gradients. // Computer Journal. 1964. - V. 7. - P. 149-154.

51. Dennis J.; Schnabel R.B. Numerical Methods for Unconstrained Optimization and Nonlinear Equations. Prentice-Hall: Englewood Cliffs, NJ. - 1983. - 378 p.

52. Hagan M.T.; Menhaj M. Training feedforward networks with the Marquardt algorithm. // IEEE Transactions on Neural Networks. 1994. - V. 5, № 6. - P. 989993.

53. Karelson M; Dobchev D.A.; Kulshyn O.V.; Katritzky A.R. Neural networks convergence using physicochemical data. // J. Chem. Inf. Model. 2006. - V. 46, № 5.-P. 1891-1897.

54. Kohonen T. The self-organizing map. // Neurocomputing. 1998. - V. 21, № 1-3.-P. 1-6.

55. Linde Y.; Buzo A.; Gray R.M. An algorithm for vector quantization. // IEEE Trans. Communication. 1980. - P. 28, № 1. - P. 84-95.

56. Gray R.M. Vector quantization. I I IEEE ASSP Mag. 1984. - V. 1, № 2. - P. 4-29.

57. Gersho A. On the structure of vector quantizers. // IEEE Trans. Inform. Theory. 1979. - V. 25, № 4. - P. 373-380.

58. Martinez T.M.; Berkovich S.G.; Schidten K.J. "Neural-Gas" network for vector quantization and its applications to time-series prediction. // IEEE Trans. Neural Networks. 1993. - V. 4, № 4. - P. 558-569.

59. Questier F.; Guo Q.; Walczak B.; Massart D.L.; Boucon C.; de Jong S. The Neural Gas network for classifying analytical data. // Chemom. Intel. Lab. Sys. -2002. V. 61, № 1-2. - P. 105-121.

60. Daszykowski M.; Walczak B.; Massart D.L. On the Optimal Partitioning of Data with K-Means, Growing K-Means, Neural Gas, and Growing Neural Gas. // J. Chem. Inf. Comput. Sci. 2002. - V. 42, № 6. - P. 1378-1389.

61. Fritzke B. A growing neural gas network learns topologies. // Advances in neural information processing systems, Tesauro G.; Touretzky D.S.; Leen T.K., Eds. MIT Press: Cambridge, MA. 1995. - V. 7. - P. 625-632.

62. Kohonen T. The Self-Organizing Map. // Proc. IEEE. 1990. - V. 78, № 9. - P. 1464-1480.

63. Hecht-Nielsen R. Counterpropagation networks. // Applied Optics. 1987. - V. 26, №23.-P. 4979-4984.

64. Grossberg S. Some networks that can learn, remember and reproduce any number of complicated space-time patterns. // Journal of Mathematics and Mechanics. 1969. - V. 19, № 1. - P. 53-91.

65. Moody J.; Darken C. Learning in networks of locally-tuned processing units. // Neural Comput. 1989. - V. 1, № 2. - P. 281-294.

66. Bishop C. Neural Networks for Pattern Recognition. Oxford University Press: Walton Street, Oxford OX2 6DP. - 1995. - 251 p.

67. Hartman E.; Keeler J.D.; Kowalski J.M. Layered neural networks with Gaussian hidden units as universal approximations. //Neural Comput. 1990. - V. 2, № 2. -P. 210-215.

68. MacQueen J.B. Some Methods for classification and Analysis of Multivariate Observations. // Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, University of California Press: Berkeley. 1967. - V. 1. - P. 281-297.

69. Likas A.; Vlassis N.; Verbeek J.J. The Global K-Means Clustering Algorithm. // Pattern Recognit. 2003. - V. 36, № 2. - P. 451-461.

70. Golub G.H.; Kahan W. Calculating the singular values and pseudoinverse of a matrix. // J. SLAMNumer. Anal. Ser. B 1965. - V. 2, № 3. - P. 205-224.

71. Specht D. Probabilistic Neural Networks. // Neural Networks. 1990. - V. 3, № 1. - P. 109-118.

72. Specht D. A General Regression Neural Network. // IEEE Trans. Neural Networks. 1991. - V. 2, № 6. - P. 568-576.

73. Nadaraya E.A. On Non-Parametric Estimates of Density Functions and Regression Curves. // Theory. Probability Its Appl. 1965. - V. 10, № 1. - P. 186-190.

74. Watson G.S. Smooth regression analysis. // Sankhya, Ser. A. 1964. - V. 26, № 4. - P. 359-372.

75. Parzen E. On estimation of a probability density function and mode. // Annals of Mathenatical Statistics. 1962. - V. 33, № 3. - P. 1065-1076.

76. Carpenter G.A.; Grossberg S. A massively parallel architecture for a self-organizing neural pattern recognition machine. // Comput. Vision Graph. Image Process. 1987. - V. 37, № 1. - P. 54-115.

77. Carpenter G.; Grossberg S. ART-2: Self-organization of stable category recognition codes for analog input patterns. // Applied Optics. 1987. - V. 26, № 23. -P. 4919-4930.

78. Grossberg S. Competitive learning: From interactive activation to adaptive resonance. // Cognitive Science. 1987. - V. 11, № 1. - P. 23-63.

79. Carpenter G.A.; Grossberg S.; Marcuzon N.; Reynolds J.H.; Rosen D.B. Fuzzy ARTMAP: A Neural Network Architecture for Incremental Supervised Learning of Analogue Multidimensional Maps. // IEEE Trans. Neural Networks. 1992. - V. 3, № 5. - P. 698-713.

80. Эйген M.; Шустер 77. Гиперцикл. Принципы самоорганизации макромолекул. Мир: М. - 1982. - 272 с.

81. Кольцова Э.М.; Гордеев JI.C. Методы синергетики в химии и химической технологии. "Химия": М. - 1999. - 256 с.

82. Гарел Д.; Гарел О. Колебательные химические реакции. Мир: М. -1986. - 148 с.

83. Белоусов Б.П. Периодически действующая реакция и ее механизм. // Сб. рефератов по радиационной медицине за 1958 г., Медгиз: М. 1959. - С. 145148.

84. Жаботинский A.M. Колебательные процессы в биологических и химических системах. -Наука: М. 1974. - 178 с.

85. Рамбиди Н.Г. Биомолекулярные нейрокомпьютеры. // Нейрокомпьютеры: разработка, применение. 1998. - № 1-2. - С. 27-33.

86. Petrosian A.; Prokhorov D.; Homan R.; Dasheiff R.; Wunsch D.I. Recurrent Neural Network based Prediction of Epileptic Seizures in Intra- and Extracranial EEG//Нейрокомпьютеры: разработка, применение. 1998. - № 1-2. - С. 47-59.

87. Cohen М.А.; Grossberg S.G. Absolute stability of global pattern formation and parallel memory storage by competitive neural networks. // IEEE Transactions on Systems, Man and Cybernetics. 1983. - V. 13. - P. 815-826.

88. Hopfield J.J. Neural networks and physical systems with emergent collective computational abilities. // Proc Natl Acad Sci USA.- 1982. V. 79, № 8. - P. 25542558.

89. Hopfield J.J. Neurons with graded response have collective computational properties like those of two-state neurons. // Proc Natl Acad Sci USA.- 1984. V. 81, № 10.-P. 3088-3092.

90. Hopfield J.J.; Tank D. W. "Neural" computation of decisions in optimization problems. // Biol Cybern. 1985. - V. 52, № 3. - P. 141-152.

91. Hopfield J. J.; Tank D.W. Computing with neural circuits: a model. // Science. 1986. - V. 233, № 4764. - P. 625-633.

92. Hebb D. O. The Organization of Behavior. Wiley: New York. - 1949. - 335 p.

93. Farhat N.H.; Psaltis D.; Praia А.; Раек E. Optical implementation of the Hop-field model. // Applied Optics. 1985. - V. 24, № 10. - P. 1469-1475.

94. Hopfield J.J.; Feinstein D.I.; Palmer R.G. 'Unlearning' has a stabilizing effect in collective memories. //Nature. 1983. - T. 304, № 5922. - C. 158-159.

95. Abu-Mostafa Y.S. ; St. Jacques J. Information capacity of the Hopfield model. // IEEE Transactions on Information Theory. 1985. - V. 31, № 4. - P. 461-464.

96. Crick F.; Mitchison G. The function of dream sleep. // Nature. 1983. - V. 304, № 5922. - P. 111-114.

97. Ezhov A.A.; Vvedensky V.L. Object generation with neural networks (when spurious memories are useful). // Neural Networks. 1996. - V. 9, № 9. - P. 14911495.

98. Ezhov A.A. Empty classes, predictive and clustering thinking networks. // Neural Network World. 1994. - V. 4. - P. 671-688.

99. Hinton G.E.; Sejnowski T.J. Learning and relearning in Boltzmann machines. // Parallel distributed processing, MIT Press: Cambridge, MA. 1986. - V. 1. - P. 282317.

100. Todeschini R; Consonni V. Handbook of Molecular Descriptors. Wiley-VCH Publishers: Weinheim. - 2000. - 668 p.

101. Aoyama Т.; Suzuki Y.; Ichikawa H. Neural networks applied to structure-activity relationships. // J. Med. Chem. 1990. - V. 33, № 3. - P. 905-908.

102. Aoyama Т.; Suzuki Y.; Ichikawa H. Neural networks applied to pharmaceutical problems. III. Neural networks applied to quantitative structure-activity relationship (QSAR) analysis. // J. Med. Chem. 1990. - V. 33, № 9. - P. 2583-2590.

103. Andrea T.A.; Kalayeh H. Applications of neural networks in quantitative structure-activity relationships of dihydrofolate reductase inhibitors. 11 J. Med. Chem. -1991. V. 34, № 9. - P. 2824-2836.

104. Baskin /./.; Palyulin V.A.; Zefirov N.S. Chapter 8. Neural Networks in Building QSAR Models. // Artificial Neural Networks: Methods and Protocols, Livingstone D.S., Ed. Humana Press, a part of Springer Science + Business Media. 2008. - P. 139-160.

105. Zefirov N.S.; Palyulin V.A. Fragmental Approach in QSPR. // J. Chem. Inf. Comput. Sci. 2002. - V. 42, № 5. - P. 1112-1122.

106. Japertas P.; Didziapetris R.; Petrauskas A. Fragmental methods in the design of new compounds. Applications of The Advanced Algorithm Builder. // Quant. Struct.-Act. Relat. 2002. - V. 21, № 1. - P. 23-37.

107. Артеменко H.B.; Баскин И.И.; Палюлин В.А.; Зефиров Н.С. Искусственные нейронные сети и фрагментный подход в прогнозировании физико-химических свойств органических соединений. // Изв. РАН, Сер. хим. 2003. -№ 1. - С. 19-28.

108. Merlot С.; Domine D.; Church D.J. Fragment analysis in small molecule discovery. // Curr. Opin. Drug Discov. Devel. 2002. - V. 5, № 3. - P. 391-399.

109. VarnekA.; Fourches D.; Hoonakker F.; Solov'ev V.P. Substructural fragments: an universal language to encode reactions, molecular and supramolecular structures. // J. Comput. Aided Mol. Des. 2005. - V. 19, № 9ю. - P. 693-703.

110. Baskin L; VarnekA. Building a chemical space based on fragment descriptors. // Comb. Chem. High Throughput Screening. 2008. - V. 11, № 8. - P. 661-668.

111. Baskin I.; VarnekA. Fragment Descriptors in SAR/QSAR/QSPR Studies, Molecular Similarity Analysis and in Virtual Screening. // Chemoinformatics Approaches to Virtual Screening Varnek A.; Tropsha A., Eds. RSC Publisher: Cambridge. 2008. - P. 1-43.

112. Vogel A.I. Atomic parachors of carbon and hydrogen. // Chemistry & Industry (London, United Kingdom). 1934. - P. 85.

113. Zahn C.T. The Significance of Chemical Bond Energies. // J. Chem. Phys. -1934.-V. 2.-P. 671-680.

114. Souders M.; Matthews C.S.; Hurd C.O. Relationship of Thermodynamic Properties to.Molecular Structure. Heat Capacities and Heat Contents of Hydrocarbon Vapors. // Ind. Eng. Chem. 1949. - V. 41, № 5. - P. 1037-1048.

115. Souders M.; Matthews C.S.; Hurd C.O. Entropy and Heat of Formation of Hydrocarbon Vapors. // Ind. Eng. Chem. 1949. - V. 41, № 5. - P. 1048-1056.

116. Franklin J.L. Prediction of Heat and Free Energies of Organic Compounds. 11 Ind. Eng. Chem. 1949. - V. 41, № 5. - P. 1070-1076.

117. Franklin J.L. Calculation of the Heats of Formation of Gaseous Free Radicals and Ions. // J. Chem. Phys. 1953. - V. 21, № 11. - P. 2029-2033.

118. Татевский B.M. Химическое строение углеводородов и их теплоты образования. // ДАН СССР. 1950. - Т. 25, № 6. - С. 819-822.

119. Bernstein H.J. The Physical Properties of Molecules in Relation to Their Structure. I. Relations between Additive Molecular Properties in Several Homologous Series. // J. Chem. Phys. 1952. - V. 20, № 2. - P. 263-269.

120. Laidler K.J. System of Molecular Thermochemistry for Organic Gases and Liquids. // Canadian J. Chem. 1956. - V. 34. - P. 626-648.324

121. Benson S. W.; Buss J.H. Additivity Rules for the Estimation of Molecular Properties. Thermodynamic Properties. // J. Chem. Phys. 1958. - V. 29, № 3. - P. 546572.

122. Allen T.L. Bond Energies and the Interactions between Next-Nearest Neighbors. I. Saturated Hydrocarbons, Diamond, Sulfanes, Ssub 8., and Organic Sulfur Compounds. // J. Chem. Phys. 1959. - V. 31, № 4. p. 1039-1049.

123. Смоленский E.A. Применение теории графов для вычисления структурно-аддитивных свойств углеводородов. // Журн. физ. химии. 1964. - Т. 38, № 5. -С. 1288-1291.

124. Free S.M., Jr.; Wilson J. W. A Mathematical Contribution to Structure-Activity Studies. // J. Med. Chem. 1964. - V. 7, № 4 - P. 395-399.

125. Golender V.E.; Rozenblit A.B. Logico-structural approach to computer-assisted drug design. // Med. Chem. (Academic Press). 1980. - V. 11, №. 9. - P. 299-337.

126. Avidon V.V.; Pomerantsev I.A.; Golender V.E.; Rozenblit A.B. Structure-Activity Relationship Oriented Languages for Chemical Structure Representation. // J. Chem. Inf. Comput. Sci. 1982. - V. 22, № 4. - P. 207-214.

127. Cramer R.D., 3rd; Redl G.; Berkoff C.E. Substructural analysis. A novel approach to the problem of drug design. // J. Med. Chem. 1974. - V. 17, № 5. - P. 533-535.

128. Brugger W.E.; Stuper A. J.; Jurs P.C. Generation of Descriptors from Molecular Structures. // J. Chem. Inf. Model. 1976. - V. 16, № 2. - P. 105-110.

129. Stuper A.J.; Jurs P.C. ADAPT: A Computer System for Automated Data Analysis Using Pattern Recognition Techniques. // J. Chem. Inf. Model. 1976. - V. 16, №2.-P. 99-105.

130. Hodes L.; Hazard G.F.; Geran R.I.; Richman S. A statistical-heuristic methods for automated selection of drugs for screening. // J. Med. Chem. 1977. - V. 20, № 4. - P. 469-475.

131. Adamson G.W. Automatic methods of handling chemical structure and property information. // Proc. Analyt. Div. Chem. Soc. 1977. - V. 14, № 2. - P. 26-28.

132. Adamson G.W.; Bush J.A. Method for relating the structure and properties of chemical compounds. //Nature. 1974. - V. 248, № 5447. - P. 406-407.325

133. Adamson G.W.; Bernden D. Method of structure-activity correlation using Wiswesser line notation. // J. Chem. Inf. Comput. Sei. 1975. - V. 15, № 4. - P. 215220.

134. Adamson G. W; Bush J.A. Evaluation of an empirical structure-activity relation for property prediction in a structurally diverse group of local anesthetics. // J. Chem. Soc., Perkin Trans. 1. 1976. - № 2. - P. 168-172.

135. Adamson G.W.; Bawden D. A substructural analysis method for structure-activity correlation of heterocyclic compounds using Wiswesser line notation. // J. Chem. Inf. Comput. Sei. 1977. - V. 17, № 3. - P. 164-171.

136. Adamson G.W.; Bawden D. An empirical method of structure-activity correlation for polysubstituted cyclic compounds using Wiswesser Line Notation. // J. Chem. Inf. Comput. Sei. 1976. - V. 16, № 3. - P. 161-165.

137. Milne M.; Lefkovitz D.; Hill H.; Powers R. Search of CA Registry (1.25 Million Compounds) with the Topological Screens System. // J. Chem. Doc. 1972. - V. 12, №3.-P. 183-189.

138. Adamson G.W.; Cow ell J.; Lynch M.F.; McLure A.H.W.; Town W.G.; Yapp A.M. Strategic Considerations in the Design of a Screening System for Substructure Searches of Chemical Structure Files. // J. Chem. Doc. 1973. - V. 13, № 3. - P. 153157.

139. Feldman A.; Hodes L. An Efficient Design for Chemical Structure Searching. I. The Screens. // J. Chem. Inf. Comput. Sei. 1975. - V. 15, № 3. - P. 147-152.

140. Willett P. A Screen Set Generation Algorithm. // J. Chem. Inf. Comput. Sei. -1979. V. 19, № 3. - P. 159-162.

141. Willett P. The Effect of Screen Set Size on Retrieval from Chemical Substructure Search Systems. // J. Chem. Inf. Comput. Sei. 1979. - V. 19, № 4. - P. 253255.

142. Willett P.; Winterman V.; Bawden D. Implementation of nearest-neighbor searching in an online chemical structure search system. // J. Chem. Inf. Comput. Sei. 1986.-V. 26, № l.-P. 36-41.

143. Fisanick W.; Lipkus A.H.; Rusinko A. Similarity searching on CAS Registry substances. 2. 2D structural similarity. // J. Chem. Inf. Comput. Sci. 1994. - V. 34, № l.-p. 130-140.

144. Hodes L. Clustering a large number of compounds. 1. Establishing the method on an initial sample. // J. Chem. Inf. Comput. Sci. 1989. - V. 29, № 2. - P. 66-71.

145. McGregor M.J.; Pallai P. V. Clustering of Large Databases of Compounds: Using the MDL "Keys" as Structural Descriptors. // J. Chem. Inf. Comput. Sci. 1997. -V. 37, №3.-P. 443-448.

146. Turner D.B.; Tyrrell S.M.; Willett P. Rapid Quantification of Molecular Diversity for Selective Database Acquisition. // J. Chem. Inf. Comput. Sci. 1997. - V. 37, № l.-P. 18-22.

147. Durant J.L.; Leland B.A.; Henry D.R.; Nourse J.G. Reoptimization of MDL Keys for Use in Drug Discovery. // J. Chem. Inf. Comput. Sci. 2002. - V. 42, № 6. -P. 1273-1280.

148. Cramer R.D. BC(DEF) parameters. 1. The intrinsic dimensionality of intermolecular interactions in the liquid state. // J. Am. Chem. Soc. 1980. - V. 102, № 6. -P. 1837-1849.

149. Cramer R.D. BC(DEF) parameters. 2. An empirical structure-based scheme for the prediction of some physical properties. // J. Am. Chem. Soc. 1980. - V. 102, № 6.-P. 1849-1859.

150. Klopman G. Artificial intelligence approach to structure-activity studies. Computer automated structure evaluation of biological activity of organic molecules. // J. Am. Chem. Soc. 1984. - V. 106, № 24. - P. 7315-7321.

151. Klopman G.; Rosenkranz H.S. Structural requirements for the mutagenicity of environmental nitroarenes. // Mutat. Res. 1984. - V. 126, № 3. - P. 227-238.

152. Klopman G.; Kalos A.N. Causality in structure-activity studies. // J. Comput. Chem. 1985. - V. 6, № 5. - P. 492-506.

153. Rosenkranz H.S.; Mitchell C.S.; Klopman G. Artificial intelligence and Bayes-ian decision theory in the prediction of chemical carcinogens. // Mutat. Res. 1985. -V. 150, № 1-2.-P. 1-11.

154. Klopman G.; Frierson M.R.; Rosenkranz H.S. Computer analysis of toxico-logical data bases: mutagenicity of aromatic amines in Salmonella tester strains. // Environmental Mutagenesis. 1985. - V. 7, № 5. - P. 625-644.

155. Rosenkranz H.S.; Klopman G. Mutagens, carcinogens, and computers. // Progress in Clinical and Biological Research. 1986. - V. 209. Pt. A. - P. 71-104.

156. Klopman G.; Namboodiri K; Kalos A.N. Computer automated evaluation and prediction of the Iball Index of carcinogenicity of polycyclic aromatic hydrocarbons. // Progress in Clinical and Biological Research. 1985. - V. 172, Pt. A. - P. 287-298.

157. Klopman G. Predicting toxicity through a computer automated structure evaluation program. // Environmental Health Perspectives. 1985. - V. 61. - P. 269274.

158. Klopman G.; Macina O.T. Use of the computer automated structure evaluation program in determining quantitative structure-activity relationships within hallucinogenic phenylalkylamines. // J. Theor. Biol. 1985. - V. 113, № 4. - P. 637-648.

159. Klopman G.; Contreras R. Use of artificial intelligence in structure-activity correlations of anticonvulsant drugs. // Mol. Pharmacol. 1985. - V. 27, № 1. - P. 8693.

160. Klopman G.; Venegas R.E. CASE study of in vitro inhibition of sparteine monooxygenase. // Acta Pharmaceutica Jugoslavica. 1986. - V. 36, № 2. - P. 189209.

161. Klopman G.; Macina O.T.; Simon E.J.; Hiller J:M. Computer automated structure evaluation of opiate alkaloids. // J. Mol. Struct. Theochem. 1986. - V. 27, № 34. - P. 299-308.

162. Klopman G.; Macina O.T.; Levinson M.E.; Rosenkranz H.S. Computer automated structure evaluation of quinolone antibacterial agents. // Antimicrobial Agents and Chemotherapy. 1987. - V. 31, № 11. - P. 1831-1840.

163. Klopman G.; Macina O.T. Computer-automated structure evaluation of antileukemic 9-anilinoacridines. // Mol. Pharmacol. 1987. - V. 31, № 4. - P. 457-476.

164. Artemenko N.V.; Baskin /./.; Palyulin V.A.; Zefirov N.S. Artificial neural network and fragmentai approach in prediction of physicochemical properties of organic compounds. // Russ. Chem. Bull. 2003. - V. 52, № 1. - P. 20-29.

165. Smolenskii E.A. On Some Aspects of the Structure-Property Problem // Dokl. Chem. 1999. - V. 365, № 4-6. - P. 93-98.

166. Smolenskii E.A.; Slovokhotova O.L.; Chuvaeva I.V.; Zefirov N.S. Information Significance of Topological Indices. // Dokl. Chem. 2004. - V. 397, № 2. - P. 173.

167. Nutt C.W. The correlation and prediction of the optical and thermodynamic properties of saturated liquid hydrocarbons by the group contribution method. // Transactions of the Faraday Society. 1957. - V. 53. - C. 1538-1544.

168. Ghose A.K; Pritchett A.; Crippen G.M. Atomic physicochemical parameters for three dimensional structure directed quantitative structure-activity relationships HI: Modeling hydrophobic interactions. // J. Comput. Chem. 1988. - V. 9, № 1. - P. 80-90.

169. Ghose A.K.; Viswanadhan V.N.; Wendoloski J.J. Prediction of hydrophobic (lipophilic) properties of small organic molecules using fragmental methods: An analysis of ALOGP and CLOGP methods. // J. Phys. Chem. A. 1998. - V. 102, № 21.-P. 3762-3772.

170. Wildman S.A.; Crippen G.M. Prediction of Physicochemical Parameters by Atomic Contributions. // J. Chem. Inf. Comput. Sci. 1999. - V. 39, № 5. - P. 868873.

171. Suzuki T.; Kudo Y. Automatic log P estimation based on combined additive modeling methods. // J. Comput. Aided. Mol. Des. 1990. - V. 4, № 2. - P. 155-198.

172. Convard T.; DubostJ.-P.; Le Solleu H.; Kummer E. SMILOGP: A Program for a fast evaluation of theoretical log-p from the smiles code of a molecule. // Quant. Struct.-Act. Relat. 1994. - V. 13. - P. 34-37.

173. Wang R.; Fu Y.; Lai L. A New Atom-Additive Method for Calculating Partition Coefficients. // J. Chem. Inf. Comput. Sci. 1997. - V. 37, № 3. - P. 615-621.

174. Wang R.; Gao Y.; Lai L. Calculating partition coefficient by atom-additive method. // Persp. Drug Discov. Design. 2000. - V. 19. - P. 47-66.

175. Hou T.J.; Xia K.; Zhang W.; Xu X.J. ADME Evaluation in Drug Discovery. 4. Prediction of Aqueous Solubility Based on Atom Contribution Approach. // J. Chem. Inf. Comput. Sci. 2004. - V. 44, № 1. - P. 266-275.

176. Winkler D.A.; Burden F.R.; Watkins A.J.R. Atomistic topological indices applied to benzodiazepines using various regression methods. // Quantitative Structure-Activity Relationships. 1998. - V. 17, № 1. - P. 14-19.

177. Bernstein H.J. Bond energies in hydrocarbons. // Trans. Faraday Soc. 1962. -V. 58 - P. 2285-2306.

178. Kalb A.J.; Chung A.L.H.; Allen T.L. Bond Energies and the Interactions between Next-Nearest Neighbors. III. Gaseous and Liquid Alkanes, Cyclohexane, Al-kylcyclohexanes, and Decalins. // J. Am. Chem. Soc. 1966. - V. 88, № 13. - P. 2938-2942.

179. Nilakantan R.; Bauman N.; Dixon J.S.; Venkataraghavan R. Topological Torsion: A New Molecular Descriptor for SAR Applications. Comparison with Other Descriptors. // J. Chem. Inf. Comput. Sci. 1987. - V. 27, № 2. - P. 82-85.

180. Kearsley S.K.; SallamackS.; Fluder E.M.; Andose J.D.; Mosley R.T.; Sheridan R.P. Chemical Similarity Using Physiochemical Property Descriptors. // J. Chem. Inf. Comput. Sci. 1996. -V. 36, № 1. - P. 118-127.

181. Klopman G. MULTICASE. 1. A Hierarchical computer automated structure evaluation program. 11 Quant. Struct.-Act. Relat. 1992. - V. 11, № 2. - P. 176-184.

182. Klopman G. The MultiCASE Program II. Baseline Activity Identification Algorithm (BAIA). // J. Chem. Inf. Comput. Sci. 1998. - V. 38, № 1. - p. 78-81.

183. Артеменко H.B.; Баскин И.И.; Палюлия В.А.; Зефиров Н.С. Прогнозирование физических свойств органических соединений при помощи искусственных нейронных сетей в рамках подструктурного подхода. // Докл. РАН. 2001. -Т. 381, №2. -С. 203-206.

184. Кумсков М.И. Перспективы использования программной системы BIBIGON для предсказания физико-химических свойств фторсодержащих органических соединений. // Журн. орг. химии. 1995. - Т. 31, № 10. - С. 14951498.

185. Solov'ev К P.; VarnekA.; Wipjf G. Modeling of Ion Complexation and Extraction Using Substructural Molecular Fragments. // J. Chem. Inf. Comput. Sci. 2000. -V. 40, №3.-P. 847-858.

186. Varnek A.; Wipjf G.; Solovev V.P. Towards an information system on solvent extraction. // Solvent Extraction and Ion Exchange. 2001. - V. 19, № 5. - P. 791837.

187. Gakh A.A.; Gakh E. G.; Sumpter B. G.; Noid D. W. Neural Network-Graph Theory Approach to the Prediction of the Physical Properties of Organic Compounds. // J. Chem. Inf. Comput. Sci. 1994. - V. 34, № 4. - P. 832-839.331

188. Rucker G.; Rucker C. Counts of all walks as atomic and molecular descriptors. // J. Chem. Inf. Comput. Sci. 1993. - V. 33, № 5. - P. 683-695.

189. Adamson G.W.; Cow ell J.; Lynch M.F.; Town W.G.; Yapp A.M. Analysis of structural characteristics of chemical compounds in a large computer-based file. Part1.. Cyclic fragments. // J. Chem. Soc., Perkin Trans. 1. 1973. - V. № 8. - P. 863865.

190. Wiswesser W.J. How the WLN began in 1949 and how it might be in 1999. // J. Chem. Inf. Comput. Sci. 1982. - V. 22, № 2. - P. 88-93.

191. Weininger D. SMILES, A Chemical Language and Information System. 1. Introduction to Methodology and Encoding Rules. // J. Chem. Inf. Comput. Sci. 1988. - V. 28, № 1.-P. 31-36.

192. Weininger D.; Weininger A.; Weininger J.L. SMILES: 2. Algorithm for generation of unique SMILES notation. // J. Chem. Inf. Comput. Sci. 1989. - V. 29, № 2.-P. 97-101.

193. Adamson G.W.; Bawden D. Substructural Analysis Techniques for Empirical Structure-Property Correlation. Application to Stereochemically Related Molecular Properties. // J. Chem. Inf. Comput. Sci. 1980. - V. 20, № 2. - P. 97-100.

194. Adamson G.W.; Bawden D. Automated Additive Modeling Techniques Applied to Thermochemical Property Estimation. // J. Chem. Inf. Comput. Sci. 1980.1. V. 20, № 4. P. 242-246.

195. Adamson G.W.; Bawden D. Comparison of Hierarchical Cluster Analysis Techniques for Automatic Classification of Chemical Structures. // J. Chem. Inf. Comput. Sci. 1981. - V. 21, № 4. - P. 204-209.

196. Vidal D.; Thormann M.; Pons M. LINGO, an efficient holographic text based method to calculate biophysical properties and intermolecular similarities. // J. Chem. Inf. Model. 2005. - V. 45, № 2. - P. 386-393.

197. Татееский В.М. Классическая теория строения молекул и квантовая механика. Химия: М. - 1973. - 520 с.

198. Степанов Н.Ф.; Ерлыкина М.Е.; Филиппов Г.Г. Методы линейной алгебры в физической химии. Изд-во Моск. ун-та: М. - 1976. - 359 с.

199. Benson S.W.; Cruickshank F.R.; Golden D.M.; Haugen G.R.; O'Neal H.E.; Rodgers A.S.; Shaw R.; Walsh R. Additivity rules for the estimation of thermochemi-cal properties. // Chem. Rev. 1969. - V. 69, № 3. - P. 279-324.

200. Adamson G.W.; Lynch M.F.; Town W.G. Analysis of Structural Characteristics of Chemical Compounds in a Large Computer-based File. Part II. Atom-Centered Fragments. // J. Chem. Soc. C. 1971. - P. 3702-3706.

201. Adamson G. W.; Lambourne D.R.; Lynch M.F. Analysis of structural characteristics of chemical compounds in a large computer-based file. Part III. Statistical association of fragment incidence. // J. Chem. Soc., Perkin Trans. 1. 1972. - P. 2428 -2433.

202. Hodes L. Selection of molecular fragment features for structure-activity studies in antitumor screening. // J. Chem. Inf. Comput. Sci. 1981. - V. 21, № 3. - P. 132136.

203. Filimonov D.; Poroikov V.; Borodina Y.; Gloriozova T. Chemical Similarity Assessment through Multilevel Neighborhoods of Atoms: Definition and Comparison with the Other Descriptors. // J. Chem. Inf. Comput. Sci. 1999. - V. 39, № 4. - P. 666-670.

204. XingL.; Glen R.C. Novel methods for the prediction of logP, pKa, and logD. // J. Chem. Inf. Comput. Sci. 2002. - V. 42, № 4. - P. 796-805.

205. Bender A.; Mussa H.Y.; Glen R.C.; Reiling S. Molecular Similarity Searching Using Atom Environments, Information-Based Feature Selection, and a Naive Bayes-ian Classifier. // J. Chem. Inf. Comput. Sci. 2004. - V. 44, № 1. - P. 170-178.

206. Bender A.; Mussa H.Y.; Glen R.C.; Reiling S. Similarity Searching of Chemical Databases Using Atom Environment Descriptors (MOLPRINT 2D): Evaluation of Performance. 11 J. Chem. Inf. Comput. Sci. 2004. - V. 44, № 5. - P. 1708-1718.

207. Glen R.C.; Bender A.; Amby C.H.; Carlsson L.; Boyer S.; Smith J. Circular fingerprints: Flexible molecular descriptors with applications from physical chemistry to ADME. // IDrugs. 2006. - V. 9, № 3. - P. 199-204.

208. Rodgers S.; Glen R.C.; Bender A. Characterizing bitterness: Identification of key structural features and development of a classification model. // J. Chem. Inf. Model. 2006. - V. 46, № 2. - P. 569-576.

209. Faulon J.-L.; Visco D.P., Jr.; Pophale R.S. The Signature Molecular Descriptor. 1. Using Extended Valence. Sequences in QSAR and QSPR Studies. // J. Chem. Inf. Comput. Sci. 2003. - V. 43, № 3. - P. 707-720.

210. Faulon J.-L.; Churchwell C.J.; Visco D.P., Jr. The Signature Molecular Descriptor. 2. Enumerating Molecules from Their Extended Valence Sequences. // J. Chem. Inf. Comput. Sci. 2003. - V. 43, № 3. - P. 721-734.

211. Bremser W. Hose — a novel substructure code. // Analytica Chimica Acta. -1978. V. 103, № 4. - P. 355-365.

212. Dubois J.-E.; Panaye A.; Attias R. DARC System: Notions of Defined and Generic Substructures. Filiation and Coding of FREL Substructure (SS) Classes. // J. Chem. Inf. Comput. Sci. 1987. - V. 27, № 2. - P. 74-82.

213. Xiao Y.; Qiao Y.; Zhang J.; Lin S.; Zhang W. A Method for Substructure Search by Atom-Centered Multilayer Code. // J. Chem. Inf. Comput. Sci. 1997. - V. 37,№4.-P. 701-704.

214. Nidhi M.G.; Davies J.W.; Jenkins J.L. Prediction of Biological Targets for Compounds Using Multiple-Category Bayesian Models Trained on Chemogenomics Databases. // J. Chem. Inf. Model. 2006. - V. 46, № 3. - P. 1124-1133.

215. Adamson G.W.; Bush J.A.; McLure A.H.W.; Lynch M.F. An Evaluation of a Substructure Search Screen System Based on Bond-Centered Fragments. // J. Chem. Doc. 1974. - V. 14, № 1. - P. 44-48.

216. MDL Information Systems, Inc. // MDL Information Systems,, Inc. www.mdli.com.

217. Ahrens E.K.F. Customization for Chemical Database Applications. // Chemical Structures, Warr W.A., Ed. 1988. - P. 97-111.

218. Raymond J.W.; Willett P. Maximum common subgraph isomorphism algorithms for the matching of chemical structures. // J Comput Aided Mol Des. 2002. -V. 16, №7.-P. 521-533.

219. Розенблит А.Б.; Голендер B.E. Логико-комбинаторные методы в конструировании лекарств. Зинатне: Рига. - 1983. - 352 с.

220. Hagadone T.R. Molecular substructure similarity searching: efficient retrieval in two-dimensional structure databases. // J. Chem. Inf. Model. 1992. - V. 32, № 5. -P. 515-521.

221. Ruiz I.L.; Garcia C.G.; Gomez-Nieto M.A. Clustering Chemical Databases Using Adaptable Projection Cells and MCS Similarity Values. // J. Chem. Inf. Model. -2005. V. 45, № 5. - P. 1178-1194.

222. Stahl M; Mauser H. Database Clustering with a Combination of Fingerprint and Maximum Common Substructure Methods. // J. Chem. Inf. Model. 2005. - V.45, №3.-P. 542-548.

223. Bacha P.A.; Gruver H.S.; Den Hartog B.K.; Tamura S.Y.; Nutt R.F. Rule Extraction from a Mutagenicity Data Set Using Adaptively Grown Phylogenetic-like Trees. // J. Chem. Inf. Model. 2002. - V. 42, № 5. - P. 1104-1111.

224. Sheridan R.P. Finding Multiactivity Substructures by Mining Databases of Drug-Like Compounds. I I J. Chem. Inf. Comput. Sci. 2003. - V. 43, № 3. - P. 10371050.

225. Авидон В.В.; Лексина Л.А. Дескрипторный язык для анализа сходства химических структур органических соединений. // НТИ. Сер. 2. - 1974. - № 3. - С. 22-25.

226. Carhart R.E.; Smith D.H.; Venkataraghavan R. Atom Pairs as Molecular Features in Structure-Activity Studies: Definition and Applications. // J. Chem. Inf. Comput. Sci. 1985. - V. 25, № 2. - P. 64-73.

227. Schuffenhauer A.; Floersheim P.; Acklin P.; Jacoby E. Similarity Metrics for Ligands Reflecting the Similarity of the Target Proteins. // J. Chem. Inf. Comput. Sci. 2003. - V. 43, № 2. - P. 391-405.

228. МОЕ, Molecular Operating Environment, Chemical Computing Group Inc., Montreal, Canada. // МОЕ, Molecular Operating Environment, Chemical Computing Group Inc., Montreal, Canada. www.chemcomp.com,

229. Byvatov E.; Sasse B.C.; Stark H.; Schneider G. From virtual to real screening for D3 dopamine receptor ligands. // ChemBioChem. 2005. - V. 6, № 6. - P. 997999.

230. Hansch C.; Fujita T. p-&#963;-&#960; Analysis. A Method for the Correlation of Biological Activity and Chemical Structure. // J. Am. Chem. Soc. 1964. - V. 86, №8.-P. 1616-1626.

231. Fleischer R.; Frohberg P.; Btige A.; Nuhn P.; Wiese M. QSAR Analysis of Substituted 2-Phenylhydrazonoacetamides Acting as Inhibitors of 15-Lipoxygenase. // Quant. Struct.-Act. Relat. 2000. - V. 19, № 2. - P. 162-172.

232. Hatrik S.; Zahradnik P. Neural Network Approach to the Prediction of the Toxicity of Benzothiazolium Salts from Molecular Structure. // J. Chem. Inf. Com-put. Sci. 1996. - V. 36, № 5. - P. 992-995.

233. Bemis G.W.; Murcko M.A. The properties of known drugs. 1. Molecular frameworks. // J. Med. Chem. 1996. - V. 39, № 15. - P. 2887-2893.

234. Bemis G. W.; Murcko M.A. Properties of known drugs. 2. Side chains. // J. Med. Chem. 1999. - V. 42, № 25. - P. 5095-5099.

235. Randic M. Representation of molecular graphs by basic graphs. // J. Chem. Inf. Comput. Sci. 1992. - V. 32, № 1. - P. 57-69.

236. Мнухин В.Б. Базис алгебры инвариантов графов. // Математический анализ и его приложения. Ростов-на-Дону. - 1983. - С. 55-60.337

237. Baskin /./.; Skvortsova M.I.; Stankevich I. V.; Zefirov N.S. On the Basis of Invariants of Labeled Molecular Graphs. // J. Chem. Inf. Comput. Sci. 1995. - V. 35, № 3. - P. 527-531.

238. Skvortsova M.I.; Baskin /./.; Skvortsov L.A.; Palyulin V.A.; Zefirov N.S.; Stankevich I. V. Chemical graphs and their basis invariants. // J. Mol. Struct. Theo-chem. 1999.-V. 466.-P. 211-217.

239. Скворцова М.И.; Федяев K.C.; Баскин И.И.; Палюлин В.А.; Зефиров Н.С. Новый способ кодирования химических структур на основе базисных фрагментов. // Докл. РАН. 2002. - Т. 382, № 5. - С. 645-648.

240. Скворцова М.И.; Федяев К.С.; Палюлин В.А.; Зефиров Н.С. Моделирование связи между структурой и свойствами углеводородов на основе базисных топологических дескрипторов. // Изв. РАН, Сер. хим. 2004. - № 8. - С. 15271535.

241. Estrada Е. Spectral Moments of the Edge Adjacency Matrix in Molecular Graphs. 1. Definition and Applications to the Prediction of Physical Properties of Al-kanes. // J. Chem. Inf. Comput. Sci. 1996. - V. 36, № 4. p. 844-849.

242. Estrada E. Spectral Moments of the Edge-Adjacency Matrix of Molecular Graphs. 2. Molecules Containing Heteroatoms and QSAR Applications. // J. Chem. Inf. Comput. Sci. 1997. - V. 37, № 2. - P. 320-328.

243. Estrada E. Spectral Moments of the Edge Adjacency Matrix in Molecular Graphs. 3. Molecules Containing Cycles. // J. Chem. Inf. Comput. Sci. 1998. - V. 38, № 1. - P. 23-27.

244. Estrada E.; Pena A.; Garcia-Domenech R. Designing sedative/hypnotic compounds from a novel substructural graph-theoretical approach. // J Comput Aided Mol Des. 1998. - V. 12, № 6. - P. 583-595.

245. Estrada E.; Gutierrez Y. Modeling chromatographic parameters by a novel graph theoretical sub-structural approach. // Journal of Chromatography A. 1999. -V. 858,№2.-P. 187-199.

246. Estrada E.; Gutierrez Y.; Gonzalez H. Modeling Diamagnetic and Magnetoop-tic Properties of Organic Compounds with the TOSS-MODE Approach. // J. Chem. Inf. Comput. Sci. 2000. - V. 40, № 6. - P. 1386-1399.338

247. Estrada E.; Gonzalez H. What Are the Limits of Applicability for Graph 2Theoretic Descriptors in QSPR/QSAR? Modeling Dipole Moments of Aromatic Compounds with TOPS-MODE Descriptors. // J. Chem. Inf. Comput. Sci. 2003. -V. 43, № l.-P. 75-84.

248. Gonzalez M.P.; Helguera A.M.; Diaz H.G. A TOPS-MODE approach to predict permeability coefficients. // Polymer. 2004. - V. 45, № 6. - P. 2073-2079.

249. Estrada E.; Molina E.; Perdomo-Lopez I. Can 3D Structural Parameters Be Predicted from 2D (Topological) Molecular Descriptors? // J. Chem. Inf. Comput. Sci. -2001.-V. 41, №4.-P. 1015-1021.

250. Estrada E.; Uriarte E.; Montero A.; Teijeira M.; Santana L.; De Clercq E. A novel approach for the virtual screening and rational design of anticancer compounds. //J Med Chem. 2000. - V. 43, № 10.-P. 1975-1985.

251. Estrada E.; Patlewicz G.; Gutierrez Y. From Knowledge Generation to Knowledge Archive. A General Strategy Using TOPS-MODE with DEREK To Formulate New Alerts for Skin Sensitization. // J. Chem. Inf. Comput. Sci. 2004. - V. 44, № 2.- P. 688-698.

252. Gonzalez M.P.; Diaz H.G.; Ruiz R.M.; Cabrera M.A.; de Armas R.R. TOPSMODE based QSARs derived from heterogeneous series of compounds. Applications to the design of new herbicides. // J. Chem. Inf. Comput. Sci. 2003. - V. 43, № 4. -P. 1192-1199.

253. Gonzalez M.P.; Moldes M.D.T. QSAR study of N-6-(substituted-phenylcarbamoyl) adenosine-5 '-uronamides as agonist for A(l) adenosine receptors. // Bull. Math. Biol. 2004. - V. 66, № 4. - P. 907-920.

254. Molina E.; Gonzales Diaz H.; Gonzalez M.P.; Rodriguez E.; Uriarte E. Designing Antibacterial Compounds through a Topological Substructural Approach. // J. Chem. Inf. Comput. Sci. 2004. - V. 44, № 2. - P. 515-521.

255. Gonzalez M.P.; Diaz H.G.; Cabrera M.A.; Ruiz R.M. A novel approach to predict a toxicological property of aromatic compounds in the Tetrahymena pyriformis. // Bioorg. Med, Chem. 2004. - V. 12, № 4. - P. 735-744.

256. Helguera A.M.; Gonzalez M.P.; Briones J.R. TOPS-MODE approach to predict mutagenicity in dental monomers. // Polymer. 2004. - V. 45, № 6. - P. 20452050.

257. Gonzalez M.P.; Dias L.C.; Helguera A.M. A topological sub-structural approach to the mutagenic activity in dental monomers. 2. Cycloaliphatic epoxides. // Polymer. 2004. - V. 45, № 15. - P. 5353-5359.

258. Gonzalez M.P.; Moldes M.d.C.T.; Fall Y; Dias L.C.; Helguera A.M. A topological sub-structural approach to the mutagenic activity in dental monomers. 3. Heterogeneous set of compounds. // Polymer. 2005. - V. 46, № 8. - P. 2783-2790.

259. De Raedt L.; Kramer S. In The Levelwise Version Space Algorithm and its Application to Molecular Fragment Finding, The Seventeenth International Joint Conference on Articial Intelligence, 2001; Morgan Kaufmann: San Francisco. 2001.- P. 853-862.

260. Kramer S.; De Raedt L. In Feature construction with version spaces for biochemical applications, The eighteenth International Conference on Machine Learning, 2001; Morgan Kaufmann: San Francisco, CA. 2001. - P. 258-265.

261. Inokuchi A. Mining Generalized Substructures from a Set of Labeled Graphs. // Proceedings of the Fourth IEEE International Conference on Data Mining (ICDM'04)- IEEE Computer Society. 2004. - P. 415-418

262. Yan X; Han J. gspan: Graph-based substructure pattern mining. // Proceedings of the 2002 IEEE International Conference on Data Mining. 2002. - P. 721-724.340

263. Saigo H.; Kadowaki T.; Tsuda K In A Linear Programming Approach for Molecular QSAR analysis, International Workshop on Mining and Learning with Graphs 2006. 2006. - P. 85-96.

264. Asai T.; Abe K; Kawasoe S.; Arimura H.; Satamoto H.; Arikawa S. Efficient Substructure Discovery from Large Semi-structured Data. // SIAM SDM'02. 2002.

265. Chi Y.; Muntz R.R.; Nijssen S.; Kok J.N. Frequent subtree mining ~ an overview. // Fundamenta Informaticae 2005. - V. 66, № 1-2. - P. 161-198.

266. Kuramochi M.; Karypis G. In Frequent Subgraph Discovery, 1st IEEE Conference on Data Mining, 2001. 2001. - P. 313-320.

267. Zaki M.J. Efficiently mining frequent trees in a forest. 11 Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, ACM Press: Edmonton, Alberta, Canada. 2002. - P. 71-80

268. Chi Y; Yang Y; Xia Y; Muntz R.R. CMTreeMiner: Mining both closed and maximal frequent subtrees. // The Eighth Pacific Asia Conference on Knowledge Discovery and Data Mining (PAKDD'04), May 2004. 2004.

269. Dehaspe L.; Toivonen H. ; King R.D. Finding frequent substructures in chemical compounds. // 4th International Conference on Knowledge Discovery and Data Mining, Agrawal R.; Stolorz P.; Piatetsky-Shapiro G., Eds. AAAI Press. 1998. - P. 30-36.

270. Demiriz A.; Bennett K.P.; Shawe-Taylor J. Linear Programming Boosting via Column Generation. // Mach. Learn. 2002. - V. 46, № 1-3. - P. 225-254.

271. Graham D.J.; Malarkey C.; Schulmerich M. V. Information Content in Organic Molecules: Quantification and Statistical Structure via Brownian Processing. // J. Chem. Inf. Comput. Sci. 2004. - V. 44, № 5. - P. 1601-1611.

272. Batista J.; Godden J.W.; Bajorath J. Assessment of molecular similarity from the analysis of randomly generated structural fragment populations. // J. Chem. Inf. Model. 2006. - V. 46, № 5. - P. 1937-1944.

273. Batista J.; Bajorath J. Chemical database mining through entropy-based molecular similarity assessment of randomly generated structural fragment populations. // J. Chem. Inf. Model. 2007. - V. 47, № 1. - P. 59-68.

274. Sanderson D.M.; Earnshaw C.G. Computer prediction of possible toxic action from chemical structure; the DEREK system. // Hum. Exp. Toxicol. 1991. - V. 10, №4.-P. 261-273.

275. Takeuchi K.; Kuroda C.; Ishida M. Prolog-based functional group perception and calculation of 1-octanol/water partition coefficients using Rekker's fragment method. // J. Chem. Inf. Model. 1990. - V. 30, № 1. - P. 22-26.

276. Chen L. Reaction Classification and Knowledge Acquisition. // Handbook of Chemoinformatics, Gasteiger J., Ed. Wiley-VCH: Weinheim. 2003. - V. 1. - P. 348388.

277. Dugundji J.; Ugi I. An Algebraic Model of Constitutional Chemistry as a Basis for Chemical Computer Programs. 11 Topics Curr. Chem. 1973. - V. 39 - P. 19-64.

278. Zefirov N.S.; Trach S.S. Systematization of tautomeric processes and formal-logical approach to the search for new topological and reaction types of tautomerism. // Chemica Scripta. 1980. - V. 15, № 1. - P. 4-12.

279. Zefirov N.S. An approach to systematization and design of organic reactions. // Accounts of Chemical Research. 1987. - V. 20, № 7. - P. 237-243.342

280. Vladutz G. Modern Approaches to Chemical Reaction Searching. // Approaches to Chemical Reaction Searching, Willett P., Ed. Gower: London. 1986. -P. 202-220.

281. Fujita S. Description of Organic Reactions Based on Imaginary Transition Structures. 1. Introduction of New Concepts. // J. Chem. Inf. Comput. Sci. 1986. -V. 26, №4.-P. 205-212.

282. Fujita S. 'Structure-Reaction Type' Paradigm in the Conventional Methods of Describing Organic Reactions and the Concept of Imaginary Transition Structures Overcoming This Paradigm. // J. Chem. Inf. Comput. Sci. 1987. - V. 27, № 3. - p. 120-126.

283. Kier L.B.; Hall L.H. Molecular Connectivity in Chemistry and Drug Research.- Academic Press: New York (NY). 1976. - 257 p.

284. Knuth D. Section 6.4: Hashing. // The Art of Computer Programming, Volume 3: Sorting and Searching, Second Edition ed.; Addison-Wesley: Reading, MA. -1988. V. 3. -P. 513-558.

285. Cormen T.H.; Leiserson C.E.; Rivest R.L.; Stein C. Chapter 11: Hash Tables. // Introduction to Algorithms, Second ed.; MIT Press and McGraw-Hill. 2001. - p. 224-228.

286. Ash S.; Cline M.A.; Homer R. W.; Hurst T.; Smith G.B. SYBYL Line Notation (SLN): A Versatile Language for Chemical Structure Representation. // J. Chem. Inf. Comput. Sci. 1997. - V. 37, № 1. - P. 71-79.

287. Knuth D.E. Sorting and searching. // The art of computer programming. Ad-dison-Wesley: Reading, MA. - 1973. - V. 3. - P. 490-493.

288. Tarasov V.A.; Mustafaev O.N.; Abilev S.K.; Mel'nik V.A. Use of compound structural descriptors for increasing the efficiency of QSAR study. // Russian Journal of Genetics. 2005. - V. 41, № 7. - P. 814-821.

289. Кадыров Ч.Ш.; Тюрина Л.А.; Симонов В.Д.; Семенов В.А. Машинный поиск химических препаратов с заданными свойствами. Фан: Ташкент. - 1989. -164 с.

290. Gillet V.J.; Willett P.; Bradshaw J. Similarity Searching Using Reduced Graphs. // J. Chem. Inf. Comput. Sci. 2003. - V. 43, № 2. - P. 338-345.

291. Barker E.J.; Gardiner E.J.; Gillet V.J.; Kitts P.; Morris J. Further Development of Reduced Graphs for Identifying Bioactive Compounds. // J. Chem. Inf. Comput. Sci. 2003. - V. 43, № 2. - P. 346-356.

292. Tetko I. V.; Bruneau P.; Mewes H.-W.; Rohrer D.C.; Poda G.I. Can We Estimate the Accuracy of ADMET Predictions? // Drug Discovery Today. 2006. - V. 11, № 15/16.-P. 700-707.

293. Leo A. J.; Hoekman D. Calculating log P(oct) with no missing fragments; The problem of estimating new interaction parameters. // Persp. Drug Discov. Des. -2000.-V. 18.-P. 19-38.

294. Honorio K.M.; Garratt R.C.; Andricopulo A.D. Hologram quantitative structure-activity relationships for a series of farnesoid X receptor activators. // Bioorg. Med. Chem. Lett. -2005.-V. 15, № 12. P. 3119-3125.

295. Judson P.N. Rule Induction for Systems Predicting Biological Activity. // J. Chem. Inf. Comput. Sci. 1994. - V. 34, № 1. - P. 148-153.

296. Станкевич М.И.; Станкевич И.В.; Зефиров H.C. Топологические индексы в органической химии. // Успехи химии. 1988. - Т. 57, № 3. - С. 337-366.

297. Rouvray D.H. Should We Have Designs on Topological Indexes? // Chemical Applications of Topology and Graph Theory, King R.B., Ed. Elsevier: Amsterdam. -1983. -P. 159-177.

298. Balaban A. Chemical Graphs. XXXIV. Five New Topological Indices for the Branching of Tree-like Graphs. // Theor. Chim. Acta. 1979. - V. 53, № 4. - P. 355375.

299. Seybold P.G.; May M.; Bagal U.A. Molecular Structure-Property Relationships. I I J. Chem. Educ. 1987. - V. 64. - P. 575-581.

300. Randic M. Generalized Molecular Descriptors. // J. Math. Chem. 1991. - V. 7.-P. 155-168.

301. Rouvray D.H. Predicting Chemistry from Topology. // Sci. Am. 1986. - T. 254, № 3 - C. 36-43.

302. Мнухин В.Б. Базис алгебры инвариантов графов. // Математический анализ и его приложения. Ростов-на-Дону. - 1983. - С. 55-60.

303. Колмогоров А.Н. О представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одного переменного и сложения. // Докл. АН СССР. 1957. - Т. 114, № 5. - С. 953-956.

304. Hecht-Nielsen R. Kolmogorov's Mapping Neural Network Existence Theorem. // IEEE First Annual Int. Conf. on Neural Networks, San Diego, IEEE Press: New York. 1987. V. 3.-P. 11-13.

305. Sprecher D.A. A numerical implementation of Kolmogorov's superpositions. // Neural Networks. 1996. - V. 9, № 5. - P. 765-772.

306. Sprecher D.A. A numerical implementation of Kolmogorov's superpositions II. //NeuralNetworks. 1997. - V. 10, № 3. - P. 447-457.

307. Kurkova V. Kolmogorov's theorem and multilayer neural networks. // Neural Networks. 1992. - V. 5, № 3. - P. 501-506.

308. Weigend A.S.; Huberman B.A.; Rumelhart D.E. Predicting the future: a con-nectionist approach. // Int. J. Neural Systems. 1990. - V. 1, № 3. - P. 193-209.

309. Tetko I. V.; Livingstone D.J.; Luik A.I. Neural network studies. 1. Comparison of overfitting and overtraining. // J. Chem. Inf. Comput. Sci. 1995. - V. 35, № 5. -P. 826-833.

310. Bishop C.M. Pattern Recognition and Machine Learning. Springer: New York. - 2006. - 738 p.

311. Baskin /./.; Skvortsova M.I.; Palyulin V.A.; Zefirov N.S. Quantitative Chemical Structure-Property/Activity Studies Using Artificial Neural Networks. // Foundations of Computing and Decision Sciences. 1997. - V. 22, № 2. - P. 107-116.

312. Tetko I. V. Neural Network Studies. 4. Introduction to Associative Neural Networks. // J. Chem. Inf. Comput. Sci. 2002. - V. 42, № 3. - P. 717-728.

313. Manallack D.T.; Ellis D.D.; Livingstone D.J. Analysis of linear and nonlinear QSAR data using neural networks. // J. Med. Chem. 1994. - V. 37, № 22. - P. 37583767.

314. Горбанъ А.Н.; Миркес Е.М. Логически прозрачные нейронные сети для производства знаний из данных. Вычислительный центр СО РАН в г. Красноярске. Рукопись деп. в ВИНИТИ 17.07.97, № 2434-В97 éd.; Красноярск. -1997. - 12 с.

315. Царегородцев В.Г. Производство полуэмпирических знаний из таблиц данных с помощью обучаемых искусственных нейронных сетей. // Методы нейроинформатики, КГТУ: Красноярск. 1998. - С. 176-198.

316. Царегородцев В.Г. Технология производства явных знаний из таблиц-данных при помощи нейронных сетей. // Нейроинформатика и ее приложения : Тезисы докладов VI Всероссийского семинара, 1998, КГТУ: Красноярск. 1998. -С. 186-188.

317. Davis G. W. Sensitivity analysis in neural net solutions. // IEEE Transactions on Systems, Man, and Cybernetics. 1989. - V. 19. - P. 1078-1082.

318. Goldblum A.; Yoshimoto M.; Hansch C. Quantitative structure-activity relationship of phenyl N-methylcarbamate. Inhibition of acetylcholinesterase. I I J. Agric. Food. Chem. 1981. - V. 29. - P. 277-288.

319. Корн Г.; Корн Т. Справочник по математике для научных работников и инженеров. Определения, теоремы, формулы. Наука: М. - 1968. -720 с.

320. Gupta S.P. QSAR studies on drugs acting at the central nervous system. // Chem. Rev. 1989. - V. 89, № 8. - P. 1765-1800.

321. Баскин И.И.; Палюлин B.A.; Зефиров H.C. Программа генерации наборов подграфов для молекулярных графов. // Тезисы докладов межвузовской конференции "Молекулярные графы в химических исследованиях", Калинин, 1990.1990. С. 5.

322. Бацанов С.С. Структурная рефрактометрия. Высшая школа: Москва. -1976. - 304 с.

323. Stout J.M.; Dykstra С.Е. Static Dipole Polarizabilities of Organic Molecules. Ab Initio Calculations and a Predictive Model. // J. Am. Chem. Soc. 1995. - V. 117, № 18.-P. 5127-5132.

324. Applequist J.; Carl JR.; Fung K.-K. Atom dipole interaction model for molecular polarizability. Application to polyatomic molecules and determination of atom polarizabilities. // J. Am. Chem. Soc. 2002. - V. 94, № 9. - P. 2952-2960.

325. Miller K.J. Additivity methods in molecular polarizability. // J. Am. Chem. Soc. 1990. - V. 112, № 23. - P. 8533-8542.347

326. Miller K.J. Calculation of the molecular polarizability tensor. // J. Am. Chem. Soc. 1990.-V. 112, №23.-P. 8543-8551.

327. Bosque R.; Sales J. Polarizabilities of Solvents from the Chemical Composition. // J. Chem. Inf. Comput. Sci. 2002. - V. 42, № 5. - P. 1154-1163.

328. Лебедев Ю.А.; Мирошнтченко E.A.; Кнобелъ Ю.К. Термохимия нитросо-единений. Наука: М. - 1970. - 168 с.

329. Физическая энциклопедия. БСЭ: М. - 1988-1998. - Т. 3.

330. Pascal Р. //Ann.Chim.Phys. 1910. - V. 19. - Р. 5-70.

331. Schmalz T.G.; Klein D.J.; Sandleback B.L. Chemical graph-theoretical cluster expansion and diamagnetic susceptibility. // J. Chem. Inf. Comput. Sci. 2002. - V. 32, № l.-P. 54-57.

332. Li L.-F.; Zhang Y.; YouX.-Z. Molecular Topological Index and Its Application. 4. Relationships with the Diamagnetic Susceptibilities of Alkyl-IVA Group Or-ganometallic Halides. // J. Chem. Inf. Comput. Sci. 2002. - V. 35, № 4. - P. 697700.

333. Пожарский А.Ф. Теоретические основы химии гетероциклов. Химия: М. - 1985. - 559 с.

334. Weast R.C., CRC Handbook of Chemistry and Physics. 64 ed.; CRS Press: Boca Raton, Florida, 1983.

335. Abraham M.H.; McGowan J. С. The Use of Characteristic Volumes to Measure Cavity Terms in Reversed Phase Liquid Chromatography. // Chromatographia. -1987. V. 23, № 4. - P. 243-246.

336. Сагдеев E.B.; Барабанов В.П. Зависимость энтальпии парообразования органических соединений от температуры кипения. // Журн. физ. химии. -2004. Т. 78, № 12. - С. 2119-2125.

337. Toropov A.; Toropova A.; Ismailov T.; Bonchev D. 3D weighting of molecular descriptors for QSPR/QSAR by the method of ideal symmetry (MIS). 1. Application to boiling points of alkanes. // J. Mol. Struct. THEOCHEM. 1998. - V. 424, № 3. -P. 237-247.

338. Ivanciuc O.; Ivanciuc T.; Klein D.J.; Seitz W.A.; Balaban A.T. Wiener index extension by counting even/odd graph distances. // J. Chem. Inf. Comput. Sci. -2001. V. 41, № 3. - P. 536-549.

339. Chalk A.J.; Beck В.; Clark T. A Temperature-Dependent Quantum Mechanical/Neural Net Model for Vapor Pressure. // J. Chem. Inf. Comput. Sci. 2001. - V. 41, №4.-P. 1053-10591

340. Wei W.; Han J.; Wen X. Group Vector Space Method for Estimating Enthalpy of Vaporization of Organic Compounds at the Normal Boiling Point. // J. Chem. Inf. Comput. Sci. 2004. - V. 44, № 4. - P. 1436-1439.

341. Лебедев Ю.А.; Мироиттченко E.A. Термохимия парообразования органических веществ. Наука: M. -1981. -215 с.

342. Gavezzotti A. Molecular packing and other structural properties of crystalline oxohydrocarbons. // J. Phys. Chem. 2002. - V. 95, № 22. - P. 8948-8955.

343. Gavezzotti A. Statistical analysis of some structural properties of solid hydrocarbons. //J. Am. Chem. Soc. 2002. - V. Ill, № 5. - P. 1835-1843.

344. Евланов С.Ф. Температура вспышки в открытом тигле и нижний температурный предел воспламенения жидкостей. // Журн. прикл. химии. 1991. - Т. 64, № 4. - С. 832-836.

345. Katritzky A.R.; Petrukhin R.; Jain R. ; Karelson M. QSPR Analysis of Flash Points. // J. Chem. Inf. Comput. Sci. 2001. - V. 41, № 6. - P. 1521-1530.

346. Timofei S.; Schmidt W.; Kurunczi L.; Simon Z. A review of QSAR for dye affinity for cellulose fibres. // Dyes and Pigments. 2000. - V. 47, № 1-2. - P. 5-16.

347. Funar-Timofei S.; Schueuermann G. Comparative molecular field analysis (CoMFA) of anionic azo dye-fiber affinities I: Gas-phase molecular orbital descriptors. // J. Chem. Inf. Comput. Sci. 2002. - V. 42, № 4. - P. 788-795.

348. Timofei S.; Fabian W.M.F. Comparative Molecular Field Analysis of Heterocyclic Monoazo DyeB€'Fiber Affinities. // J. Chem. Inf. Comput. Sci. 1998. - V. 38, №6.-P. 1218-1222.

349. Fabian W.M.F.; Timofei S. Comparative molecular field analysis (CoMFA) of dye-fibre affinities. Part 2. Symmetrical bisazo dyes. // J. Mol. Struct.: THEOCHEM. 1996. - V. 362, № 2. - P. 155-162.

350. Polanski J.; Gieleciak R.; Wyszomirski M. Comparative molecular surface analysis (CoMSA) for modeling dye-fiber affinities of the azo and anthraquinone dyes. // J. Chem. Inf. Comput. Sci. 2003. - V. 43, № 6. - P. 1754-1762.

351. Bosque R.; Sales J. A QSPR Study of the 31P NMR Chemical Shifts of Phosphines. // J. Chem. Inf. Comput. Sci. 2001. - V. 41, № l. - P. 225-232.

352. Пальм B.A. Таблицы констант скорости и равновесия гетеролитических органических реакций. ВИНИТИ: М. - 1975. - Т. 1(2). - 299 с.

353. Halberstam N.M.; Baskin /./.; Palyulin V.A.; Zefirov N.S. Quantitative structure-conditions-property relationship studies. Neural network modelling of the acid hydrolysis of esters. // Mendeleev Communications. 2002. - № 5. - P. 185-186.

354. Инголъд К. Теоретические основы органической химии. Мир: М. -1973. - 1055 с.

355. Жохова Н.И.; Бобков Е.В.; Баскин И.И.; Палюлин В.А.; Зефиров А.Н.; Зефиров Н.С. Расчет стабильности комплексов органических соединений с (3-циклодекстрином с помощью метода QSPR. // Вестн. Моск. ун-та. Сер. 2. Химия. 2007. - Т. 48, № 5. - С. 329-332.

356. Аскадский А.А.; Матвеев Ю.И. Химическое строение и физические свойства полимеров. Химия: М. - 1983. - 248 с.

357. Bicerano J. Prediction of polymer properties. Second ed.- Marcel Dekker, Inc.: New York. 1996.-528 p.

358. Selected Values of Physical and Thermodynamic Properties of Hydrocarbons and Related Compounds. Carnegie Press: Pittsburgh. - 1953.

359. Balaban A.T.; Kier L.B.; Joshi N. Structure-property analysis of octane numbers for hydrocarbons (alkanes, cycloalkanes, alkenes). // MATCH. 1992. - V. 28. - C. 13-27.

360. Needham D.E.; Wei I.C.; Seybold P.G. Molecular modeling of the physical properties of alkanes. // J. Am. Chem. Soc. 1988. - V. 110, № 13. - P. 4186-4194.

361. Ivanciuc O.; Ivanciuc T.; Filip P.A.; Cabrol-Bass D. Estimation of the liquid viscosity of organic compounds with a quantitative structure-property model. // J. Chem. Inf. Comput. Sci. 1999. - V. 39, № 3. - P. 515-524.

362. Вапник В.E.; Червоненкис А.Я. Теория распознавания образов. Наука: М. - 1979. - 237 с.

363. Rissanen J. A universal prior for the integers and estimation by minimum description length. //Annals of Statistics. 1983. - V. 11, № 2. - P. 416-431.

364. Rissanen J. Universal coding, information, prediction, and estimation. // IEEE Trans. Inf. Theory. 1984. - V. 30 - P. 629-636.

365. Flukalog Database, Fluka Chemie AG: 1995.

366. Katritzky A.R.; Maran U.; Lobanov V.S.; Karelson M. Structurally Diverse Quantitative Structure-Property Relationship Correlations of Technologically Relevant Physical Properties. // J. Chem. Inf. Comput. Sci. 2000. - V. 40, № 1. - P. 118.

367. Goll E.S.; Jurs P. С. Prediction of Vapor Pressures of Hydrocarbons and Halo-hydrocarbons from Molecular Structure with a Computational Neural Network Model. // J. Chem. Inf. Comput. Sci. 1999. - V. 39, № 6. - P. 1081-1089.

368. Hall L.H.; Story C.T. Boiling Point and Critical Temperature of a Heterogeneous Data Set: QSAR with Atom Type Electrotopological State Indices Using Artificial Neural Networks. // J. Chem. Inf. Comput. Sci. 1996. - V. 36, № 5. - P. 10041014.

369. Egolf L.M.; Jurs P.C. Prediction of boiling points of organic heterocyclic compounds using regression and neural network techniques. // J. Chem. Inf. Comput. Sci. 1993. - V. 33, № 4. - P. 616-625.

370. Egolf L.M.; Wessel M.D.; Jurs P.C. Prediction of boiling points and critical temperatures of industrially important organic compounds from molecular structure. // J. Chem. Inf. Comput. Sci. 1994. - V. 34, № 4. - P. 947-956.

371. Hall L.H.; Story C.T. Boiling point of a set of alkanes, alcohols and chloroal-kanes: QSAR with atom type electrotopological state indices using artificial neural networks. // SAR and QSAR in Environmental Research. 1997. - V. 6, № 3-4. - P: 139-161.

372. Киприанов А.И. Избранные труды. Наук. Думка: Киев. - 1979. -649 с.

373. Левкоев ИИ. Избранные труды. Наука: М. - 1982. с.

374. Фэрстер Т. Окраска и строение органических соединений с точки зрения современной физической теории. // Успехи химии. 1940. - Т. 9, № 1. - С. 71104.

375. Dewar M.I.S. Colour and Constitution. Part I. Basic Dyes. // J. Chem. Soc. -1950. № 3. - P. 2329-2334.

376. Knott E.B. The Colour of Organic Compounds. Part I. A General Colour Rule. // J: Chem. Soc. -1951. № 2. - P. 1024-1028.

377. Дядюша Г.Г.; Качковский АД. Длины волн первых электронных переходов симметричных цианиновых красителей. // Укр. хим. журн. 1975. - Т. 41, № 11.-С. 1176-1181.

378. Gross К.C.; Seybold P.G.; Peralta-Inga Z; Murray J.S.; Politzer P. Comparison of Quantum Chemical Parameters and Hammett Constants in Correlating pKa Values of Substituted Anilines. // J. Org. Chem. 2001. - V. 66, № 21. - P. 69196925.

379. Liptak M.D.; Gross K.C.; Seybold P.G.; Feldgus S.; Shields G.C. Absolute pKa Determinations for Substituted Phenols. // J. Am. Chem. Soc. 2002. - V. 124, №22. - P. 6421-6427.

380. LiptakM.D.; Shields G.C. Accurate pKa Calculations for Carboxylic Acids Using Complete Basis Set and Gaussian-n Models Combined with CPCM Continuum Solvation Methods. // J. Am. Chem. Soc. 2001. - V. 123, № 30. - P. 7314-7319.

381. Баскин И.И.; Палюлин В.А.; Зефиров H.C. MODEL программа интерактивного ввода молекулярных графов. // Тезисы докладов межвузовской конфе354ренции "Молекулярные графы в химических исследованиях , Калинин, i y?\j. -1990. С. 6.

382. Rosenkranz H.S.; Klopman G. CASE, the computer-automated structure evaluation system, as an alternative to extensive animal testing. // Toxicol Ind Health.- 1988. V. 4, № 4. - P. 533-540.

383. You Z; Brezzell M.D.; Das S.K.; Espadas-Torre M.C.; Hooberman B.H.; Sin-sheimer J.E. Ortho-Substituent Effects on the in Vitro and in Vivo Genotoxicity of Benzidine Derivatives. // Mutation Res. 1994. - V. 319 - P. 19-30.

384. You Z; Brezzell M.D.; Das S.K.; Hooberman B.H.; Sinsheimer J.E. Substituent Effects on the in Vitro and in Vivo Genotoxicity of 4-Aminobiphenyl and 4-Aminostilbene Derivatives. // Mutation Res. 1994. - V. 320 - P. 45-58.

385. Абилев С.К.; Любимова И.К.; Мигачев Г.И. Влияние структурных особенностей нитропроизводных флуоренона и бифенила на фреймшифт-мутагенез в тестерных штаммах Salmonella typhimurium. // Генетика. 1993. - Т. 29, № 10. -С. 1640-1645.

386. Любимова И.К.; Абилев С.К.; Мигачев Г.И. Взаимосвязь между мутагенной активностью и химической структурой в ряду производных бифенила. // Генетика. 1995. - Т. 31, № 2. - С. 268-272.

387. Любимова И.К.; Абилев С.К.; Мигачев Г.И. Влияние некоторых структурных особенностей в молекулах производных пирена и его гетероциклических аналогов на мутагенную активность. // Генетика. 1995. - Т. 31, № 1. - С. 128132.

388. Баския ИИ; Любимова И.К.; Абилев С.К.; Зефиров Н.С. Исследование количественной связи между мутагенной активностью химических соединений и их структурой. Замещенные бифенилы. // Докл. РАН. 1993. - Т. 332, № 5. -С. 587-589.

389. Баскин ИИ; Палюлин В.А.; Любимова И.К.; Абилев С.К.; Зефиров Н.С. Количественная связь между мутагенной активностью гетероциклических аналогов пирена и фенантрена и их структурой. // Докл. РАН. 1994. - Т. 339, № 1.- С. 106-108.

390. Любимова И.К.; Абшев С.К.; Гальберштам Н.М.; Баскин И.И.; Палюлин В.А.; Зефиров Н.С. Компьютерное предсказание мутагенной активности замещенных полициклических соединений. //Изв. РАН, Сер. биол. 2001. - Т. № 2. -С. 180-186.

391. Любимова И.К. Зависимость мутагенной активности полициклических ароматических соединений от их структуры. Автореферат диссертации на соискание ученой степени кандидата биологических наук. М. - 1994.

392. Дьячков П.Н. Квантовохимические расчеты в изучении механизма действия и токсичности чужеродных веществ. // Итоги науки и техн. ВИНИТИ. Сер. Токсикология. 1990. - Т. 16, № - С. 1-280.

393. Vance W.; Levin D. Structural Features of Nitroaromatics That Determine Mutagenic Activity in Salmonella Typhimurium. // Environ. Mutagen. 1984. - V. 6. -P. 797-811.

394. Hirayama Т.; Kusakabe H.; Watanabe Т.; Ozasa S.; Fujioka Y.; Fukui S. Relationship Between Mutagenic Potency in Samonella Strains and the Chemical Structure of Nitrobipheniyls. // Mutat. Res. 1986. - V. 163, № 2. - P. 101-107.

395. Lukovits I. The detour index. // Croat. Chem. Acta. 1996. - V. 69, № 3. - P. 873-882.

396. Toropov A.A.; Toropova A.P.; Ismailov T.T.; Voropaeva N.L.; Ruban I.N. Extended molecular connectivity: prediction of boiling points of alkanes. // J. Struct. Chem. 1998. - V. 38, №> 6. - P. 965-969.

397. Kobakhidze N.; Gverdtsiteli M. Algebraic study of cycloalkanes. // Bull. Georgian Acad. Sci. 1996. - V. 153, № 1. - P. 55-56.

398. Plavsic D. ; Trinajstic N.; Amic D.; Soskic M. Comparison between the structure-boiling point relationships with different descriptors for condensed benzenoids. //New J. Chem. 1998. - V. 22, № 10. - P. 1075-1078.

399. Ren B. A New Topological Index for QSPR of Alkanes. // J. Chem. Inf. Corn-put. Sci. 1999. - V. 39, № 1. - P. 139-143.

400. Castro E.A.; Tueros M.; Toropov A.A. Maximum topological distances based indices as molecular descriptors for QSPR. Application to aromatic hydrocarbons. // Comput. Chem. 2000. - V. 24, № 5. - P. 571-576.

401. Ivanciuc O.; Ivanciuc T.; Balaban A.T. The complementary distance matrix, a new molecular graph metric. // ACH Models Chem. - 2000. - V. 137, № 1. - P. 5782.

402. Randic M. High quality structure-property regressions. Boiling points of smaller alkanes. //New J. Chem. 2000. - V. 24, № 3. - P. 165-171.

403. Gutman I.; Tomovic Z. On the application of line graphs in quantitative structure-property studies. // J. Serb. Chem. Soc. 2000. - V. 65, № 8. - P. 577-580.

404. Thanikaivelan P.; Subramanian V.; Raghava R.J.; Unni N.B. Application of quantum chemical descriptor in quantitative structure activity and structure property relationship. // Chem. Phys. Lett. 2000. - V. 323, №> 1-2. - P. 59-70.

405. Randic M. Quantitative structure-property relationship. Boiling points of planar benzenoids. //New J. Chem. 1996. - V. 20, № 10. - P. 1001-1009.

406. Lucic B.; Trinajstic N. New developments in QSPR/QSAR modeling based on topological indices. // SAR QSAR Environ. Res. 1997. - V. 7. - P. 45-62.

407. Liu S.; Cao C.; Li Z. Approach to Estimation and Prediction for Normal Boiling Point (NBP) of Alkanes Based on a Novel Molecular Distance-Edge (MDE) Vector, 1. // J. Chem. Inf. Comput. Sci. 1998. - V. 38, № 3. - P: 387-394.

408. Espinosa G.; Yaffe D.; Cohen Y.; Arenas A.; Giralt F. Neural Network Based Quantitative Structural Property Relations (QSPRs) for Predicting Boiling Points of Aliphatic Hydrocarbons. II J. Chem. Inf. Comput. Sci. 2000. - V. 40, № 3. - P. 859879.

409. Goll E.S.; Jurs P. С. Prediction of the Normal Boiling Points of Organic Compounds from Molecular Structures with a Computational Neural Network Model. // J. Chem. Inf. Comput. Sci. 1999. - V. 39, № 6. - P. 974-983.

410. Татевский B.M. Физико-химические свойства индивидуальных углеводородов. Гостоптехиздат: М. - 1960. -412 с.

411. Гордон А.; Форд Р. Спутник химика. Мир: М. - 1976. - 541 с.

412. Kreiger A.G.; К. W.C. Computer Iteration of Handbook Data. // J. Chem. Educ. 1971.-V. 48.-P. 457.

413. Goodman J.M.; Kirby P.D.; Haustedt L.O. Some Calculations for Organic Chemists: Boiling Point Variation, Boltzman Factors and Eyring Equation Periodical Online. http://preprint.chemweb.com/orgchem/00090Q6.

414. Yaffle D.; Cohen Y. Neural Network Based Temperature-Dependent Quantitative Structure Property Relations (QSPRs) for Predicting Vapor Pressure of Hydrocarbons. // J. Chem. Inf. Comput. Sci. 2001. - V. 41, № 2. - P. 463-477.

415. Silver M.S. The Effect of the Nature of the Leaving Group upon Relative Sol-volytic Reactivity. // J. Am. Chem. Soc. 1961. - V. 83, № 2. - P. 404-408.

416. Seoud O.A.; Martins M.F. Kinetics and Mechanism of the Hydrolysis of Substituted Phenyl Benzoates Catalyzed by the o-Iodosobenzoate Anion. // J. Phys. Org. Chem. 1995. - V. 8, № 10. - P. 637-646.

417. Пальм В.А. Основы количественной теории органических реакций. Химия: Л. - 1977. -359 с.

418. Stimson V.R. The Kinetics of Alkyl-Oxygen Fission in Ester Hydrolysis. Part II. tret.-Butyl 2:4:6-Trimethylbenzoate in Aqueous Acetone. // J. Chem. Soc. 1955. -P. 2010-2013.

419. Varnek A.; Gaudin C.; Marcou G.; Baskin I.; Pandey A.K.; Tetko I.V. Inductive Transfer of Knowledge: Application of Multi-Task Learning and Feature Net

420. Approaches to Model Tissue-Air Partition Coefficients. // J. Chem. Inf. Model. -2009. T. 49, № 1. - C. 133-144.

421. Baskin 1.1.; Ait A.O.; Halberstam N.M.; Palyulin V.A.; Zejirov N.S. An approach to the interpretation of backpropagation neural network models in QSAR studies. // SAR and QSAR in Env. Res. 2002. - V. 13, № 1. - P. 35-41.

422. Huuskonen J. Prediction of Soil Sorption Coefficient of a Diverse Set of Organic Chemicals From Molecular Structure. // J. Chem. Inf. Comput. Sci. 2003. -V. 43, №5.-P. 1457-1462.

423. Marcus Y.; Smith A.L.; Korobov M. V.; Mirakyan A.L.; Avramenko N. V.; Stuka-lin E.B. Solubility of C60 Fullerene. // The Journal of Physical Chemistry B. 2001. - V. 105, № 13. - P. 2499-2506.

424. Артеменко H.B.; Баскин И.И.; Палюлин B.A.; Зефиров Н.С. Прогнозирование физических свойств органических соединений при помощи искусственных нейронных сетей в рамках подструктурного подхода. // Докл. РАН. 2001. -Т. 381, №2.-С. 203-206.

425. Артеменко Н.В.; Палюлин В.А.; Зефиров Н.С. Нейросетевая модель ли-пофильности органических соединений на основе фрагментных дескрипторов. // Докл. РАН. 2002. - Т. 383, № 6. - С. 771-773.

426. Jover J.; Bosque R.; Sales J. Determination of Abraham Solute Parameters from Molecular Structure. // J. Chem. Inf. Comput. Sci. 2004. - V. 44, № 3. - P. 1098-1106.

427. Caruana R. Multitask Learning. // Machine Learning. 1997. - V. 28, № 1. -P: 41-75.

428. Elrod D.W.; Maggiora G.M.; Trenary R.G. Applications of Neural Networks in Chemistry. 1. Prediction of Electrophilic Aromatic Substitution Reactions. I I J. Chem. Inf. Comput. Sci. 1990. - V. 30, № 4. - P. 477-484.

429. Elrod D. W; Maggiora G.M.; Trenary R.G. Application of Neural Networks in Chemistry. 2. A General Connectivity Representation for the Prediction of Regio-chemistry. // Tetrahedron Comput. Methodol. 1990. - V. 3 - P. 163-174.

430. West G. Empirical 31P Spectrum Prediction by Neural Networks. // NATO-ASI Molecular Spectroscopy: Recent Experimental and Computational Advances, Ponta Delgada. 1992.

431. Kvasnicka V. An Application of Neural Networks in Chemistry. Prediction of 13C NMR Chemical Shifts. // J. Math. Chem. 1991. - V. 6. - P. 63-76.

432. West G.M.J. Predicting Phosphorus NMR Shifts Using Neural Networks. // J. Chem. Inf. Comput. Sci. 1993. - V. 33, № 4. - P. 577-589.

433. Kireev D.B. ChemNet: A Novel Neural Network Based Method for Graph/Property Mapping. // J. Chem. Inf. Comput. Sci. 1995. - V. 35, № 2. - P. 175-180.

434. Fukushimci K. Neocognitron: A Self-Organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position. // Biol. Cybernetics. 1980. - V. 36 - P. 193-202.

435. Fukushima K.; Miyake S. Neocognitron: A New Algorithm for Pattern Recognition Tolerant of Deformations and Shifts in Position. // Pattern Recognition. -1982.-V. 15.-P. 455-469.

436. Fukushima K. A Hierarchical Neural Network Model for Associative Memory. // Biol. Cybernetics. 1984. - V. 50. - P. 105-113.

437. Fukushima K. A Neural Network Model for Selective Attention in Visual Pattern Recognition. // Biol. Cybernetics. 1986. - V. 55. - P. 5-15.

438. Hubel D.H.; Wiesel T.N. Receptive Fields, Binocular Interaction and Functional Architecture in the Cat's Visual Cortex. // J. Physiol. 1962. - V. 160. - P. 106-154.

439. Hubel D.H.; Wiesel T.N. Receptive Fields and Functional Architecture in Two Nonstriate Visual Areas (18 and 19) of the Cats. // J. Neurophysiol. 1965. - V. 28. -P. 229-289.

440. Hubel D.H.; Wiesel T.N. Functional Architecture of Macaque Monkey Visual Cortex. // Proc. Roy. Soc. London Ser. B. 1977. - V. 98 - P. 1-59.360

441. Lohninger H. Evaluation of Neural Networks Based on Radial Basis Functions and Their Application to the Prediction of Boiling Points from Structural Parameters. // J. Chem. Inf. Comput. Sci. 1993. - V. 33, № 5. - P. 736-744.

442. Cherqaoui D.; Villemin D. Use of a neural network to determine the boiling point of alkanes. //J. Chem. Soc., Faraday Trans. 1994. - V. 90, № 1. - P. 97-102.

443. Cherqaoui D.; Villemin D.; Kvasnicka V. Application of neural network approach for prediction of some thermochemical properties of alkanes. // Chemometrics and Intelligent Laboratory Systems. 1994. - V. 24, № 2. - P. 117-128.

444. Yan L.; Chen N. Quantitative structure-activity relationship study of octane number and boiling point of alkanes using artificial neural networks method. // Jisu-anji Yu Yingyong Huaxue. 1994. - V. 11. - P. 286-287.

445. Bianucci A.M.; Micheli A.; Sperduti A.; Starita A. A novel approach to QSPR/QSAR based on neural networks for structures. // Studies in Fuzziness and Soft Computing. 2003. - V. 120. - P. 265-296.

446. Rossini F.D.; Pitzer K.S.; Arnett R.L.; Braun R.M.; Pimentel G.C. Selected Values of Physical and Thermodynamic Properties of Hydrocarbons and Related Compounds. Carnegie Press: Pittsburgh, PA. - 1953. p.

447. Антипин И.С.; Арсланов H.A.; Палюлин B.A.; Коновалов А.И.; Зефиров Н.С. Сольватационный топологический индекс. Топологическая модель описания дисперсионных взаимодействий. // ДАН СССР. 1991. - Т. 316, № 4 - С. 925-928.

448. Miller К. J. Additivity methods in molecular polarizability. // J. Am. Chem. Soc. 1990. - V. 112, № 23. - P. 8533-8542.

449. Зефиров Н.С.; Баскин И.И.; Трач С.С. Универсальная программа машинной графики для целей органической химии. // Журн. Всес. хим. о-ва им. Д.И. Менделеева. 1987. - Т. 32, № 1. - С. 112-113.

450. Станкевич М.И.; Баскин И.И.; Зефиров Н.С. Комбинаторные модели и алгоритмы в химии. Поиск структурных фрагментов. Деп. ВИНИТИ, №4288-В: - 1986. -28 с.

451. Станкевич М.И.; Баскин И.И.; Зефиров Н.С. Автоматизированный поиск структурных фрагментов. Алгоритм и программа. // Журн. структ. химии. -1987. Т. 28, № 6. - С. 136-137.

452. Баскин И.И.; Станкевич М.И.; Девдариани P.O.; Зефиров Н.С. Комплекс программ для нахождения корреляций "структура-свойство" на основе топологических индексов. // Журн. структ. химии. 1989. - Т. № 6. - С. 145-147.

453. Lomova О.A.; Sukhachev D. V.; Kumskov M.I.; Palyulin V.A.; Zefirov N.S. The Generation of Molecular Graphs for QSAR Studies by the Acyclic Fragment Combining. // MATCH. 1992. - V. 27. - P. 153-174.

454. Tratch S.S.; Lomova O.A.; Sukhachev D.V.; Palyulin V.A.; Zefirov N.S. Generation of molecular graphs for QSAR studies: an approach based on acyclic fragment combinations. // J. Chem. Inf. Comput. Sci. 1992. - V. 32, № 2. - P. 130139.

455. Halberstam N.M.; Baskin I.I.; Palyulin V.A.; Zefirov N.S. In NASAWIN A Program Simulator of Neural Networks for Structure-Activity Relationship Studies, International symposium CACR-96. - 1996. - P. 37-38.1. БЛАГОДАРНОСТИ

456. СПИСОК ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ

457. Q2 коэффициент детерминации, вычисленный в условиях скользящего контроля

458. Qdcv2 коэффициент детерминации, вычисленный в условиях двойного скользящего контроля

459. QSAR Quantitative Structure-Activuty Relationships (количественные корреляции структура-активность) QSPR - Quantitative Structure-Property Relationships (количественные корреляции структура-свойство) R2 - коэффициент детерминации

460. RMSE Root Mean Squared Error (среднеквадратичная ошибка) RMSEt - среднеквадратичная ошибка на обучающей выборке RMSEy, sv— RMSE на внутренней контрольной выборке RMSEp, sp - RMSE на внешней контрольной выборке

461. RMSEdcv RMSE, вычисленная в условиях двойного скользящего контроля

462. БПМЛР быстрая пошаговая множественная линейная регрессия

463. ГСДЦ граф связности дескрипторных центров

464. ИНС искусственные нейронные сети

465. МОП максимальный общий подграф

466. ПФД псевдофрагментные дескрипторы1. ТИ топологические индексы

467. Ф Д фрагментные дескрипторы

468. ФКСП фрагментарный код суперпозиции подструктур ЦАФ - центрированные на атомах фрагменты