Виртуальный скрининг библиотек органических структур на основе одноклассовой классификации тема автореферата и диссертации по химии, 02.00.03 ВАК РФ

Карпов, Павел Владимирович АВТОР
кандидата химических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2011 ГОД ЗАЩИТЫ
   
02.00.03 КОД ВАК РФ
Диссертация по химии на тему «Виртуальный скрининг библиотек органических структур на основе одноклассовой классификации»
 
Автореферат диссертации на тему "Виртуальный скрининг библиотек органических структур на основе одноклассовой классификации"

Московский государственный университет имени М. В. Ломоносова Химический факультет

На правах рукописи

Карпов Павел Владимирович

Виртуальный скрининг библиотек органических структур на основе одноклассовой классификации

02.00.03 - Органическая химия 02.00.16 - Медицинская химия

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата химических наук

1 О НОЯ 2011

Москва - 2011

005001550

Работа выполнена в лаборатории органического синтеза кафедры органической химии Химического факультета Московского государственного университета имени М. В. Ломоносова.

Защита состоится «23» ноября 2011 года в 11 часов на заседании диссертационного совета Д 501.001.69 по химическим наукам при Московском государственном университете имени М. В. Ломоносова по адресу: 119991, Москва, ГСП-1, Ленинские горы, д. 1, стр. 3, Химический факультет МГУ, ауд. 446.

С диссертацией можно ознакомиться в библиотеке Химического факультета МГУ имени М. В. Ломоносова.

Автореферат разослан «20» октября 2011 года. Учёный секретарь

Официальные оппоненты:

Ведущая организация:

Научный руководитель:

доктор физико-математических наук, кандидат химических наук, ведущий научный сотрудник, Баскин Игорь Иосифович, доктор химических наук, Балакин Константин Валерьевич; доктор химических наук, профессор, Пивина Татьяна Степановна. НИИ биомедицинской химии имени В. Н. Ореховича РАМН.

диссертационного совета Д 501.001.69, доктор химических наук, профессор

Магдесиева Т. В.

Общая характеристика работы

Актуальность работы. В процессе рационального поиска и создания новых лекарственных препаратов важная роль отводится использованию различных прогностических моделей для оценки перспективности конкретного соединения как нового селективного лиганда по отношению к определённой биомишени. Ввиду невозможности массового применения методов молекулярного моделирования при виртуальном скрининге больших библиотек органических соединений даже при известной структуре биомишени и ненадёжности оценочных функций, предварительный отбор таких соединений обычно проводится на основе различных эвристических подходов (поиск по молекулярному подобию, фармакофорный поиск и т. д.), а также подходов на основе методов машинного обучения, когда строятся классификационные двухклас-совые или регрессионные модели. Для корректного построения первых, однако, необходимо достаточное количество примеров отсутствия активности, которые обычно не приводятся в литературе. Кроме того, построение представительной выборки контрпримеров практически невозможно. Применение вторых затруднено в виду сложности определения их областей применимости.

Подход одноклассовой классификации преодолевает многие недостатки существующих методов построения моделей для виртуального скрининга. Он требует наличия только активных лигандов, основывается на строгой статистической теории и позволяет учитывать всю имеющуюся структурную информацию о молекулах активных соединений.

Цель диссертационной работы заключается в разработке нового подхода к построению моделей для виртуального скрининга на основе процедур одноклассовой классификации. Для достижения поставленной цели необходимо было решить следующие задачи:

• исследовать применимость метода одноклассовой классификации для

проведения виртуального скрининга органических соединений;

• разработать алгоритмы и соответствующее им программное обеспечение для построения одноклассовых моделей для виртуального скрининга с использованием разных методов машинного обучения: искусственных нейронных сетей и одноклассовой машины опорных векторов, а также различных способов описания молекулярных структур: модифицированных фрагментных дескрипторов Кархарта, "молекулярных отпечатков" и непрерывных молекулярных полей;

• построить одноклассовые модели для фармакологически важных биомишеней и оценить с их помощью эффективность одноклассового подхода, сравнить с существующими методами;

• показать практическую применимость одноклассовых моделей на примере поиска новых ингибиторов обратной транскриптазы ВИЧ.

Научная новизна. В данном исследовании впервые применён метод одноклассовой классификации для проведения виртуального скрининга органических соединений. Показана возможность использования для этой цели разных методов машинного обучения и разных способов представления молекулярных структур. Продемонстрировано, что применение концепции непрерывных молекулярных полей в сочетании с методом одноклассовой классификации позволяет находить перспективные лиганды новых структурных типов. Для широкого набора биомишеней впервые построены одноклассовые модели для виртуального скрининга, и с их помощью проиллюстрирована эффективность предложенного подхода. Создано оригинальное программное обеспечение для построения одноклассовых моделей, проведения виртуального скрининга и анализа полученных результатов. Для ингибиторов обратной транскриптазы ВИЧ-1 — соединений класса 2-алкокси-6-бензил-3,4-дигидропири-мидин-4-онов — построены одноклассовые модели, с помощью которых ото-

браны наиболее перспективные структуры с более высокой прогнозируемой активностью по сравнению с существующими аналогами.

Практическая значимость. Построены одноклассовые модели для 150 фармакологически важных биомишеней, которые могут быть использованы для проведения виртуального скрининга как с целью нахождения соединений-лидеров, так и для прогнозирования спектра биологической активности веществ при поиске новых лекарственных препаратов. Предложенный подход может быть использован для проведения виртуального скрининга относительно самых разнообразных биологических мишеней, для которых известны структуры лигандов. Разработанный программный комплекс позволяет строить модели и проводить виртуальный скрининг электронных баз данных органических веществ, прогнозировать спектр их активности. С помощью виртуального скрининга получена сфокусированная библиотека потенциальных ингибиторов обратной транскриптазы ВИЧ-1.

Апробация работы. Основные результаты диссертации докладывались на XVII Международной конференции студентов, аспирантов и молодых учёных "Ломоносов- 2010" (Москва, 2010 г.); 18-ом Всероссийском национальном конгрессе "Человек и лекарство 2011" (Москва, 2011 г.); 7-ой Всероссийской конференции "Молекулярное моделирование" (Москва, 2011 г.); VI International Symposium Methods and Applications of Computational Chemistry (Lviv, Ukraine, 2011).

Публикации. Материалы диссертации опубликованы в 11 печатных работах, из них 3 статьи в рецензируемых журналах и 8 тезисов докладов.

Структура и объём диссертации. Диссертация состоит из введения, 4 глав, заключения, библиографии и 2 приложений. Общий объем диссертации 136 страниц, из них 114 страниц текста, в том числе 40 рисунков и 18 таблиц. Библиография включает 164 наименования на 19 страницах.

Содержание работы

Во ведении обоснована актуальность диссертационной работы, сформулирована цель и аргументирована научная новизна исследований, показана практическая значимость полученных результатов.

Первая глава работы представляет собой обзор литературы по теме диссертации. Раздел 1.1 посвящен различным методам виртуального скрининга на основе структур лигандов. Проводится их сравнение, обсуждаются недостатки различных подходов. В частности, эвристические методы (фармако-форный поиск, поиск по молекулярному подобию и т. д.) не гарантируют нахождение наилучшего решения, а использование регрессионных С^АК моделей затруднено необходимостью определения их областей применимости. Для статистически правильного построения двухклассовых классификационных моделей необходимо иметь в распоряжении представительную выборку неактивных соединений, собрать которую практически невозможно ввиду отсутствия данных о неактивных структурах в литературе.

В разделе 1.2 рассматриваются методы одноклассовой классификации, которые основаны на строгой статистической теории и не требуют использова-х г ния выборки неактивных струк-

тур для обучения. Суть мето-

да одноклассовой классифика-

ции заключается в построении модели, позволяющей отличать структуры моделируемого класса от всех остальных соедине-г , г ний. Рассмотрен метод решения

дя стадию кодирования, декодируется обратно в сеоя. Если 1 1

ошибка реконструкции близка к нулю, то структура признаёт- оДНОКЛаССОВЫХ Задач С ПОМОЩЬЮ ся активной.

искусственных нейронных сетей

Направление передачи сигнала Рис. I. Сеть автодекодера. Тестируемое соединение, нрохо

Объекты моделируемого

класса Ограничивающая гиперсфера

Опорный вектор Выброс

особой архитектуры, рис. 1, у которых число нейронов в скрытом слое значительно меньше, чем в других слоях. В процессе своей работы такая нейронная сеть сначала кодирует тестируемый объект с максимальным сжатием, а затем декодирует его обратно. Для объектов моделируемого класса ошибка реконструкции будет минимальной, тогда как для всех других объектов эта ошибка будет значительно выше.

Особое внимание уделено методу 1-SVM (Support Vector Machines), который позволяет при помощи т.н. ядер скалярного произведения (kernels) отображать химические объекты в точки внутри пространства признаков (feature space). В этом пространстве ищется Рис. 2. Метод Т^М строит разделяющую гиперплоскость, которая максимально гиперплоскость, отделяющую объекты мо-удалена от начала координат и отделяет даруемого класса от начала координат.

от него объекты моделируемого класса, рис. 2. Для нормированных ядер или ядер Гаусса, для которых все точки лежат на поверхности гиперсферы данных единичного радиуса, это эквивалентно поиску ограничивающей гиперсферы минимального объёма, содержащей внутри себя точки моделируемого класса. Если точка, соответствующая тестируемой химической структуре, оказывается внутри этой гиперсферы, то соединение считается принадлежащим моделируемому классу.

Во второй главе подробно описаны разработанные в диссертации алгоритмы и программы для построения одноклассовых моделей. В разделе 2.1 рассматриваются разработанные в диссертационной работе модифицированные дескрипторы Кархарта, специально приспособленные для проведения виртуального скрининга больших баз данных органических соединений с целью выявления химических структур, обладающих заданным видом биологиче-

ской активности. В отличие от оригинальных дескрипторов Кархарта, хорошо зарекомендовавших себя в виртуальном скрининге, предлагаемый нами модифицированный вариант основан на более подробной схеме классификации атомов, разработанной ранее на химическом факультете МГУ1 и доказавшей свою эффективность в многочисленных исследованиях "структура-активность/свойство". Подобная комбинация позволила сформировать набор фрагментных дескрипторов, сочетающий высокую способность распознавать биологически активные соединения с высокой эффективностью вычислений, необходимой при работе с большими базами данных при виртуальном скрининге. Модифицированные дескрипторы Кархарта имеют вид: Fi - Dist - F2, где под F\, F2 следует понимать неводородные атомы, а под Dist — топологическое расстояние между ними. Значение дескриптора бинарно — оно указывает на наличие соответствующего фрагмента в химической структуре. Такое дескрипторное описание близко к идее фармакофорных дескрипторов. Для 3-метилфурана разработанная нами программа Carhart сгенерирует следующие дескрипторы: oa2-3-chi = i, сш-з-сш = i,

СН2-2-СН1 = 1, СН1-3-СА1 = 1, ОА2-2-СН1 = 1, СН2-3-СН1 = 1, CH1-4-CA1 = 1, OA2-3-CH2 = 1, OA2-4-CA1 = 1, CH1-2-CH1 = 1, CH2-2-CA1 = 1, ОА2 = 1, CAI = 1, CHI =3, СН2 = 1.

В разделе 2.2 рассмотрена разработанная нами методология построения одноклассовых моделей в рамках концепции непрерывных молекулярных полей,2 суть которой заключается в использовании для описания молекул непрерывных функций молекулярных полей вместо "традиционных" наборов дескрипторов. Построение статистических моделей в рамках этой концепции основано на возможности определять ядра скалярного произведения путём интегрирования произведений этих функций. Предлагаемая нами методология

1 Артеменко Н.В., Баскин И. И., Палюлин В. А., Зефиров H.C. //ДАН. 2001. Т. 381. С. 203-206.

2 Жохова Н. И., Баскин И. И., Бахронов Д. К. и др. // ДАН. 2009. Т. 429. С. 201-205.

сводится к использованию определённых таким образом ядер в рамках метода 1-SVM. При построении одноклассовой модели формируются "идеальные" молекулярные поля, обеспечивающие проявление изучаемого вида биологической активности. Близость полей тестируемой молекулы к "идеальным" полям служит критерием её отнесения к моделируемому классу активных структур.

Использование непрерывных полей в моделях для виртуального скрининга позволяет с большей вероятностью находить новые хемотипы активных структур (т. н. "scaffold-hopping") по сравнению с моделями на основе традиционных фрагментных дескрипторов.

В разделе 2.3 описаны разработанные в диссертации алгоритмы для построения моделей для проведения виртуального скрининга. Для этого требуется оптимизация параметров соответствующих методов машинного обучения с целью увеличения прогнозирующей способности классификатора. В этом разделе подробно освещены используемые меры для оценки качества классификационных моделей, а также разработана их общая схема построения (рис. 3), ключевой стадией которой является максимизация площади под ROC-кривой

построение моделей прогноз

истинно

лиганды (перекрестный контроль) модели положительные

" □□□□□ □ [

□□□□□ □ [

□ □□□□--^ [

□□□□□ □ [

□□□□□ □ [

расчет ста тистики

о а, ь <и S

СЗ

Си с3 С Оч

о ю 3 a

все активные

модель

измерители объёма"

->■ <

1 - специфичность

площадь под кривом

Рис. 3. Схема оптимизации параметров одноклассового классификатора (5-кратный перекрёстный контроль).

{AUС) при оптимизации параметров метода.

В современных методах машинного обучения объём областей пространства признаков, вследствие неравномерного распределения в нём объектов, а также анизотропии этого пространства, часто определяется не геометрически, а путём подсчёта количества т. н. "измерителей объёма" (universum), попадающих в эту область. На роль "измерителей объёма" подходят объекты, которые покрывают область исследуемого пространства признаков, а соответствующие им химические структуры максимально разнообразны, например взяты из базы NCI Diversity II3. Для оценки нижней границы эффективности классификатора мы предполагаем их неактивность и вычисляем с их помощью площадь под ROC-кривой, рис. 3.

Далее описан разработанный нами программный комплекс MCMF, который позволяет строить одноклассовые модели как с разными методами машинного обучения, так и с разными способами представления органических структур. Также эта программа может работать в качестве прогнозатора для проведения виртуального скрининга.

В третьей главе проводится оценка эффективности методов одноклас-совой классификации в применении к задачам органической химии. В разделе 3.1 представлены статистические характеристики одноклассовых моделей, построенных для лигандов из базы DUD (Directory of Useful Decoys)4 — специально сконструированной базы органических соединений для оценки эффективности методов виртуального скрининга. Она состоит из лигандов, действующих на 40 биомишеней, дополненных структурами, топологически различающимися от активных, но по своим физико-химическим параметрам похожими на них. Проявление биологической активности такими "приманками" маловероятно. В работе применяются следующие обозначения: Car-S-G

3 http://zinc.docking.org/vendorO/ncidiv/index.html

4 Huang N.. Shoichet 1С., Irwing J. II J. Med. Chem. 2006. Vol. 49. P. 6789-6801.

Таблица 1. Результаты моделирования базы DUD. Приведены значения A VC.

Мишень 1-SVM (дескрипторы) 1 -SVM (непрерывные поля) ANN

Car-S-G Fin-S-L Fin-S-G Fin-S-T Spec-S-G CM-E CM-S CM-H CM-C

Асе 0,92 0,86 0,93 0,93 0,67 0,78 0,40 0,58 0,92 0,96

Ache 0,95 0,71 0,96 0,89 0,70 0,61 0,51 0,77 0,77 0,94

Ada 0,99 0,94 0,95 0,95 0,30 0,77 0,72 0,58 0,77 0,97

Alr2 0,71 0,82 0,80 0,87 0,71 0,74 0,73 0,62 0,75 0,87

AmpC 0,86 0,94 0,95 0,95 0,83 0,62 0,70 0,74 0,75 0,98

Ar 0,94 0,67 0,99 0,97 0,69 0,91 0,81 0,89 0,93 0,97

Cdk2 0,89 0,84 0,83 0,90 0,54 0,64 0,80 0,71 0,71 0,92

Comt 0,63 0,68 0,98 0,87 0,79 0,86 0,66 0,78 0,86 0,86

Cox-1 0,74 0,51 0,97 0,90 0,70 0,77 0,74 0,70 0,82 0,85

Cox-2 0,97 0,89 0,96 0,97 0,76 0,89 0,96 0,91 0,96 0,96

Dhfr 0,99 0,99 0,99 0,99 0,68 0,74 0,82 0,49 0,94 0,99

Egfr 0,97 0,99 0,99 0,99 0,62 0,77 0,75 0,82 0,82 0,99

Er агонист 0,95 0,67 0,97 0,95 0,85 0,96 0,82 0,92 0,96 0,99

Er антагонист 0,97 0,94 0,93 1,00 0,56 0,94 0,83 0,96 0,97 0,99

Fgfrl 0,98 0,99 1,00 1,00 0,83 0,78 0,80 0,89 0,89 1,00

FXa 0,91 0,87 0,92 0,93 0,67 0,89 0,79 0,74 0,90 0,95

Gart 0,98 0,98 0,99 0,99 0,88 0,81 0,85 0,74 0,89 0,98

Gpb 0,92 0,83 0,97 0,95 0,87 0,89 0,85 0,85 0,91 0,94

Gr 0,96 0,95 1,00 1,00 0,93 0,74 0,84 0,90 0,92 1,00

Hivpr 0,94 0,84 0,98 0,98 0,69 0,74 0,86 0,83 0,87 0,98

Hivrt 0,80 0,65 0,83 0,70 0,87 0,60 0,75 0,65 0,75 0,84

Hmgr 0,92 0,95 0,98 0,97 0,66 0,69 0,63 0,82 0,82 0,96

Hsp90 0,96 0,97 0,98 0,99 0,77 0,87 0,96 0,92 0,96 0,99

InhA 0,92 0,64 0,97 0,96 0,53 0,82 0,67 0,60 0,86 0,98

Mr 0,84 0,54 0,95 0,88 0,82 0,91 0,85 0,89 0,91 0,87

P38 0,99 0,94 0,98 0,96 0,76 0,85 0,77 0,67 0,85 0,99

Na 0,94 0,89 0,94 0,98 0,89 0,79 0,89 0,66 0,93 0,99

Parp 0,94 0,91 0,98 0,94 0,69 0,73 0,77 0,64 0,84 0,99

Pde5 0,93 0,81 0,99 0,92 0,73 0,84 0,87 0,75 0,93 0,96

Pdgfrb 0,97 0,93 1,00 1,00 0,62 0,78 0,76 0,79 0,83 0,99

Pnp 0,98 0,97 0,92 0,99 0,75 0,76 0,82 0,74 0,83 0,99

Ppar-y 0,98 0,95 0,97 0,97 0,90 0,89 0,78 0,86 0,89 0,97

Pr 0,93 0,95 0,89 0,99 0,68 0,86 0,58 0,74 0,88 1,00

Rxr-a 0,99 1,00 1,00 1,00 0,99 0,86 0,85 0,91 0,91 1,00

Sahh 0,96 0,98 0,97 0,98 0,91 0,91 0,90 0,90 0,94 0,99

Src 0,98 0,89 0,99 0,99 0,65 0,68 0,79 0,80 0,85 0,98

Thrombin 0,93 0,77 0,85 0,85 0,57 0,85 0,72 0,67 0,86 0,95

Tk 0,88 0,90 0,96 0,94 0,53 0,85 0,65 0,89 0,91 0,97

Trypsin 0,95 0,97 0,86 0,96 0,83 0,91 0,87 0,86 0,94 0,98

Vegfr2 0,79 0,72 0,97 0,90 0,57 0,70 0,66 0,76 0,76 0,88

Асе — ангиотензии-превращающий фермент, Ache — ацетилхолинэстераза, Ada — аденозиндеаминаза, А!г2 — альдоредуктаза 2, AmpC — АМСР -ß - лактамаза, Ar — андрогенный рецептор, Cdk2 — цикпинзависи-мая киназа 2, Comt — катехол-О-метилтрансфераза, Сох-1 — циклооксигеназа-1, Сох-2—циклооксигеназа-2, Dhfr —дигидрофолат-редуктаза, Egfr — рецептор эпидермального фактора роста, Er — эстрогеновый рецептор, Fgfrl

— киназа рецепторов фактора роста фибропластов, FXa — фактор Ха, Gart — глицинамид рибонуклеотид трас-формилаза, Gpb — гликоген фосфорилаза, Gr — гликокортикоидный рецептор, Hivpr — ВИЧ протеаза, Hivrt — обратная транскриптаза ВИЧ, Hmgr — гидроксиметилглутарил-СоА-редукгаза, Hsp90 — белок теплового шока 90, InhA — енонл-АСР-редуктаза, Mr — минералокоргикоидный рецептор, Р38 — Р38 митоген активирующий белок, Na — нейроаминидаза, Рагр — поли-АДФ-рибоза-полнмераза, Pde5 — фосфодиэстераза 5, Pdgfrb — киназа рецепторов фактора роста производных тромбоцитов, Рпр — пуриннуклеозид фосфорилаза, Ррагр - у — рецептор гамма, активирующий пролиферацию пероксисом, Рг — прогестероновый рецептор, Rxr-a — ретиноидный рецептор альфа, Sahh — S-аденозилгомоцистеин гидролаза, Src — тирозинкиназа SRC, Thrombin — тромбин, Tk

— тимидинкиназа, Trypsin — трипсин, Vegfr2 — рецептор фактора роста эндотелия сосудов.

— модель 1-SVM построена с использованием Гауссова ядра и дескрипторов Кархарта; Fin-S-L — линейного ядра и "молекулярных отпечатков"; Fin-S-G — Гауссова ядра и "молекулярных отпечатков"; Fin-S-T — ядра Танимото и "молекулярных отпечатков", ANN — искусственных нейросетей и "молекулярных отпечатков" и Spec-S-G — Гауссова ядра и спектрофоров для представления молекулярных структур. Модели на основе непрерывных молекулярных полей кодируются следующим образом: СМ-Е — модель на основе электростатического молекулярного поля, CM-S — стерического, СМ-Н — гидрофобного, СМ-С — комбинированного. Полученные результаты представлены в табл. 1. Усреднённые ROC-кривые для Car-S-G и СМ-С показаны на рис. 4, где они сопоставлены с обычным поиском по подобию на основе различных способов представления структур и оценочных функций5. По результатам построения одноклассовых моделей на основе базы DUD опубликованы статьи [1,2].

ставлений структур строились одноклассовые модели методом искусственных нейронных сетей и 1-SVM.

В разделе 3.3 обосновывается выбор оптимальных параметров одноклассовых классификаторов. Для моделей Car-S-G типичная поверхность оптимизируемых параметров на примере модели еноил-АСР-редуктазы приведена на рис. 6. На основе анализа таких поверхностей для 40 мишеней базы DUD

5 Verrtcatraman V., Perez-Nueno V, Mavridis L., Ritchie D. // J. Chem. Inf. Model. 2010. Vol. 50. P. 2079-2093.

В разделе 3.2 приведены результаты построения одноклассовых моделей для лигандов трипсина. Все лиганды были выравнены по алгоритму SEAL, рис. 5, затем рассчитаны значения модифицированных дескрипторов Кархарта, "молекулярных отпечатков", спектрофоров и ядер на основе непрерывных молекулярных полей. На основе полученных таким образом пред-

1-svm

- Car-S-G

- CM-C

babel daylight maccs BCI

m0lprint2d farafit.s rocs.sc rocs_s

eon_sce eon.se shaep_se shaep_s usr

eshape3d_hyc eshape3d random

0,0

0,2

—I-1—

0,4 0,6

1 - специфичность

0,8

—r~ 1,0

Рис. 4. ROC-кривые для разных методов виртуального скрининга, основанного на знании структур лигандов. Они получены вертикальным усреднением ROC-кривых для каждой из 40 мишеней базы DUD. Две верхние кривые характеризуют эффективность однокпассово-го подхода. Поскольку они лежат выше остальных, отражающих результаты виртуального скрининга на основе поиска по подобию с использованием различных оценочных функций, очевидно преимущество предлагаемого метода.

было обнаружено, что для Гауссова ядра качество одноклассового классификатора (АиС) слабо зависит от параметра у, в то время как зависимость от у ярко выражена и проходит через максимум в районе 0,02 - 0,05. На основании этих данных можно предложить построение моделей Саг-З-в с параметрами у = 0,02 и у = 0,02 без процедуры перекрёстного контроля. При использовании концепции непрерывных ">* У о он

'у °'04 0,07 о 0,1 '

молекулярных полей не удаётся чётко . „

гис. о. Зависимость АиС от у и V для Гауссова

определить наиболее оптимальные пара- ядра для модели Ым.

метры, поэтому для них следует использовать процедуру оптимизации. Для моделей ANN было определено, что оптимальное количество нейронов в скрытом слое равняется 5. Нейросетевой одноклассовый классификатор описан нами в [3] для задачи виртуального скрининга потенциальных ингибиторов киназы гликогенсинтазы 3.

В разделе 3.4 представлены результаты моделирования ингибирующей активности соединений по отношению к 9 типам каспаз на основе моделей Car-S-G со стандартными параметрами. Показана высокая селективность построенных одноклассовых моделей. Точность прогноза > 0,95.

В главе 4 рассмотрено применение методов одноклассовой классификации в задачах органической химии. В разделе 4.1 описано построение мо-

9Г Virtual Screening ä

D Load models G Open SDF Б Start Prognosis Q Export SDF

s

Spectrum Log

Activity P2X purinoceptor 2 Gonad otro pin-releasing hormone receptor Cathepsin S Squalene synthetase Phosphodiesterase Type 9 (PDE9A)

_ Dihydrofolate Reductase-

Thyinidylate Synthase

Source: File: /home/pavel/Chem/zinc/3_p0.2.sdf ( number of structures: 21793}

Code ,1 119

583 ZINC47303398

584 ZINC47319786

585 ZINC47326907

586 ZINC47334495

587 ZINC47357854 74.U

588 ZINC47373796 4173 ' * . □

589 ZINC47395978

590 ZINC47404929

591 ZINC47419576 81.

592 ZINC47443430 и

Score,%

41.73 23.22

53.68 49.41 36.37

57.76

a

a

Рис. 7. Программа для проведения виртуального скрининга на определённую активность, а также для определения спектра биологической активности в рамках одноклассового подхода.

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Площадь под ROC-крииой

делей для прогнозирования спектра биологической активности на основе коллекции лигандов из электронной базы органических соединений — BindingDB6. Для удобства использования построенных моделей разработана программа Screw, интерфейс которой показан на рис. 7. Всего построено рис. 8. Гистограмма доли моделей

100 моделей вида Car-S-G, на основе кото- от диапазона А ис для одноклассо-

г вых моделей, построенных на осно-

рых можно рассчитывать спектр биологиче- к

ве лигандов базы BindingDB.

ской активности новых органических структур. Распределение количества моделей от параметра AUC приведено на рис. 8. Также с помощью программы Screw можно целенаправленно искать структуры, обладающие определённым набором активностей.

В разделе 4.2 изложены результаты виртуального скрининга потенциальных ингибиторов обратной транскриптазы ВИЧ-1 (H1VRT). HN Построение одноклассовых моделей для вирту- R2_0 ального скрининга ингибиторов HIVRT описано в разделе 4.2.1. В качестве обучающей вы- | —_R1

борки было использовано 549 соединений класса ^^^

DABO (2-алкокси-6-бензил-3,4- дигидропирими- Рис. 9. Общая формула пирими-ДИИ-4-оны), рис. 9, 10. динонов, ингибиторов HIVRT.

Среди серии построенных одноклассовых моделей, полученных с использованием разных методов машинного обучения и способов представления структур органических соединений, было выбрано три модели, качество которых характеризуется высокими величинами BEDROC я AUС, табл. 3.

В разделе 4.2.2 изложено построение регрессионных моделей для расчё-

5 http://www.bindingdb.org

Таблица 3. Параметры одноклассовых моделей ингибиторов Н1УЯТ.

Модель Представление структуры Метод

Аис ВЕОКОС

М2 Дескрипторы Кархарта Нейросеть 0,96 0,98

М4 "Молекулярные отпечатки" 1-БУМ, ядро Гаусса 0,96 0,98 М8 Электростатическое поле ¡-БУМ 0,76 0,44

та величин /§(ЕС50) ингибиторов. Наилучшей оказалась модель, построенная с использованием нейросети и модифицированных дескрипторов Кархарта. Она характеризуется следующими значениями статистических показателей: о1 = 0,67, г2 = 0,80, рис. 11.

■V*

Н£ СН,

-3, 15

* А м^СГ^С

м . у....... , о г г

-3,00 -3,15 -3.22 -3,69

Рис. 10. Известные ингибиторы ШУЯТ. Указаны значения (£(ЕС5о).

В разделе 4.2.3 описано построение двухклассовой модели для прогнозирования мутагенности, характеризующейся значением £ АиС = 0,83. Она использовалась как дополнительный фильтр для отсеивания мутагенных соединений при формировании выборки потенциальных ингибиторов 1П

В разделе 4.2.4 описана

Рис. 11. График разброса экспериментальных и рас-процедура виртуального скри- считаниых значений для модели, прогнозирующей нинга, включающая последова- ингибирующую активность по отношению к ШУЯТ.

-4 -3-2-1 0 1 2 Экспериментальные значения /#( ЕСы)

7 http://zinc.docking.org

Связывание с лигандом 3 Связывание с лигандом 4

Рис. 12. Связывание потенциальных ингибиторов 3 и 4 с ферментом ШУЮ" (1п1).

тельное применение одноклассовых, регрессионных моделей и различных хе-мофильтров, отсеивающих нежелательные структуры, проявляющие мутагенные и токсичные свойства.

Результаты виртуального скрининга базы коммерчески доступных соединений ZINC7 рассмотрены в разделе 4.2.5. Количество подвергнутых скринингу структур составило 13 377 886. Для наиболее перспективных структур, количество которых составило 2 086, получивших высокие оценки по одноклассовым и регрессионным моделям, был проведён докинг при помощи программы Gold, после чего размер выборки сокра- Рис- 13- 0бщий вид комплекса

HIVRT (lrtl) и лиганда.

тился до 2 030. Для всех отобранных структур величины параметра GoldScore, оценивающего выгодность взаимодействия биомолекулы и лиганда, оказались выше, чем для кристаллографического лиганда (GoldScore=41,80). Оставшиеся структуры были исследованы на предмет мутагенности (Mut), токсичности (Тох) и активности в отношении hERG при

Таблица 4. Перспективные структуры ингибиторов HIVRT, отобранные в результате скрининга на основе одноклассовых моделей, регрессии и докинга. Номера моделей соответствуют табл. 3: М2 — нейросетевой классификатор на основе дескрипторов Кархарта (порог 0,4); М4 — 1-SVM на "молекулярных отпечатках" (порог -73), М8 — 1-SVM с использованием электростатического поля (порог -28). hERG — прогнозируемая активность в отношении hERG (порог 0), Mut — мутагенность (вероятность проявления), Тох — токсичность.

№ Структура lg(EC50) Одноклассовые модели Хемофильтры Оценка GoldScore

М2 М4 М8 hERG Mut Тох

1 -0,99 0,40 -56,42 - -0,03 0,42 - 70,26

2 «vJ Д. ^^ Y Y N ~ N СНз О JL^fK. НзС ^ ^СН, -0,99 0,41 -58,96 - -0,06 0,45 - 72,08

3 __ сн, 'ТХООЗ-О" -4,13 - - 5,34 -0,03 0,40 + 70,40

4 о Н3с^ Д^ /СН з N 3 iS <уг*т ys^ О L.CH, Н3С сн3 -4,23 - - 6,76 -0,07 0,43 - 65,51

Таблица 4. Результаты виртуального исрининга потенциальных ингибиторов НГУКГ. Продолжение.

№ Структура 1§(ЕС50) М2 М4 М8 ЬЕ1Ш Мти Тох СоШЭсоге

5 о III Т Г II о о сн3 Н3С-' -2,17 0,55 -69,5 - -0,05 0,44 - 66,56

6 г Vм Т^ сн3 сна сн3 -1.37 - -51,4 - -0,04 0,48 - 51,49

7 г-ОД- ^ N \ сн3 -3,36 - - 10,27 -0,06 0,42 + 71,29

8 СН3 ГЛ |ГУ> М ЛЛ 0 -3,10 - - 2,41 -0,03 0,42 + 73,00

о

9 ны. снэ 'Г ын3 -1,71 - -71,38 29,69 -0.03 0,52 - 72,48

помощи построенных в рамках диссертационной работы одноклассовых и двухклассовых моделей. Количество структур, прошедших все фильтры, составило 541 соединение. Мы предлагаем эти структуры для проверки на ин-гибирующую активность по отношению к обратной транскриптазе ВИЧ-1. Наиболее перспективные 9 ингибиторов показаны в табл. 4. Часть из предлагаемых соединений получили высокие оценки по регрессионной модели, часть — в результате докинга. Для соединений 3 и 4 на рис. 12 показано связывание с ферментом, а на рис. 13 изображен общий пространственный вид комплекса фермента и лиганда.

Таким образом, в рамках одноклассового подхода удалось выявить новые структуры потенциальных ингибиторов обратной транскриптазы ВИЧ-1.

Благодарность

Автор выражает глубокую признательность своему научному руководителю д. ф.-м. н., к. х. н. Баскину И. И. за многочисленные плодотворные обсуждения всех аспектов работы. Автор также благодарен Палюлину В. А., Жоховой Н. И., Осолодкину Д. И. за создание творческой атмосферы и поддержку. Особая благодарность Навроцкому М. Б. за предоставление выборок ингибиторов обратной транскриптазы ВИЧ-1.

Выводы

1. Разработана новая методология виртуального скрининга библиотек органических соединений различных классов, основанная на сравнении тестируемых структур со структурами известных активных соединений с помощью методов одноклассовой классификации.

2. Разработан программный комплекс, позволяющий строить одноклассо-

вые модели для проведения виртуального скрининга библиотек органических структур. Комплекс обеспечивает расчёт фрагментных дескрипторов, "молекулярных отпечатков" и непрерывных молекулярных полей, а также построение одноклассовых моделей при помощи искусственных нейронных сетей и одноклассового метода опорных векторов.

3. Предложена модификация дескрипторов Кархарта, основанная на более детальной классификации дескрипторных центров в органических структурах. Такие дескрипторы показали свою эффективность при построении классификационных и регрессионных моделей для прогноза биологической активности органических веществ.

4. С использованием разработанного программного комплекса и библиотек органических лигандов построены одноклассовые модели для 150 видов биологической активности. На основе полученных результатов показаны преимущества одноклассового подхода по сравнению с традиционными методами поиска по молекулярному подобию.

5. Разработана программа для расчёта спектра биологической активности органических веществ на основе одноклассовых моделей.

6. С использованием разработанных программ и построенных моделей проведён виртуальный скрининг базы данных органических структур ZINC, в результате которого сформирована сфокусированная библиотека соединений — потенциальных ингибиторов обратной транскриптазы ВИЧ.

Список публикаций

1. Карпов П. В., Баскин И. И., Палюлин В. А., Зефиров Н. С. Виртуальный скрининг на основе одноклассовой классификации // ДАН. 2011. Т. 437. С. 642-646.

2. Карпов П. В., Баскин И. И., Жохова Н. И., Зефиров Н. С. Метод непрерывных молекулярных полей в задаче одноклассовой классификации // ДАН. 2011. Т. 440. С. 480-483.

3. Karpov P. V., Osolodkin D. I., Baskin I. I. et al. One-class classification as a novel method of ligand-based virtual screening: the case of glycogen synthase kinase 3(3 inhibitors // Bioorganic & Medicinal Chemistry Letters. 2011. V. 21. P. 6728-6731.

4. Жохова H. И„ Баскин И. И., Карпов П. В. и др. Построение моделей "структура - активность" при помощи непрерывных молекулярных полей // 7-я Всероссийская конференция "Молекулярное моделирование". Москва. 2011. С. 23.

5. Карпов П. В., Баскин И. И., Палюлин В. А., Зефиров Н. С. Искусственные нейронные сети как инструмент виртуального скрининга на основе одноклассовой классификации // 7-я Всероссийская конференция "Молекулярное моделирование". Москва. 2011. С. 90.

6. Баскин И. И., Жохова Н. И., Карпов П. В. и др. Статистический анализ функциональных данных — новый раздел математической статистики с перспективами широкого применения в хемо- и биоинформатике // Материалы XVIII Российского национального конгресса "Человек и лекарство". Москва. 2011. С. 550.

7. Карпов П. В., Баскин И. И., Жохова Н. И., Зефиров Н. С. Одноклассовая классификация на основе непрерывных молекулярных полей как новый метод виртуального скрининга // Материалы XVIII Российского национального конгресса "Человек и лекарство". Москва. 2011. С. 603.

8. Карпов П. В. Виртуальный скрининг на основе одноклассовой классификации // Материалы докладов XVII Международной конференции студентов, аспирантов и молодых учёных "Ломоносов". Москва. 2010.

9. Карпов П. В., Баскин И. И., Палюлин В. А., Зефиров Н. С. Одноклассовая классификация как метод поиска новых лекарственных препаратов // Материалы XVIII Российского национального конгресса "Человек и лекарство". Москва. 2011. С. 604.

10. Baskin I. I., Carpov P. V., Zhokhova N. I. et al. Computational Studies of a Series of 2-Aminopyrimidin-4(3H)-ones as Potent HIV-1 Reverse Transcriptase Inhibitors by Using of Continuous Molecular Fields // Books of abstracts. Methods and Applications of Computational Chemistry. Lviv. 2011. P. 164.

11. Baskin I. I., Carpov P. V., Zhokhova N. I., Zefirov N. S. The Use of Continuous Molecular Fields and Quantum Similarity Measures in SAR/QSAR/QSPR Studies and Drug Design // Books of abstracts. Methods and Applications of Computational Chemistry. Lviv. 2011. P. 7.

Заказ №296-1/10/2011 Подписано в печать 17.10.2011 Тираж 120 экз. Усл. п.л. 1.2

ООО "Цифровичок", тел. (495) 649-83-30 www.cfr.ru; е-таИ:info@cfr.ru

 
Содержание диссертации автор исследовательской работы: кандидата химических наук, Карпов, Павел Владимирович

Введение.

Глава 1. Обзор литературы . .'.

1.1. Виртуальный скрининг.

1.1.1. Концепция молекулярного подобия.

1.1.2. QSAR- анализ.

1.2. Одноклассовая классификация

1.2.1. Искусственные нейронные сети.

1.2.2. Одноклассовая машина опорных векторов.

Глава 2. Методологические разработки.

2.1. Модифицированные дескрипторы Кархарта.

2.2. Концепция непрерывных молекулярных полей.

2.3. Разработка алгоритмов проведения виртуального скрининга на основе одноклассовой классификации.

2.3.1. Выравнивание структур по методу SEAL.

2.3.2. Оценка качества классификационных моделей.

2.3.3. Алгоритм построения одноклассовых моделей.

2.3.4. Программный комплекс MCFM.

2.3.5. Искусственные нейронные сети.

Глава 3. Оценка применимости метода одноклассовой классификации к задачам органической химии.

3.1. Результаты моделирования лигандов базы DUD.

3.2. Моделирование ингибиторов трипсина.

3.3. Выбор оптимальных параметров классификатора.

3.3.1. Искусственные нейронные сети.

3.3.2. Одноклассовая машина опорных векторов.

3.4. Одноклассовые модели для ингибиторов каспаз.

Глава 4. Применение одноклассовой классификации в органической химии.

4.1. Спектр биологической активности.

4.1.1. Программа Screw.

4.1.2. Одноклассовые модели лигандов базы ВindingDB

4.2. Виртуальный скрининг ингибиторов HIVRT.

4.2.1. Построение одноклассовых моделей

4.2.2. Построение регрессионных моделей

4.2.3. Построение двухклассовой модели по прогнозу мутагенности

4.2.4. Виртуальный скрининг ингибиторов HIVRT.

4.2.5. Результаты виртуального скрининга.

Выводы.

 
Введение диссертация по химии, на тему "Виртуальный скрининг библиотек органических структур на основе одноклассовой классификации"

Актуальность работы. В процессе рационального поиска и создания новых лекарственных препаратов важная роль отводится использованию различных прогностических моделей для оценки перспективности конкретного соединения как нового селективного лиганда по отношению к определённой биомишени. Ввиду невозможности массового применения методов молекулярного моделирования при виртуальном скрининге больших библиотек органических соединений даже при известной структуре биомишени и ненадёжности оценочных функций, предварительный отбор таких соединений обычно проводится на основе различных эвристических подходов (поиск по молекулярному подобию, фармакофорный поиск и т. д.), а также подходов на основе методов машинного обучения, когда строятся классификационные двухклас-совые или регрессионные модели. Для корректного построения первых, однако, необходимо достаточное количество примеров отсутствия активности, которые обычно не приводятся в литературе. Кроме того, построение представительной выборки контрпримеров практически невозможно. Применение вторых затруднено в виду сложности определения их областей применимости.

Подход одноклассовой классификации преодолевает многие недостатки существующих методов построения моделей для виртуального скрининга. Он требует наличия только активных лигандов, основывается на строгой статистической теории и позволяет учитывать всю имеющуюся структурную информацию о молекулах активных соединений.

Цель диссертационной работы заключается в разработке нового подхода к построению моделей для виртуального скрининга на основе процедур одноклассовой классификации. Для достижения поставленной цели необходимо было решить следующие задачи:

• исследовать применимость метода одноклассовой классификации для проведения виртуального скрининга органических соединений;

• разработать алгоритмы и соответствующее им программное обеспечение для построения одноклассовых моделей для виртуального скрининга с использованием разных методов машинного обучения: искусственных нейронных сетей и одноклассовой машины опорных векторов, а также различных способов описания молекулярных структур: модифицированных фрагментных дескрипторов Кархарта, "молекулярных отпечатков" и непрерывных молекулярных полей;

• построить одноклассовые модели для фармакологически важных биомишеней и оценить с их помощью эффективность одноклассового подхода, сравнить с существующими методами;

• показать практическую применимость одноклассовых моделей на примере поиска новых ингибиторов обратной транскриптазы ВИЧ.

Научная новизна. В данном исследовании впервые применён метод одноклассовой классификации для проведения виртуального скрининга органических соединений. Показана возможность использования для этой цели разных методов машинного обучения и разных способов представления молекулярных структур. Продемонстрировано, что применение концепции непрерывных молекулярных полей в сочетании с методом одноклассовой классификации позволяет находить перспективные лиганды новых структурных типов. Для широкого набора биомишеней впервые построены одноклассовые модели для виртуального скрининга, и с их помощью проиллюстрирована эффективность предложенного подхода. Создано оригинальное программное обеспечение для построения одноклассовых моделей, проведения виртуального скрининга и анализа полученных результатов. Для ингибиторов обратной транскриптазы ВИЧ-1 — соединений класса 2-алкокси-б-бензил-3,4-дигидропири-мидин-4-онов — построены одноклассовые модели, с помощью которых отобраны наиболее перспективные структуры с более высокой прогнозируемой активностью по сравнению с существующими аналогами.

Практическая значимость. Построены одноклассовые модели для 150 фармакологически важных биомишеней, которые могут быть использованы для проведения виртуального скрининга как с целью нахождения соединений-лидеров, так и для прогнозирования спектра биологической активности веществ при поиске новых лекарственных препаратов. Предложенный подход может быть использован для проведения виртуального скрининга относительно самых разнообразных биологических мишеней, для которых известны структуры лигандов. Разработанный программный комплекс позволяет строить модели и проводить виртуальный скрининг электронных баз данных органических веществ, прогнозировать спектр их активности. С помощью виртуального скрининга получена сфокусированная библиотека потенциальных ингибиторов обратной транскриптазы ВИЧ-1.

Апробация работы. Основные результаты диссертации докладывались на XVII Международной конференции студентов, аспирантов и молодых учёных "Ломоносов- 2010" (Москва, 2010 г.); 18-ом Всероссийском национальном конгрессе "Человек и лекарство 2011" (Москва, 2011 г.); 7-ой Всероссийской конференции "Молекулярное моделирование" (Москва, 2011 г.); VI International Symposium Methods and Applications of Computational Chemistry (Lviv, Ukraine, 2011).

Публикации. Материалы диссертации опубликованы в 11 печатных работах, из них 3 статьи в рецензируемых журналах и 8 тезисов докладов.

Структура и объём диссертации. Диссертация состоит из введения, 4 глав, заключения, библиографии и 2 приложений. Общий объем диссертации 136 страниц, из них 114 страниц текста, в том числе 40 рисунков и 18 таблиц. Библиография включает 164 наименования на 19 страницах.

 
Заключение диссертации по теме "Органическая химия"

Выводы

1. Разработана новая методология виртуального скрининга библиотек органических соединений различных классов, основанная на сравнении тестируемых структур со структурами известных активных соединений с помощью методов одноклассовой классификации.

2. Разработан программный комплекс, позволяющий строить одноклассо-вые модели для проведения виртуального скрининга библиотек органических структур. Комплекс обеспечивает расчёт фрагментных дескрипторов, "молекулярных отпечатков" и непрерывных молекулярных полей, а также построение одноклассовых моделей при помощи искусственных нейронных сетей и одноклассового метода опорных векторов.

3. Предложена модификация дескрипторов Кархарта, основанная на более детальной классификации дескрипторных центров в органических структурах. Такие дескрипторы показали свою эффективность при построении классификационных и регрессионных моделей для прогноза биологической активности органических веществ.

4. С использованием разработанного программного комплекса и библиотек органических лигандов построены одноклассовые модели для 150 видов биологической активности. На основе полученных результатов показаны преимущества одноклассового подхода по сравнению с традиционными методами поиска по молекулярному подобию.

5. Разработана программа для расчёта спектра биологической активности органических веществ на основе одноклассовых моделей.

6. С использованием разработанных программ и построенных моделей проведён виртуальный скрининг базы данных органических структур ZINC, в результате которого сформирована сфокусированная библиотека соединений — потенциальных ингибиторов обратной транскриптазы ВИЧ.

 
Список источников диссертации и автореферата по химии, кандидата химических наук, Карпов, Павел Владимирович, Москва

1. Virtual screening in drug discovery, Ed. by J. Alvarez, B. Shoichet. USA, Boca Raton: Taylor & Francis Group, 2005. P. 470.

2. Virtual screening for bioactive molecules, Ed. by H. Böhm, G. Schneider. Methods and principles in medicinal chemistry. Germany, Darmstadt: Wi-ley-VCH, 2000. P. 307.

3. Practical application of computer-aided drug design, Ed. by P. Charifson. USA, New York: Marcel Dekker, 1997. P. 552.

4. Chemoinformatics Approaches to Virtual Screening, Ed. by a. Varnek, A. Tropsha. England, Cambridge: RSC Publishing, 2008. P. 338.

5. Кубиньи Г. В поисках новых соединений-лидеров для создания лекарств // Рос. хим. ж. (Ж. Рос. хим. об-ва им. Д.И. Менделеева). 2006. Т. L, № 2. С. 5-17.

6. Lengauer Т., Lemmen С., Rarey М., Zimmermann М. Novel technologies for virtual screening // DDT. 2004. V. 9. P. 27-34.

7. Irwin J. J., Shoichet В. K. ZINC A Free Database of Commercially Available Compounds for Virtual Screening // J. Chem. Inf. Model. 2005. V. 45. P. 177-182.

8. Kubinyi H. Computer Applications in Pharmaceutical Research and Development, Ed. by S. Ekins, B. Wang. USA: John Wiley & Sons, 2006. P. 377-424.

9. Reddy A. S., Pati S. P., Kumar P. P. et al. Virtual Screening in Drug Discovery — A Computational Perspective // Current Protein and Peptide Science. 2007. V. 8. P. 329-351.

10. Seifert M. H. J., Lang M. Essential Factors for Successful Virtual Screening // Mini-reviews in medicinal chemistiy. 2007. V. 7. P. 63-72.

11. Muegge I., Oloff S. Advances in virtual screening // Drug Discovery Today: Technologies. 2006. V. 3. P. 405^111.

12. Скворцова M. И., Станкевич И. В., Палюлин В. А., Зефиров Н. С. Концепция молекулярного подобия и ее использование для прогнозирования свойств химических соединений // Успехи химии. 2006. Т. 75. С. 1074-1093.

13. Eckert Н., Bajorath J. Molecular similarity analysis in virtual screening: foundations, limitations and novel approaches // Drug Discovery Today. 2007. V. 12. P. 225 233.

14. Kubinyi H. QSAR: Hansch Analysis and Related Approaches. Germany: VCH Verlagsgesellschaft mbH, 1993. P. 240.

15. Hansch C., Fujita Т. P сг — л - Analysis. A Method for the Correlation of Biological Activity and Chemical Structure // Journal of the American Chemical Society. 1964. V. 86. P. 1616-1626.

16. Беккер Г. Введение в электронную теорию органических реакций. М:Мир, 1977. С. 658.

17. Hansch С., Leo A. Exploring QSAR : Hydrophobic, Electronic and Steric Constants. USA, Washington: ACS, 1998. P. 368.

18. Free S. M., Wilson J. W. A Mathematical Contribution to Structure-Activity Studies // J. Med. Chem. 1964. V. 7. P. 395-399.

19. Филимонов Д. А., Поройков В. В. Прогноз спектра биологической активности органических соединений // Рос. хим. ж. (Ж. Рос. хим. об-ва им. Д.И. Менделеева). 2006. Т. L. С. 66-75.

20. Johnson А. М., Maggiora G. М. Concepts and Applications of Molecular Similarity. USA, New York: John Willey & Sons, 1990. P. 393.23. http://ipac.ac.ru/kb2.html.

21. Todeschini R., Consonni V. Handbook of Molecular Descriptors, Ed. by R. Mannhold, H. Kubinyi, H. Timmerman. Germany: WILEY-VCH Verlag GmbH, 2000. P. 667.

22. Venkatraman V., Perez-Nueno V., Mavridis L., Ritchie D. Comprehensive Comparison of Ligand-Based Virtual Screening Tools Against the DUD Data set Reveals Limitations of Current 3D Methods // J. Chem. Inf. Model. 2010. V. 50. P. 2079-2093.

23. Böhm H.-J., Flohr A., Stahl M. Scaffold hopping // Drug Discovery Today: Technologies. 2004. V. 1. P. 217-224.

24. Maggiora G. M. On outliers and activity cliffs-why QS AR often disappoints // J. Chem. Inf. Model. 2006. V. 46. P. 1535-1535.

25. Virtual Screening: Principles, Challenges, and Practical Guidelines, Volume 48, Ed: by C. Sotriffer, R. Mannhold, H. Kubinyi, G. Folkers. Germany, Weinheim: Wiley-VCH Verlag GmbH & Co. KgaA, 2011. P. 550.

26. Varnek A., Baskin I. Chemoinformatics as a Theoretical Chemistry Discipline // Mol. Inf. 2011. V. 30. P. 20-32.

27. Schneider G., Neidhart W., Giller Т., Schmid G. "Scaffold-Hopping" by Topological Pharmacophore Search: A Contribution to Virtual Screening // Angewandte Chemie International Edition. 1999. V. 38. P. 2894-2896.

28. Reymond J.-L., Deursen R., Blum L. C., Ruddigkeit L. Chemical space as a source for new drugs //Med. Chem. Commun. 2010. V. 1. P. 30-38.32. http://www.daylight.com/dayhtml/doc/theory/theory.finger.html.

29. Baldi P., Brunak S., Chauvin Y. et al. Assessing the accuracy of prediction algorithms for classification: an overview // Bioinformatics Review. 2000. V. 16. P. 412^24.

30. Guha R., Drie J. Structure-Activity Landscape Index: Identifying and Quantifying Activity Cliffs // J. Chem. Inf. Model. 2008. V. 48, no. 3. P. 646-658.

31. Wassermann A. M., Bajorath J. Chemical Substitutions That Introduce Activity Cliffs Across Different Compound Classes and Biological Targets // J. Chem. Inf. Model. 2010. V. 50. P. 1248-1256.

32. Mahe P., Ralaivola L., Stoven V., Vert J.-P. The Pharmacophore Kernel for Virtual Screening with Support Vector Machines // J. Chem. Inf. Model. 2006. V. 46. P. 2003-2014.

33. Mohr J. A., Jain B. J., Obermayer K. Molecular Kernels: A Descriptor- and Alignment-Free Quantitative Structure-Activity Relationship Approach // J. Chem. Inf. Model. 2008. V. 48. P. 1868-1881.

34. Ralaivola L., Swamidass S. J., Saigo H., Baldi P. Graph kernels for chemical informatics // Neural Networks. 2005. V. 18. P. 1093-1110.

35. Жохова H. И., Баскин И. И., Бахронов Д. К. и др. Метод непрерывныхмолекулярных полей в поиске количественных соотношений структура-активность // ДАН. 2009. Т. 429. С. 201-205.

36. Zupan J., Gasteiger J. Neural networks in chemistry and drug design. An introduction. Germany: Wiley-VCH Verlag GmbH & Co. KgaA, 1999. P. 400.

37. Баскин И. И., Палюлин В. А., Зефиров Н. С. Многослойные персептроны в исследовании зависимостей "структура-свойство" для органических соединений // Рос. хим. ж. (Ж. Рос. хим. об-ва им. Д.И. Менделеева). 2006. Т. L. С. 86-96.

38. Chen N., Lu W., Yang J., Li G. Support vector machine in chemistry. Singapore: World Scientific Publishing Co. Pte. Ltd., 2004. P. 331.

39. Bruno-Blanch L., Galvez J., Garcia-Domenech R. Topological virtual screening: a way to find new anticonvulsant drug from chemical divertsity // Bioor-ganic & medicinal chemistry letters. 2003. V. 13. P. 2749-2754.

40. Su В., Shen M., Esposito E. X. et al. In Silico Binary Classification QSAR Models Based on 4D-Fingerprints and МОЕ Descriptors for Prediction of hERG Blockage // J. Chem. Inf. Model. 2010. V. 50. P. 1304-1318.

41. Rodgers S. Characterizing bitterness: identification of key structural features and development of a classification model // J. Chem. Inf. Model. 2006. V. 46. P. 569-576.

42. Jaworska J., Nikolava-Jeliazkova N., Aldenberg T. QSAR Applicability Domain Estimation by Projection of the Training Set in Descriptor Space: A

43. Review // ATLA. 2005. V. 33. P. 445-459.

44. Baskin I. I., Kireeva N., Varnek A. The One-Class Classification Approachto Data Description and to Models Applicability Domain // Mol. Inf. 2010. V. 29. P. 581-587.

45. Dimitrov S., Dimitrova G., Pavlov T. et al. A Stepwise Approach for Defining the Applicability Domain of SAR and QSAR Models // J. Chem. Inf. Model. 2005. V. 45. P. 839-849.

46. Lee H.-J., Cho S., Shin M.-S. Supporting diagnosis of attention-deficit hyperactive disorder with novelty detection // Artificial Intelligence in Medicine. 2008. V. 42. P. 199 212.

47. Yousef M., Jung S., Showe L. C., Showe M. K. Learning from positive examples when the negative class is undetermined- microRNA gene identification // Algorithms for Molecular Biology. 2008. V. 3. P. 1-9.

48. Markou M., Singh S. Novelty detection: a review — part: statistical approaches // Signal Processing. 2003. V. 83. P. 2481-2497.

49. Markou M., Singh S. Novelty detection: a review — part 2: neural network based approaches // Signal Processing. 2003. V. 83. P. 2499-2521.

50. Spinosa E., de Carvalho A. Support vector machines for novel class detection in Bioinformatics // Genetics and Molecular Research. 2004. V. 4. P. 608-615.

51. Dreiseitl S., Osl M., Scheibbock C., Binder M. Outlier Detection with One-Class SVMs: An Application to Melanoma Prognosis // AMIA 2010 Symposium Proceedings. 2010. P. 172-176.

52. Roth V. Kernel Fisher Discriminants for Outlier Detection // Neural Computation. 2006. V. 18. P. 942 960.

53. Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey // ACM Computing Surveys. 2009. V. 41. P. 1-72.

54. Xu Y., Brereton R. G. Diagnostic Pattern Recognition on Gene-Expression Profile Data by Using One-Class Classification // J. Chem. Inf. Model. 2005. V. 45. P. 1392-1401.

55. Fechner N., Jahn A., Hinselmann G., Zell A. Estimation of the applicability domain of kernel-based machine learning models for virtual screening // Journal of Cheminformatics. 2010. V. 2. P. 20.

56. Hristozov D., Oprea Т. I., Gasteiger J. Ligand-Based Virtual Screening by Novelty Detection with Self-Organizing Maps // J. Chem. Inf. Model. 2007. V. 47. P. 2044-2062.

57. Callan R. The essence of neural networks. USA, New-York: Prentice Hall, 1997. P. 189.

58. Хайкин С. Нейронные сети. Полный курс. Вильяме, 2008. С. 1103.

59. Egmont-Petersen М., de Ridder D., Handels H. Image processing with neural networks-a review // Pattern Recognition. 2002. V. 35. P. 2279 2301.

60. Baxt W. G. Use of an Artificial Neural Network for the Diagnosis of Myocardial Infarction//Annals of Internal Medicine. 1991. V. 115. P. 843-848.

61. Hunt K., Sbarbaro D., Zbikowski R., Gawthrop P. Neural networks for control systems—A survey // Automatica. 1992. V. 28. P. 1083 1112.

62. Bonachera F., Parent В., Barbosa F. et al. Fuzzy tricentric pharmacophore fingerprints. 1. Topological Fuzzy pharmacophore triplets and adapted molecular similarity scoring schemes // J. Chem. Inf. Model. 2006. V. 46. P. 2457-2477.

63. Дебок Г., Кохонен Т. Анализ финансовых данных с помощью самоорганизующихся карт. Альпина Паблишер, 2001. С. 317.

64. Баскин И. И. Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов.: Докторская диссертация / Москва. МГУ им. М.В. Ломоносова, Химический факультет. 2010.

65. Kohonen Т. Self-Organizing Maps. Germany, Berlin: Springer-Verlag., 2001. P. 501.

66. Gini G., Craciun M., König С. Combining Unsupervised and Supervised Artificial Neural Networks to PredictAquatic Toxicity // J. Chem. Inf. Comput. Sei. 2004. V. 44. P. 1897-1902.

67. Hinton G. E., Salakhutdinov R. R. Reducing the Dimensionality of Data with Neural Networks // Science. 2006. V. 313. P. 504-507.

68. Vapnik V. The Nature of Statistical Learning Theory. USA, New-York: Springer-Verlag, 1995. P. 314.

69. Brereton R. G., Lloyd G. R. Support Vector Machines for classification and regression//Analyst. 2010. V. 135. P. 230-267.

70. Ivanciuc O. Applications of Support Vector Machines in Chemistry, Ed. by К. B. Lipkowitz. Wiley: VCH, Weinheim, 2007. V. 23. P. 291-400.

71. Liew C. Y., Ma X. H., Liu X., Yap C. W. SVM Model for Virtual Screening of Lck Inhibitors // J. Chem. Inf. Model. 2009. V. 49. P. 877-885.

72. Zhang Y. Fault Detection and Diagnosis of Nonlinear Processes Using Improved Kernel Independent Component Analysis (KICA) and Support Vector Machine (SVM) // Industrial & Engineering Chemistry Research. 2008. V. 47. P. 6961-6971.

73. Gregory-Puigjiane E., Mestres J. SHED: Shannon entropy descriptors from topological feature distribution // J. Chem. Inf. Model. 2006. V. 46. P. 1615-1622.

74. Chang-Yu Hu L. H. On highly discriminating molecular topological index // J. Chem. Inf. Comput. Sci. 1996. V. 36. P. 82-90.

75. Ren B. Novel atom-type AI indices for QSPR studies of alcohols // Computers and Chemistry. 2002. V. 26. P. 223-235.

76. Артеменко H. В., Баскин И. И., Палюлин В. А., Зефиров Н. С. Искусственные нейронные сети и фрагментный подход в прогнозировании физико-химических свойств органических соединений // Изв. АН., сер. хим. 2003. Т. 1. С. 19-27.

77. Жохова Н. И., Баскин И. И., Палюлин В. А. и др. Расчёт энтальпий.субли-маций методом QSPR с применением фрагментного подхода // Ж. Прикл. Химии. 2003. Т. 76. С. 1966-1970.

78. Жохова Н. И., Баскин И. И., Палюлин В. А. и др. Фрагментные дескрипторы в QSPR: применение для расчёта магнитной восприимчивости // Ж. Структ. Химии. 2004. Т. 45. С. 626-635.

79. Жохова Н. И., Баскин И. И., Палюлин В. А. и др. Фрагментные дескрипторы в QSPR: применение для расчёта температуры вспышки // Изв. АН. Сер. Хим. 2003. Т. 9. С. 1787-1793.

80. Жохова Н. И., Баскин И. И., Палюлин В. А. и др. Исследование сродства красителей к целлюлозному волокну в рамках фрагментного подхода в QSPR // Жур. Прикл. Химии. 2005. Т. 78. С. 1034-1037.

81. Жохова Н. И., Баскин И. И., Палюлин В. А. и др. Фрагментные дескрипторы в QSPR: применение для расчета поляризуемости молекул // Изв. АН. Сер. Хим. 2003. Т. 5. С. 1005-1009.

82. Carhart R., Smith D., Ventkataraghavan R. Atom Pairs as Molecular Features in structure-activity studies: definition and applications // J. Chem. Inf. Comput. Sci. 1985. V. 25. P. 64-73.

83. Avidon V. V., Pomerantsev I. A., Golender V. E., Rozenblit A. B. Structure-activity relationship oriented languages for chemical structure representation // J. Chem. Inf. Comput. Sci. 1982. V. 22, no. 4. P. 207-214.

84. Floyd R. W. Algorithm 97: Shortest path // Commun. ACM. 1962, —June. V. 5. P. 345.

85. Cramer R. I., Patterson D., Bunce J. Comparative Molecular Field Analysis (CoMFA). 1. Effect of Shape on Binding of Steroids to Carrier Proteins // J. Am. Chem. Soc. 1988. V. 110. P. 5959-5967.

86. Жохова H. И., Баскин И. И., Карпов П. В. и др. Построение моделей "структура-активность" при помощи непрерывных молекулярных полей // 7-я Всероссийская конференция "Молекулярное моделирование". Москва. 2011. С. 23.

87. Baskin 1.1., Carpov P. V., Zhokhova N. I., Zefirov N. S. The Use of Continuous Molecular Fields and Quantum Similarity Measures in SAR/QSAR/QSPR

88. Structure- based Approaches // 6th German Conference on Chemoinformatics. Abstract Book. Goslar. 2010. P. 73.

89. Осолодкин Д. И. Молекулярный дизайн потенциальных ингибиторов ки-назы гликогенсинтазы 3: Кандидатская диссертация / МГУ им. М.В. Ломоносова, Химический факультет. 2011.

90. Женодарова С. М. Низкомолекулярные ингибиторы каспаз // Успехи химии. 2010. Т. 79. С. 135-160.

91. Liu Т., Lin Y., Wen X. et al. BindingDB: a web-accessible database of experimentally determined protein-ligand binding affinities // Nucleic Acids Research. 2007. V. 35. P. D198-D201.

92. Chen X., Liu M., Gilson M. BindingDB: A Web-accessible molecular recognition database // Comb. Chem. High Throughput Screen. 2002. У 4. P. 719-725.

93. Chen X., Lin Y., Liu M., Gilson M. The binding database: Data management and interface design//Bioinformatics. 2002. V. 18. P. 130-139.

94. Chen X., Liu M., Gilson M. The binding database: Overview and user's guide//Biopolymers/Nucleic Acid Sci. 2002. V. 61. P. 127-141.

95. Карпов П. В., Баскин И. И., Палюлин В. А., Зефиров Н. С. Виртуальный скрининг на основе одноклассовой классификации // ДАН. 2011. Т. 437. С. 642-646.

96. Карпов П. В., Баскин И. И., Жохова Н. И., Зефиров Н. С. Метод непрерывных молекулярных полей в задаче одноклассовой классификации // ДАН. 2011. Т. 440. С. 480-483.

97. Karpov P. V., Osolodkin D. I., Baskin 1.1, et al. One-class classification as a novel method of ligand-based virtual screening: the case of glycogen synthase kinase 3/? inhibitors // Bioorganic & Medicinal Chemistry Letters. 2011. V. 21. P. 6728-6731.

98. Poroikov V., Lagunin A., Zakharov A. et al. Computer-aided approaches to virtual screening and rational drug design of multitargeted drugs // Books of abstracts. Methods and Applications of Computational Chemistry. 2011. P. 26.

99. Li Q., Jorgensen F. S., Oprea T. et al. hERG Classification Model Based on a Combination of Support Vector Machine Method and GRIND Descriptors // Molecular Pharmaceutics. 2008. V. 5. P. 117-127.

100. Thai K.-M., Ecker G. F. A binary QSAR model for classification of hERG potassium channel blockers // Bioorganic & Medicinal Chemistry: 2008. V. 16, no. 7. P. 4107-4119.

101. Mai A., Artico M., Rotili D. et al. Synthesis and Biological Properties of Novel 2-Aminopyrimidin-4(3H)-ones Highly Potent against HIV-1 Mutant Strains // J. Med. Chem. 2007. V. 50. P. 5412-5424.

102. Rotili D., Tarantino D., Artico M. et al. Diarylpyrimidine-Dihydrobenzy-loxopyrimidine Hybrids: New, Wide-Spectrum Anti-HIV-1 Agents Active at (Sub)-Nanomolar Level // J. Med. Chem. 2011. V. 54. P. 3091-3096.

103. Benigni R. Structure Activity relationship studies of chemical mutagens and carcinogens: mechanistic investigations and prediction approaches // Chem. Rev. 2005. V. 105. P. 1767-1800.

104. Zhang O., Aires-de Sousa J. Random Forest Prediction of Mutagenicity from Empirical Physicochemical Descriptors // J. Chem. Inf. Model. 2007. V. 47. P. 1-8.

105. Subhash C. Basak A. T. B. B. D. G., Denise R. Mills. Prediction of Mutagenicity of Aromatic and Heteroaromatic Amines from Structure: A Hierarchical QSAR Approach // J. Chem. Inf. Comput. Sci. 2001. V. 41. P. 671-678.

106. Mazzatorta P., Tran L., Schilter B., Grigorov M. Integration of structure-activity relationships and artificial itelligence systems to improve in silico prediction of ames test mutagenicity // J. Chem. Inf. Model. 2007. V. 47. P. 34-38.

107. Hansen K., Mika S., Schroeter T. et al. Benchmark Data Set for in Silico Prediction of Ames Mutagenicity // J. Chem. Inf. Model. 2009.

108. Muratov E. N., Fourches D., Artemenko A. G. et al. Consensus QSAR Modeling of Ames Mutagenicity // Books of abstracts. Methods and Applications of Computational Chemistry. 2011. P. 24.

109. Benigni R., Bossa C. Structural Alerts of Mutagens and Carcinogens // Current Computer Aided Drag Design. 2006. V. 2, no. 2. P. 169-176.

110. Votano J. R., Parham M., Hall L. H. et al. Three new consensus QSAR models for the prediction of Ames genotoxicity // Mutagenesis. 2004. V. 19. P. 365-377.

111. Тихонова И. Г., Баскин И. И., Палюлин В. А., Зефиров Н. С. Виртуальный скрининг баз данных органических соединений. Создание сфокусированных библиотек потенциальных лигандов NMDA- и АМРА-рецеп-торов //Изв. АН. Сер. Хим. 2004. Т. 6. С. 1282.

112. Wang R., Gao Y., Lai L. LigBuilder: A Multi-Purpose Program for Structure-Based Drug Design // Journal of Molecular Modeling. 2000. V. 6. P. 498-516.

113. Jones G., Willett P., Glen R. C. et al. Development and validation of a genetic algorithm for flexible docking // Journal of Molecular Biology. 1997. V. 267. P. 727 748.

114. Vadivelan S., Deeksha Т., Arun S. et al. Virtual screening studies on HIV-1 reverse transcriptase inhibitors to design potent leads // European Journal of Medicinal Chemistry. 2011. V. 46, no. 3. P. 851 859.

115. Curreli F., Zhang H., Zhang X. et al. Virtual screening based identification of novel small-molecule inhibitors targeted to the HIV-1 capsid // Bioorganic & Medicinal Chemistry. 2011. V. 19. P. 77 90.

116. Ning Y., Ни M., Jian L. et al. Receptor-based Molecular Designs of DABO Derivatives as HIV-1 Nonnucleoside Reverse Transcriptase Inhibitors // Chinese J. Struct. Chem. 2011. V. 30. P. 390-400.

117. Brik A., Wong C.-H. HIV-1 protease: mechanism and drug discovery // Org. Biomol. Chem. 2003. V. 1. P. 5-14.

118. Somsak L., Nagy V., Hadady Z. et al. Glucose Analog Inhibitors of Glycogen Phosphorylases as Potential Antidiabetic Agents: Recent Developments // Curr. Pharm. Des. 2003. V. 9. P. 1177-1189.

119. Boger D. L., Wilson I. A. Inhibitors of glycinamide ribonucleotide trans-formylase http://www.freepatentsonline.com/y2007/0167377.html. 2007.

120. Минушкина JI. О., Затейщиков Д. А. Блокада минералокортикоидных рецепторов в терапии сердечно-сосудистых заболеваний // Фарматека. 2003. Т. 75.

121. Markert M. L. Purine nucleoside phosphorylase deficiency // Immunodefic. Rev. 1991. V. 3. P. 45-81.

122. Daelemans D., Esté J. A., Witvrouw M. et al. S -Adenosylhomocysteine Hydrolase Inhibitors Interfere with the Replication of Human Immunodeficiency Virus Type 1 through Inhibition of the LTR Transactivation // Mol. Pharmacol. 1997. V. 52. P. 1157-1163.

123. Sen В., Johnson F. M. Regulation of Src Family Kinases in Human Cancers // Journal of Signal Transduction. 2011. P. 1-14.

124. Овчинников Ю. А. Биоорганическая химия. M: Провещение, 1987. С. 816.

125. Бакшеев В. И., Коломоец H. М. Ингибиторы фосфодиэстеразы реалии и перспективы использования в клинической практике (прошлое, настоящее и будущее силденафила) // Клиническая медицина. 2007. Т. 3.1. С. 4-11.