Прогноз и молекулярный дизайн гетероорганических соединений с комплексом заданных свойств тема автореферата и диссертации по химии, 02.00.17 ВАК РФ
Кирлан, Владислав Владимирович
АВТОР
|
||||
кандидата химических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Уфа
МЕСТО ЗАЩИТЫ
|
||||
2003
ГОД ЗАЩИТЫ
|
|
02.00.17
КОД ВАК РФ
|
||
|
На правах рукописи
КИРЛАН ВЛАДИСЛАВ ВЛАДИМИРОВИЧ
ПРОГНОЗ И МОЛЕКУЛЯРНЫЙ ДИЗАЙН ГЕТЕРООРГАНИЧЕСКИХ
СОЕДИНЕНИЙ С КОМПЛЕКСОМ ЗАДАННЫХ СВОЙСТВ (РАЗРАБОТКА МЕТОДОВ, ПРОГРАММНАЯ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ)
02.00.17 - Математическая и квантовая химия
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата химических наук
Уфа-2003
Работа выполнена в Уфимском государственном нефтяном техническом университете и Научно-исследовательском технологическом институте гербицидов и регуляторов роста растений Академии Наук Республики Башкортостан
Научный руководитель:
Официальные оппоненты:
Ведущая организация:
доктор химических наук, профессор Тюрина Лидия Аркадьевна
доктор химических наук, профессор Халилов Леонард Мухибович
доктор технических наук, профессор Умергалин Талгат Галеевич
Челябинский государственный университет
Защита состоится « 18 » декабря 2003 г. в 14 часов 00 минут на заседании диссертационного совета Д 212.013.10 при Башкирском государственном университете по адресу: 450074, Уфа, ул. Фрунзе, 32, химический факультет.
С диссертацией можно ознакомиться в библиотеке Башкирского государственного университета
Автореферат разослан « 17 » ноября 2003 г.
Ученый секретарь диссертационного совета, доктор химических наук, профессор
С.Л.Хурсан
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Для поиска и целенаправленного синтеза соединений с определенными характеристиками наряду с традиционными методами в настоящее время достаточно активно привлекаются методы "компьютерной химии и анализа связи «структура - свойства». Их использование позволяет выявлять скрытые закономерности и теоретически оценивать комплекс свойств химических соединений ещё на досинтетической стадии и стадии тестирования.
При целенаправленном синтезе наиболее существенным моментом, наряду с прогнозом, является конструирование новых соединений с заданным комплексом свойств. Это позволяет исключить нежелательные варианты на ранних стадиях планирования синтеза, предложить оптимальные структуры эффективных и токсикологически безопасных соединений, тем самым снизить затраты ресурсов на синтез и испытания. Для анализа связи «структура-свойства» и прогноза разработаны подходы и успешно эксплуатируются ряд систем, таких как PASS, MFTA, HYBOT, CoMFA и др. С их помощью можно прогнозировать разнообразные характеристики, в том числе и комплекс свойств. Однако, не всегда системы ориентированны на процедуры формализованного компьютерного дизайна конкретных соединений с комплексом свойств, особенно на основе фрагментарного подхода.
Некоторые свойства химических соединений имеют широкий диапазон количественных значений (например, токсикологические характеристики, такие как острая токсичность ЛД50 и др.). На практике часто ориентируются на их интервальные значения (например, классы опасности, токсичности и пр.). При исследовании связи «структура - свойства» ориентация на определённые интервальные значения, корректно отражающие изменение этих свойств, более предпочтительна. Прогноз интервальных значений соответствует большинству практических задач. Реализация результатов при дизайне конкретных соединений однозначна и имеет минимум неопределённости, тогда как реализация количественных результатов в процедурах дизайна неоднозначна и практически неприемлема.
В связи с этим возникает необходимость разработки методов оценки комплекса свойств, в том числе с широким диапазоном измерений, результаты которых можно было бы активно и ной системы) ис-
пользовать не только для прогноза, но и на стадии конструирования. Поэтому исследования в этом направлении перспективны и актуальны.
Цель работы: создание и реализация в практических исследованиях модулей компьютерной системы молекулярного дизайна и прогноза гегероорга-нических соединений с заданными свойствами.
В соответствии с поставленной целью проведены исследования и получены результаты по трём направлениям:
1. Разработка математических методов для отдельных модулей системы анализа связи «структура-свойства».
2. Программная реализация разработанных модулей и создание компьютерной системы.
3. Исследование связи «структура-свойства», дизайн и прогноз на основе сформированной системы.
Научная новизна. Впервые путём понижения размерности признакового пространства на основе принципа максимальной информативности, минимальной взаимозависимости и оптимального «покрытия» новых распознаваемых объектов разработан метод формирования решающего набора признаков для модели распознавания свойств химических соединений.
Разработан новый алгоритм выявления замкнутых подграфов неориентированного графа (циклических фрагментов молекулярных структурных формул), заключающийся во фронтальном параллельном рассмотрении всех возможных ребер и цепей, исходящих из каждой вершины графа.
Разработан метод прогнозной оценки свойств соединений, имеющих широкий диапазон оценок, для которого не может быть применена обычная дихотомическая процедура формирования модели. Сущность метода заключается в последовательном ступенчатом сужении прогнозируемых интервалов в рамках комплекса иерархических моделей. Границы интервалов устанавливаются автоматически путем оптимизации распознавания свойств соединений на стадии формирования моделей, а также алгоритмов прогноза.
Практическая значимость. Созданная компьютерная система анализа связи «структура - свойства» с использованием разработанных методов и алгоритмов, иерархические комплексы прогноза токсичности и база знаний, содержащая материалы по целенаправленному конструированию производных бен-зимидазола, оксщарбоновых кислот, сульфонилмочевины применяются:
в научно-исследовательской работе НИТИГ АН РБ при выборе оптимальных направлений целенаправленного синтеза и для оценки токсичности новых химических соединений; в научных работах сотрудников и аспирантов кафедры физики УГНТУ и УТИС при исследовании связи «структура - свойства»; в образовательном процессе и при экспресс оценки острой токсичности биологически активных соединений на кафедре гигиены БГМУ.
Апробация работы Основные положения и результаты диссертационной работы докладывались и обсуждались на республиканской научно-практической конференции молодых учёных (Уфа, 2000); конференции «Новые достижения в химии карбонильных и гетероциклических соединений» (Саратов, 2000); ХП1 Международной научной технической конференции «Химические реактивы, реагенты и процессы малотоннажной химии» (Тула, 2000); международной научно-практической конференции «Современные информационные технологии» (Пенза, 2000); международной научно-практической конференции «Методы и алгоритмы прикладной математики в технике, медицине и экономике» (Новочеркасск, 2001); П Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах» (Новочеркасск, 2001).
Публикации. По теме диссертации опубликовано 4 статей и 12 тезисов докладов.
Структура и объем диссертации. Материалы диссертационной работы изложены на 187 страницах, состоит из введения, литературного обзора, основной части, выводов, списка литературы (135 ссылок), включает рисунков таблиц, дополнительный том листинга программ (149 страниц).
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
В введении обосновывается актуальность работы, определяются основные направления и цель исследований, научная новизна и практическая ценность. В первой главе рассмотрены предпосылки, возможности и подходы молекулярного дизайна и прогноза химических соединений с заданными свойствами. Во второй главе отражены вопросы разработки методов, алгоритмов и программной реализации модулей системы исследования связи «структура-свойства», прогноза и дизайна. В третьей главе приведены результаты исследований связи между строением и биологической активностью, дизайна и про-
гноза производных бензимидазола по одному целевому свойству с использованием разработанных методов и созданной версии системы БА1Ш-21. В главе четыре приведены результаты формирования индивидуальных математических моделей, прогнозирующего иерархического комплекса и прогностической системы интервальных оценок острой токсичности ЛД50 производных алканоксикарбоновых кислот. В главе пять приведены данные комплексного дизайна и прогноза по нескольким видам биологической активности и токсичности, полученные для производных сульфонилмочевин и окси-карбоновых кислот. В главе шесть дано описание и практическая реализация модифицированной системе 8А1Ш-21 для анализа связи «структура-свойства».
1. РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МЕТОДОВ ДЛЯ ОТДЕЛЬНЫХ МОДУЛЕЙ СИСТЕМЫ АНАЛИЗА СВЯЗИ «СТРУКТУРА - СВОЙСТВА»
Для получения надёжных и устойчивых решений всех этапов исследования связи между строением и свойствами химических соединений (от подготовки базы данных до формирования математической модели, дизайна и прогноза), на основе разработанной версии компьютерной системы 8АШЭ-21, предложен ряд новых методов и алгоритмов. Основные из них следующие: 1) метод формирования решающего набора признаков; 2) метод выявления циклических фрагментарных дескрипторов; 3) метод формирования иерархических прогнозирующих комплексов для оценки интервальных значений свойств; 4) метод прогноза, отражающий некоторые характеристики моделей распознавания, реализованные на объектах обучения.
Результаты исследований, полученные с применением предложенных методов, и сравнение их с другими приведены в разделах, отражающих конкретные результаты: формирование иерархического прогнозирующего комплекса производных оксиалканкарбоновых и оксифеноксикарбоновых кислот (глава 3); анализ связи между строением и биологической активностью производных бензимидазола (глава 4); дизайна и прогноза соединений с комплексом свойств (разные типы биологической активности и токсичность, глава 5).
1.1. Разработка метода формирования решающего набора признаков
В разрабатываемой нами системе анализа связи между строением и свойствами химических соединений для описания структур используется фрагментарный метод (субструктурный подход).
С целью получения достоверных моделей распознавания свойств химических соединений для исследуемой группы структур (в рамках принятого в системе прогноза фрагментарного описания) оценивается максимально возможное число признаков. Для этого генерируются субструктурные дескрипторы «п»-го окружения (первого, второго и т.д.). В этом случае наблюдается "вложенность" дескрипторов. Кроме этого генерируются логические сочетания фрагментов в виде конъюнкций и дизъюнкций. Для классификации исследуемых соединений образующееся пространство исходных признаков является избыточным, как по числу признаков (до миллиона на массиве из 300-400 соединений), так и по содержащейся в нём информации.
Поскольку для анализа связи «структура-свойства» используются ограниченное число объектов, то для формирования решающего набора признаков (РНП) (оптимизированного признакового пространства) используется критерий теории распознавания образов (ТРО), который основан на минимизации числа признаков, при условии сохранения разделимости групп (классов) объектов, альтернативных по своим свойствам. В соответствии с этим критерием отношение числа объектов (структур) обучения (п) к числу параметров в наборе (т), при помощи которого производится классификация, должно иметь величину к>3. Таким образом, при формировании правил распознавания и прогноза свойств химических соединений возникает характерная для задач распознавания образов необходимость понижения размерности признакового пространства. В предыдущих версиях системы SARD при формировании РНП для сокращения признакового пространства был реализован модифицированный принцип «К-ограничения» Бонгарда, с последующим сокращением числа признаков по порогу информативности. При таком подходе в РНП часто не были представлены компактные, но малочисленные подмножества объектов, что приводило к снижению надёжности прогноза.
Для понижения размерности признакового пространства при формировании решающего набора признаков нами предложен новый подход, основанный на трёх принципах: максимальной информативности, минимальной взаи-
мозависимости признаков и «оптимального покрытия» ("узнавания") анализируемых объектов. Отбор признаков производится в два этапа.
На первом этапе в соответствии с принципами максимальной информативности и минимальной взаимозависимости из полного признакового пространства отбирается совокупность «признаков - претендентов».
На втором этапе производится сокращение числа «признаков-претендентов» с использованием принципа «оптимального узнавания» и формирование РНП.
Решение о занесении «признака-претендента» в состав РНП осуществляется по результатам последовательной проверки соответствия «признака-претендента» критериям К1 и К2. Критерий К1 описывает разделяющую способность ¡-ого признака, определяемую по минимальному числу «узнаваемых» объектов своего класса. Критерий К2 характеризует «новизну» признака и определяется на основе эвристического порога, регулирующего максимальное число признаков, которыми может быть классифицирован данный объект. Дня критериев К1 и К2 задаются возможные интервалы значений и производится автоматический их перебор. Проверка качества сформированного РНП, как при каждом значении критериев, так и конечного осуществляется с помощью двух методов ТРО: геометрического подхода и метода голосования. Выбор конечного РНП для модели прогноза производится по максимальной распознающей способности, полученной при соответствующих критериях К1 и К2.
Таблица 1. Некоторые характеристики моделей распознавания, сформирован-
ные с помощью разных методов фо| змирования РНП
Модели* Число признаков в полном признаковом пространстве Число признаков в РНП Распознавания соединений групп А и В, % по алгоритмам
Геометрии голосования
Ml 28511 15 96/80 96/80
Mia 15 78/95 78/65
М2 84117 8 93/95 93/85
М2а 17 88/90 88/75
МЗ 141709 10 96/80 96/80
МЗа 14 91/90 81/80
* - Модели М1-МЗ сформированы на основе разработанного метода формирования РНП (принцип оптимального узнавания; модули Reduce 3, Reduce 4); М1а-М3а без реализации принципа оптимального узнавания.
Предложенный подход формирования РНП позволил исключить принятие субъективных решений, выбрать оптимальные варианты и повысить надежность прогностических моделей (табл.1).
1.2. Разработка алгоритма выявления циклических фрагментов
Структура химического соединения, включая циклические фрагменты, на первом этапе дезагрегируется на отдельные фрагменты (дескрипторы). Далее они усложняются, возможно, до полной структуры. При этом циклические фрагменты заново формируются. Таким образом, циклические системы имеют двойственное представление (в виде циклов и в виде составляющих их фрагментов). Хотя эта информация является избыточной, но она не является отрицательным фактором, так как имеется алгоритм сокращения избыточного пространства. Циклические фрагменты, как правило, имеют небольшую общность, и представляют небольшие компактные непересекающиеся подмножества объектов в каждой из альтернативных групп. Поэтому они чрезвычайно важны для повышения уровня распознавания, при условии корректной и однозначной идентификации циклов, как в дезагрегируемых структурах, так и в словарях циклических фрагментов.
Структура химического соединения представляет собой молекулярный, неориентированный граф (например граф А, & — теку-0 щая вершина, 1-12 - номера вершин). В этом графе необходимо выявить замкнутые цепи (циклы) где & — начальная вершина цепи; щ, - конечная вершины » цепи. Цепь является замкнутой (циклом) при условии и содержит больше чем одно ребро.
Суть алгоритм заключается во фронтальном параллельном рассмотрении всех возможных ребер и цепей, исходящих из каждой вершины графа.
Поиск замкнутой цепи начинается с произвольной вершины а (в данном случае 1=1). Рассматриваются все связи этой вершины с другими (т.е. получаем {81->&} и {й1—>ёб})- Затем дописываем все связи добавленных вершин (получаем последовательности ребер {£1—>§2—>&} и и т.д.) до тех пор, пока не будут обнаружены циклы (например,
или обнаружено, что конечная вершина не имеет связей, удовлетворяющих ус-
ловиям: смежная вершина, кроме первой, не должна ранее присутствовать в маршруте; в выявленном цикле не должно быть менее трех вершин. Найденные циклы и тупиковые цепи исключаются из дальнейшего поиска.
Таблица 2. Фрагмент алгоритма «фронтального поиска» замкнутых цепей для
Шаги работы алгоритма
Шаг 1 Шаг 2 ШагЗ Шаг 4 ШагЗ Шаг 6
Маршруты j 1->2' 1->б 1->2-»3 l-WS->5 1->2->3->4 1-*2->3->7 1->6-+5-»4 1-»2-+3-»4->5 1->2->3->7->8 1->2->3->7->12 l-»6->5->4-+3 1-+2-»3-»5-»6 1->2->3->7->8->9 1-»2->3-»7-»12-»11 1-*2-»3->4->5->6->1" 1->2-+3->7->8-»9->10 1->2->3->7->12->11-»10
* - ребра графа; ** - выявленный цикл.
Процедура выполняется до тех пор, пока существует хотя бы одна цепь. После этого переходим на следующую вершину структуры, с которой начинаем формировать новые маршруты поиска.
В результате выявляются все имеющиеся замкнутые цепи. Один и тот же циклический фрагмент может быть выявлен по разным маршрутам поиска (например, {gi-»g2-»g3->g4-+g5->g6-*gi} И {g4-+g5->g6-*gt-»g2->g3-»g4}), то прежде чем рассматривать замкнутую цепь как новый найденный цикл, числовой код найденной цепи приводится к псевдоканоническому виду и сравнивается с уже имеющимися.
Уровень распознавания с циклическими фрагментами, по сравнению с уровнем распознавания без циклических фрагментов, значительно выше (например, на массиве из 111 структур равен 85% и 73% соответсвенно).
Разработанный алгоритма позволил создать конвертор различных систем ввода структурных химических формул (Riga, ChemDraw, IsisDraw), что значительно расширяет возможности применения системы анализа «структура-свойства».
1.3. Разработка метода прогнозной оценки соединений с широким диапазоном опенок свойства
При формировании моделей методами ТРО обычно используется дихотомическая процедура (разбиение на две альтернативные по свойствам группы). Однако, диапазон измерения некоторых свойств (например, острой токсичности) является достаточно большим и при использовании данной процеду-
ры образуются широкие интервалы значений. Следовательно, обычная дихотомическая процедура формирования модели в подобных случаях не может быть применена.
Нами предложен метод прогноза интервальных значений на основе формируемых иерархических прогнозных комплексов. Сущность метода заключается в последовательном ступенчатом сужении прогнозируемых интервалов в рамках комплекса иерархических моделей. Прохождение структурной информации по этому комплексу определяется задаваемой логической схемой, по ходу которой обозначаются более узкие интервалы. Границы интервалов устанавливаются автоматически, путем оптимизации распознавания свойств соединений на стадии формирования моделей, а также алгоритмов прогноза.
Отбор соединений в альтернативные группы из общего банка данных производится автоматически по значениям оценок их свойств, согласно начальным границам интервалов.
Для создания прогнозирующего иерархического комплекса автоматически формируется банк всех возможных моделей (М1 ...М1), отвечающих заданным интервалам пороговых критериев К1 и К2, используемых при формировании РНП для отбора «признаков-претендентов», и заданной нижней границей распознавания соединений в каждой из альтернативных групп (>70%).
Далее, отбираются оптимальные по числу признаков и уровню распознавания РНП, общие или индивидуальные для двух алгоритмов (геометрического подхода и метода голосования). Эти РНП представляют собой рабочие модели и являются элементами прогнозирующего комплекса (ЭПК).
Структура прогнозирующего комплекса определяется логической схемой, которой задаются пути прохождения прогнозируемого объекта в зависимости от того, к какой из альтернативных групп отнесен исследуемый объект.
Алгоритмическая запись приведенного ниже фрагмента комплекса по маршруту отнесения объекта к альтернативным группам (в соответствии с границей разделения) по маршрутам А, В, АА, АВ выглядит следующим образом
{/М1,М2,МЗ}, {А/М1,М2,М8,М9,М11}, {В/М7,М8,М9},{АА/М28,М29,М30}, {АВ/М7,М8,М9}.
В этой записи символ «/» отделяет результат отнесения исследуемого объекта на предыдущих этапах по маршруту следования от совокупности моделей отражающих определенный интервал оценок свойств.
Поскольку каждая совокупность моделей (М1-МЗ; М28-М30 и т.д.) отражает определённый интервал со своими границами, а общие количество моделей может бьггь достаточно большим, то их целесообразно сгруппировать в элемент прогнозирующего комплекса (ЭПК). В этом случае алгоритмическая запись становится более компактной, а использование схемы более наглядным.
Для корректного распознавания соединений в каждом ЭПК предусмотрена процедура голосования решений, принимаемых по каждой модели ЭПК. Выбор решения на каждом шаге производится процедурой голосования решений моделей (нечётное количество) ЭПК с определёнными характеристиками: алгоритм распознавания («геометрический подход» или «голосование»), качественный и количественный состав РНП, уровень распознавания (% правильного распознавания соединений обучения в альтернативных группах).
В соответствии с предложенным методом для прогноза острой токсичности ЛД50 производных алканоксикарбоновых кислот были разработаны 108 рабочих моделей. Исследовано более 500 химических соединений. Интервал значений токсичности от 0.1 до 28000 мг/кг и выше. Достоверность (уровень распознавания) созданных моделей составляет 72-97%.
На основе 108 моделей организован 21 ЭПК со следующими интервалами и границами разделения альтернативных групп (нижняя-средняя-верхняя, мг/кг): 0,1-(150, 500, 800, 1000, 1500, 1800, 2000, 2300, 2500, 3000, 3500, 4500, 5000)-28000; 0,1-150-5000; 0,1-150 / 5000-28000; 150-(500,1000,2000,5000)-5000; 500-1000-5000; 1000-2000-5000. На их основе создан прогнозирующий комплекс (рис.1).
Апробация комплекса на 30 экзаменационных соединениях показала
удовлетворительный уровень правильного распознавания - более 70 %, причем высокотоксичные соединения распознаются полностью правильно. Для некоторых соединений произошло завышение расчётных интервалов токсичности по отношению к опытным данным. Подобная ошибка классифицируется как «ложная тревога» и является более безопасной для прогноза токсичности.
Таким образом, разработанный подход позволяет формировать оптимальные модели прогноза свойств с широким диапазоном оценок. Результаты, полученные при формировании прогностических комплексов в виде оценок характера влияния фрагментов структур на исследуемые свойства, определения расчетных гипотетических эталонов и ранжирование всех исследуемых объектов по отношению к эталонам, используются при дизайне химических соединений с заданным комплексом свойств.
г-
Ввод структурных формул ХС
ЭЛК2\ [0,1-500/>500]
вр
а£
1\ [0.1-150М50] !5\[0,1-150/150-5000]
4\[0,1-1000/>1000] -
-*Ву7_ |13\ [0,1-5000^5000]
-'-,я 14\ [1000-5000/>5000
17\И50-5000/>50001
АХ^В
11* в 1............I « ____
_____ ■ Т --0500-4500)
х^ТтмЬ 13\ [0,1-5000^500(4 17--^
14\ [1000-5000/>500( —12\ [0,1-4500/>4500] I
^ А 17\ [150-5000^*5000] в -1---•*——^
Примечание: число около стрелки означает номер шага; в овалах отражены конечные интервалы опенки свойств (ЛД50 мг/кг); в прямоугольниках отражены номера ЭПК и интервалы значений с границей разделения.
Рис. 1. Иерархический комплекс для прогноза острой токсичности ЛД50.
1.4. Разработка системы прогноза взаимонезависимых свойств на основе банка моделей
Для дифференциации прогностических оценок, а, следовательно, повышения достоверности прогноза мы предложили ввести критерии характеризующие качество моделей, полученное на объектах обучения - КЗ и К4.
К3= Nl/Nmax - учитывает соотношение числа признаков решающего набора в прогнозируемых структурах (N1) и максимальное число признаков РНП на структурах обучения (Nmax). K4=l-Rl/Rmax - отражает сходство с расчет- «
ным эталоном по расстояниям до разделяющей гиперплоскости R1 для прогнозируемой структуры и Rmax для структур обучения.
I
Данные прогноза ранжируются по каждому из четырёх критериев: R1, *
Л2(число голосов по алгоритму «голосование»), КЗ, К4 и по суммарному ран- I
ГУ-
2. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ КОМПЬЮТЕРНОЙ СИСТЕМЫ j
АНАЛИЗА СВЯЗИ «СТРУКТУРА СВОЙСТВА» (SARD-21) I
Все разработанные методы реализованы в виде программных модулей на языках Turbo Pascal, Delphi, Visual Basic для операционных систем Windows'98 и более поздних. Совместно с модифицированными существующими и новыми программными модулями была создана новая версия компьютерной системы анализа связи "структура-свойства" SARD-21. Система имеет «дружественный» современный интерфейс; позволяет вести диспетчеризацию всех процедур и поэтапных результатов расчёта, и их графическое представление (в том числе в традиционном химическом виде); автоматическое привлечение для анализа и интерпретации результатов исследования аппарата других прикладных пакетов *
(таких как MS Excel, ChemDraw, IsisDraw).
3. ИСПОЛЬЗОВАНИЕ РАЗРАБОТАННОЙ СИСТЕМЫ SARD-21 В ДИЗАЙНЕ И ПРОГНОЗЕ БИОЛОГИЧЕСКИ АКТИВНЫХ
СОЕДИНЕНИЙ С ЗАДАННЫМ КОМПЛЕКСОМ СВОЙСТВ
Разработанные методы, алгоритмы и созданная система SARD-21 применены в исследованиях связи между строением и биологической активность
производных бензимидазола1 (ПБИ), комплексном дизайне и прогнозе по нескольким видам биологической активности и токсичности. 3.1. Анализ связи «структура-активность» производных бензимидазола.
Анализ связи ПБИ (структурных анало-
биотестам. Выполнен весь комплекс исследований: сгенерировано и оценено около миллиона структурных дескрипторов; сформированы математические модели распознавания антигельминтной активности (АГА); определён характер влияния структурных параметров; найдены расчетные гипотетические эталоны активности и меры сходства с ними исследуемых производных бензимидазола; определены оптимальные варианты дизайна; сконструированы потенциально активные соединения, прогнозирована их активность. Активность некоторых подтверждена в эксперименте их. Результаты приведены далее.
3.1.1. Модели распознавания: А= Г (5), где А - активность, Р-правило прогноза, (Б) - РНП, сформированный при помощи разработанного метода сокращения размерности признакового пространства и представляющий совокупность структурных дескрипторов. РНП полученных 7 моделей содержат по 10-30 элементов. РНП модели М4 содержит 17 признаков. Наиболее информативные из них, которые характеризуют группу активных соединений содержат
ортозамещённый фенил - { 22; (,Ъ)-(Ат) V (0)-(1,2-Аг) V (С=0)-{1,2-Ат); г=0,508}. { 3; (7УКС=С? V (О)~(2,5~зам.бетимидазол) V (ЫН)-(Б02) ); г=0,479}. Не активные - пара-фенил - {13; ^Н)-(1,4-Аг)-(8) ; г=-0,599}. Достоверность моделей 75% - 98%, что вполне удовлетворительно, как для прогноза, так и для конструирования.
гов структуры Б) проведён на массиве, вклю чающем около 360 соединений по 7 разны»
1 - Исследования по ангигельминтой активности Проведены при участии Пилюгина В С. 3 - Номер признака в РНП, далее -структурный дескриптор (дизъюнкция, конъюнкция или фрагмент) и его информативность. При г>0 -признак характерен для активных соединений, приг<0 для неактивных.
3.1.2. Влияние признаков. Влияние признаков на разные биотесты (модели) показал, что общая направленность их (активные, неактивные) сохраняется (на рисунке 2 даны оценки для циклических фрагментов по двум моделям). Аналогичная направленность наблюдается и для других фрагментов и по другим моделям. Такая картина может быть связана с наличием общего механизма действия. Оценки всех признаков занесены в базу знаний и представляют необходимый для прогноза и конструирования материал.
3.1.3. Дизайн и прогноз. Выявлено, что наиболее перспективными как базовые структуры (максимально приближенные к расчётным эталонам активности) для дизайна новых потенциально активных структур, являются соединения, которые имеют 1,2,5-замещенный бензимидазольный цикл, а также фенил и ряд других фрагментов. Для всех базовых структур определены направления их модификации на основе матрицы теории игр. Наиболее предпочтительным местом замены базовой структуры В является замена серы (рис.3, а, обозначено цифрой 1). В таблице 3 приведена часть матрицы, содержащая данные для 3-ёх из 24 фрагментов рассматриваемой структуры по модели М1.
♦ Модель М1 • Модель М4
Рис.2. Влияние циклических фрагментов на антигельминтную активность ПБИ.
Комплексный анализ мест модификации в графическом и традиционном химическом виде, выполненный с помощью разработанного модуля анализа и
визуализации (рис.3), значительно эффективнее, надёжнее и нагляднее, по сравнению с матричным (табл. 3). Так для трех биотестов (моделей) был бы необходим анализ трёх матриц структуры В с 24 фрагментами каждая. Из графического представления следует, что направленность мест модификации для трёх разных биотестов структуры В согласуется (рис.3,б).
Таблица 3. Матрица* обоснования направлений дизайна и целенаправленного синтеза базовой структуры В, рассчитанная на основе минимаксного критерия теории игр по модели М1_
Очередность замены фрагмента **, тип и код Максимальные/ минимальные оценки вкладов фрагментов, достигаемыми ими на разных уровнях агрегирования (1- исходный, 2 и 3 -двойного и тройного окружения )
1 2 3 Мах**« Min***
1 -S- (1) -0.41 -0.368/-0.441 -0.368/-0.512 -0.368 -0.512
2 -NH- (13) 0.00 0.226/-0.512 0.226/-0.512 0.226 -0.512
3 >S02 (15) 0.23 0.226 / 0.126 0.226 / 0.126 0.226 0.126
'-Приоритет замены по минимаксному критерию (min/max-max, обозначающему минимальную опенку из всех максимальных, достигаемых фрагментом на любом уровне сложности.
** - Max(Min) max из всех (rain) достигаемых фрагментом на любом уровне сложности.
í
м « Т «г> «
« W * ^ «в Г« 000%
П3 Í2§2
>¿ ij» >f о и и
Z я я я
б)
Рис.3. Очередность замены фрагментов при дизайне для производного бензимидазола а) по модели М1, б) по трем моделям.
Из диаграммы следует, что наиболее вероятна замена серы, как по модели М1, так и по всем трем моделям. Замена фрагментов со стороны арилсульфони-ламино группы - нежелательна. По расчётным данным сера может быть заменена на - S02- (г=0,131-226), -SO- (r=0-0,088), -С(0)- (г= 0 по всем моделям). На основе структуры В, а также других базовых структур с более сложными модификациями, сгенерированы потенциально активные соединения. Использование предложенных критериев КЗ и К4 для прогноза позволили выделить из 14 соединений, прогнозируемых как активные, два наиболее перспективных. Таким образом, предложенные критерии способствуют сокращению неопределённости и повышают надёжность прогноза.
Полный комплекс расчётных экспериментов для ПБИ (аналогичный приведенному выше) проведён на основе исходной структурной информации от системы ChemDRAW с применением разработанного метода выявления циклов и созданного конвертора ChemDRAW-Riga (вариант2). Результаты по обоим вариантам, в общем, согласуются, но исходное пространство структурных фрагментов по варианту 2 более детализировано, а распознавания несколько выше (по алгоритму 1 - 79 и 87%, по 2 - 83 и 89%). Обе системы ввода применимы, использование их зависит от задачи (используемых баз данных, банка моделей, направлений конструирования и пр.).
4. КОМПЛЕКСНЫЙ ДИЗАЙН H ПРОГНОЗ ПО НЕСКОЛЬКИМ ВИДАМ АКТИВНОСТИ И ОСТРОЙ ТОКСИЧНОСТИ ЛД50.
На основе полученных моделей антигельминтной активности и прогнозирующей системы по острой токсичности проведёны комплексное конструирование и прогноз.
4.1. Производные бензимидазола
Из фрагментов, оказывающих положительно влияние на антигельминтную активность, в то же время характерные для высокотоксичных соединений, можно отметить аминогруппу, полизамещённый арил, С (О) — С=С—С(0), СО— О-ОС, и др.; для умеренно токсичных СН2 при гетероатоме - С(0), СН3 -С=С: для малотоксичных - S02 в разных сочетаниях {СН3 —С — С (О), NH —
Б03, Л77 - 1,2-Лт^Н -=С-0, С(О) - 1,2-Аг и др. В рамках системы сконструирован ряд потенциальных антигельминтиков. Так, на основе базовой структуры малоактивного соединения Г (активность=45% при дозе 100 мг/кг; ЛД50=500-1000 мг/кг) проведён молекулярный дизайн с целью получения более активных и не токсичных соединений (табл.4). Оптимальной для этого соединения является замена серы и 4-РЬ (первые места замены, рис.4) на более активные и менее токсичные фрагменты: -О- и 2-РЬ-МН (соединения 1-У, рис.4, табл.4).
где оценка информативности по Г и АГА (выделено прямоугольником) даны около стрелок; о-центр активности, А-«антитоксофор»; 1-3 - номер места модификации по ТиАГА (выделено квадратом).
Рис.4. Схема комплексного конструирования по АГА и токсичности ПБИ
Сконструированные соединения прогнозированы как активные и умеренно токсичные. I-V синтезированы (НИТИГ АН РБ, лаборатория B.C. Пилюгна), в эк-перименте получены оценки их антигельминтного и токсичного действия (БГМУ). Расчетные данные подтверждены экспериментальными (табл.4).
Таблица 4. Данные прогноза и испытания биологических свойств производных метилового эфира 2-бензимидазолилкарбаминовой кислоты_
№ X ЛД50, мг/кг АГА, мг/кг
Прогноз Опыт Доза Прогноз Опыт. эфф-ть,%
I СбН5СО 3000-5000 >1000 50 Активные 78
П 2-НООСС6Н4СО 69
III 2-CH3C6H4CO 80
IV СбН5С(СНз)2СО 71
V C6H5S02 69
4.2. Производные сулъфоншшочевины (ПСМ). Для ПСМ, в соответствии с процедурами SARD-21, выявлен характер
19
влияния признаков, определены направления дизайна, сконструированы и прогнозированы гербицидно активные и не токсичные соединения (рис.5).
По данным прогноза сконструированные соединения VI-XV активные. Соединение IX имеет расчетное значение ЛД50 1800-2300 мг/кг; VII, VIII, XI-XV - >5000 мг/кг. Экспериментальные данные по токсичности для VII (ЛД50 для крыс >5000 мг/кг), IX (ЛД50 1446-2500 мг/кг).
^—soa—S—со —ян-
0 /с СЁ
Замена
X], х2
Базовая структура VI: Xi= Cl, Х2= SH:
VH: Х,=Х2=СН3; VIII: X, = COOCH2CFj, Х2=СНз; IX: Xi= СН3,
х2=о
СНз
^—SOj-flH—СО—NH-^
Базовая структура X: Х3=С1._
Xi— Х2—
Замена X,, Х2,
XI-X1II: Xi= ОСН3, XI: Х2= ОСН3, Х3= ОСН3; ХП: Х2= OCH2CF3, Х3= ОСН(С2Н5ХС3Н7); ХШ: Х2= СН3, Х3= СН3; XIV, XV: X,=OCH2CF3, Х2=ОСН3; XIV: Х3=ОСН3; XV: Х3=€1
Рис.5. Структуры, сгенерированные с учетом гербицидной активности и острой токсичности ЛД50.
г*
Примечание 1. указаны места наиболее благоприятной модификации, по гербицидной активности и токсичности [Т] - фрагменты, модификация которых нежелательна с позиции токсичности; |ГА|- замена нежелательна по гербицидной активности для обоих связей 2. Места, неблагоприятные для замен X с позиций гербицидной активности и токсичности, такие же, как VI.
4.3. Производные оксиалкан(арил,гетерил)карбоновых кислот Для производных оксиалкан(арил,гетерил)карбоновых кислот оценено влияние признаков на гербицидную активность (ГА) и токсичность (Т) (рис.6). Сконструированы ряд ГА структур с низкой Т. Так на основе гербицида ме-фенацета (рис.7) получены соединения (ХУП-ХХХ). Для них прогнозированы другие целевые свойства (фунгицидная Ф и рострегулирующая активности РРР, табл. 5).
■од ■ад
ш
14 и
3 12'
£10-
Я 8- я РСК,и
1 6- V ^
& л £ 4 -О-М-1
с 2-
'ИГ'ИГП
Рис. 6. Влияние фрагментов на гербицидную активность (М-6, М-9) и токсичность (Т).
Рис. 7. Обоснование направлений модификации гербицида мефенацет (структуры XVI).
XVII-XX
оЗ-СНгСНгСНгСНэ
XXX
XXI-XXIV ХХУ-ХХ1Х
где, Х=Н (XVII, XXI), 2-Р (XVIII, ХХП), З-Р (XIX, ХХШ), 4-Р (XX, XXIV), Я=Ы02 (XXVI, XXVIII), н (XXVII), С2Н5 (XXVIII); Я,=Н (XXV, XXVII - XXIX); Я2=Н (ХЫХ-ХХУП); С1 (XXVIII), СН3 (XXIX); Я3=Н (XXV-, XXVII, XXIX), С1 (XXVIII), СНз (XXVIII); ХХУ-ХХГХ синтезированы в НИТИГ
Таблица 5. Прогнозные и экспериментальные оценки комплекса свойств
Соединение Прогноз активности Эксперимент
ГА РРР Ф ЛДм, мг/кг
XVII, XIX XX Активные Активные Не актив. 1500-2500 ГА(+)
ХХУ-ХХ1Х Активные Активные Не актив. 800-1000 ГА, РРР (+)
XXX Не актив. Активные Активные 500-800 ГА (-), Ф (+)
ВЫВОДЫ
1. Разработан алгоритм, создано программное обеспечение и предложена новая версия компьютерной системы исследования связи «структура - свойства» химических соединений 8АЖ)-21, обеспечивающая проведение всех этапов исследования - от подготовки базы данных, до дизайна и прогноза, включая аналитическую обработку в числовом и графическом представлении. В рамках предложенной версии реализованы: а) новый подход формирования решающе-
го набора признаков, основанного на принципах теории распознавания образов максимальной информативности, минимальной взаимозависимости и оптимального «покрытия» новых распознаваемых объектов, который может быть применен для других задач теории распознавания образов; б) новый алгоритм выявления циклических фрагментов молекулярных структурных формул, что позволило создать конвертор структурных формул от различных систем ввода; в) новые критерии ранжирования результатов прогноза.
2. Разработан метод прогнозной оценки свойств соединений, имеющих широкий диапазон значений, сущность которого заключается в прогнозировании интервальных оценок в рамках комплекса иерархических моделей. Границы интервалов устанавливаются автоматически, путем оптимизации распознавания на стадии формирования моделей.
3. Разработаны прогнозирующие системы оценки острой токсичности, основанные на сформированных иерархических комплексах и созданных математических моделях (от 30 до 100 и более моделей). Системы использованы для оценки влияния структурных фрагментов на токсичность, необходимых для комплексного дизайна и прогноза значений острой токсичности.
4. Исследована связь между строением и антигельминтной активностью производных бензимидазола: сформированы 7 математических моделей (с достоверностью 75-98%), сконструированы потенциально активные структуры с низкой токсичностью, прогнозированы их активность и токсичность; осуществлен молекулярный дизайн производных сульфонилмочевины, оксикарбоновых кислот и их субструктурных аналогов с комплексом свойств (гербицидной, рос-торегулирующей, фунгицидной активностью и низким уровнем токсичности).
5. Показано, что полученные экспериментальные оценки активности и токсичности соединений, синтезированных по результатам дизайна и прогноза, сочетаются с расчетными данными.
СПИСОК РАБОТ ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Кирлан В.В., Кирлан A.B.. Разработка комбинаторных алгоритмов прогноза комбинационных составов химических продуктов. //Молодые учёные-новому тысячелетию. Сборник научных статей республиканской науч.-практ.конф. молодых учёных. Уфа.-2000-C.176-178.
2. Кирлан A.B., Кирлан С.А., Тюрина О.В., Кирлан В.В., Каримова Ф.С., Халиуллин Ф.А., Тюрина JI.A., Зулькарнаев Т.Р., Кантор Е.А., Валитов Р.Б., Нуриева Г.Ю. Структурные характеристики токсичности производных азолов, выявленные методом SAR// Башкирский химический журнал. - 2000.-Т 7. - №5.-С.32-33.
3. Кирлан A.B., Тюрина JI.A., Кирлан С.А., Кирлан В.В., Колбин A.M., Валитов Р.Б. Компьютерная система прогноза токсичности// Башкирский химический журнал 2001.-Т 8.- №1.- С. 36-39.
4. Альмухаметова Ф.С. (Каримова), Кирлан A.B., Кирлан В.В., Гипьмха-нова В.Т., Кирлан С.А., Кантор Е.А., Тюрина Л.А. Производные мочевины как объекты исследований связи «структура - биологическая активность - токсичность» часть 2. Молекулярный дизайн малотоксичных пестицидно-активных соединений// Известия ВУЗов. Химия и химическая технология - 2002.- Т.45, вып.6,- С. 42-46.
5. Лукманова А.Л., Кирлан A.B., Кирлан В.В., Соломинова Т.С., Кирлан С.А., Коняева A.C., Тюрина Л.А. Молекулярный дизайн малотоксичных гербицидов класса оксикарбоновых кислот// Сборник научных трудов X Всероссийской научной конференции «Новые достижения в химии карбонильных и гетероциклических соединений».- Саратов - 2000.- С. 145-147.
6. Кирлан A.B., Тюрина Л.А., Кирлан В.В., Колбин А.М., Кирлан С.А., Лукманова А.Л.. Интервальный метод прогноза токсичности N, О, S-содержащих гетероциклических соединений. Новые достижения в химии карбонильных и гетероциклических соединенийУ/Сборник научных трудов,- Изд. Саратовского университета - 2000.- С. 92-96.
7. Кирлан В.В., Тюрина Л.А., Кирлан A.B., Каримова Ф.С.. Разработка компьютерной системы прогноза интервальных значений токсичности химических соединений. // Тезисы докладов XIII Международной науч.-техн. Конференции «Химические реактивы, реагенты и процессы малотоннажной химии»-Тула- Изд. им. Л.Н. Толстого.-2000-С.232.
8. Кирлан A.B., Тюрина О.В., Кирлан В.В., Кирлан С.А., Лукманова Л.А. Информационные технологии в прогнозе токсичности// Труды международной научно-технической конференции «Современные информационные технологии».- Пенза - 2000. - С. 11-12.
9. Кирлан С.А., Тюрина О.В., Кирлан В.В., Кирлан A.B., Лукманова А.Л. Комплекс моделей прогноза острой токсичности азот, кислород и серусодер-жащих соединений// Тезисы докладов XIII Международной научно-технической конференции «Химические реактивы, реагенты и процессы малотоннажной химии».- Тула. - 2000,- С. 233.
10. Кирлан A.B., Кирлан CA., Тюрина Л.А., Кирлан B.B. Формирование комплексов моделей прогноза токсичности производных оксикарбоновых кислот// Материалы Международной научно-практической конференции «Моделирование, теория, методы и средства».- Новочеркасск - 2001.- С. 36.
11. Тюрина Л.А., Кирлан A.B., Кирлан С.А., Колбин A.M., Халиуллин Ф.А., Кирлан В.В., Тюрина О.В., Зарудий Ф.С. Целенаправленный синтез производных азолов с заданным комплексом фармакологических и токсикологических свойств// Материалы Первой Международной конференции «Химия и биологическая активность азотистых гетероциклов и алкалоидов».- Москва, 2001.-Т 2.- С. 312.
12. Кирлан A.B., Лукманова А.Л., Кирлан С.А., Каримова Ф.С., Кирлан В.В., Тюрина Л.А., Пилюгин B.C. Структурные предпосылки биологических свойств гетероциклических соединений// Доклады II Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах».- Новочеркасск - 2001.- С. 51-55.
13. Кирлан A.B., Терегулова Г.Т., Кирлан В.В., Тюрина Л.А. Компьютерная система прогноза токсичности. Методы и алгоритмы прикладной математики в технике, медицине и экономике.// Материалы международной науч,-практ. конф.- Новочеркаск.-2001.- часть 5.- С. 7.
14. Кирлан В.В., Терегулова Г.Т., Кирлан A.B., Тюрина Л.А. Использование системой SARD возможностей MS EXCEL 97. Методы и алгоритмы прикладной математики в технике, медицине и экономике.// Материалы международной науч.-практ. конф,- Новочеркасск.-2001,- часть 5.- С. 8.
15. Кирлан В.В., Тюрина Л.А., Кирлан A.B., Кирлан CA., Пшпогин B.C. Разработка интерфейса преобразования компьютерной системы SARD. Компьютерные технологии в науке, производстве, социальных и экономических процессах// Материалы II Международной научно-практической конференции Новочеркасск.-2001- часть1.- С.57-60.
16. Кирлан A.B., Лукманова АЛ., Кирлан С.А., Каримова Ф.С., Кирлан
B.В., Тюрина Л.А., Пилюгин B.C. Структурные предпосылки биологических свойств гетероциклических соединений.// Материалы П Международной научно-практической конференции "Компьютерные технологии в науке, производстве, социальных и экономических процессах".-Новочеркасск.-2001- часть1.-
C.48-51.
Подписано к печати 4.11.03. Формат бумаги 60x84 1/16. Бумага офсетная. Печать трафаретная. Печ. Листов 1,5. Тираж 100 экз. Заказ 297.
Типография Уфимского государственного нефтяного технического университета Адрес: 450062, г. Уфа, ул. Космонавтов, 1.
1. Обзор литературы.
1.1. Предпосылки и возможности молекулярного дизайна и прогноза химических соединений с заданными свойствами.
1.2. Способы описания структуры соединений.
1.3. Характеристика методов выявления закономерностей цБрг и цБаг.
1.4. Подходы и компьютерные системы выявления связи между строением и свойствами химических соединений.
1.5. Характеристики классов исследуемых соединений.
1.5.1. Характеристика производных бензимидазола и их антигельминтная активность.
1.5.2. Анализ зависимостей между строением и гербицидным действием гетероциклических производных амидо-и иминосодержащих гетероциклических соединений.
1.5.3. Характеристика биологической активности производных оксикарбоновых кислот.
Актуальность темы. Для поиска и целенаправленного синтеза соединений с определенными характеристиками наряду с традиционными методами в настоящее время достаточно активно привлекаются методы компьютерной химии и анализа связи «структура - свойства». Их использование позволяет выявлять скрытые закономерности и теоретически оценивать комплекс свойств химических соединений ещё на досинтетической стадии и стадии тестирования.
При целенаправленном синтезе наиболее существенным моментом, наряду с прогнозом, является конструирование новых соединений с заданным комплексом свойств. Это позволяет исключить нежелательные варианты на ранних стадиях планирования синтеза, предложить оптимальные структуры эффективных и токсикологически безопасных соединений, тем самым снизить затраты ресурсов на синтез и испытания. Для анализа связи «структура - свойства» и прогноза разработаны подходы и успешно эксплуатируются ряд систем, таких как PASS, MFTA, HYBOT, CoMFA и др. С их помощью можно прогнозировать разнообразные характеристики, в том числе и комплекс свойств. Однако, не всегда системы ориентированны на процедуры формализованного компьютерного дизайна конкретных соединений с комплексом свойств, особенно на основе фрагментарного подхода.
Некоторые свойства химических соединений имеют широкий диапазон количественных значений (например, токсикологические характеристики, такие как острая токсичность DL50 и др.). На практике часто ориентируются на их интервальные значения (например, классы опасности, токсичности и пр.). При исследовании связи «структура -свойства» ориентация на определённые интервальные значения, корректно отражающие изменение этих свойств, более предпочтительна. Прогноз интервальных значений соответствует большинству практических задач. Реализация результатов при дизайне конкретных соединений однозначна и имеет минимум неопределённости, тогда как реализация количественных результатов в процедурах дизайна неоднозначна и практически неприемлема.
В связи с этим возникает необходимость разработки методов оценки комплекса свойств, в том числе с широким диапазоном измерений, результаты которых можно было бы активно и удобно (в виде компьютерной системы) использовать не только для прогноза, но и на стадии конструирования. Поэтому исследования в этом направлении перспективны и актуальны.
Цель работы: создание и реализация в практических исследованиях модулей компьютерной системы молекулярного дизайна и прогноза гетероорганических соединений с заданными свойствами.
В соответствии с поставленной целью проведены исследования и получены результаты по трём направлениям:
1. Разработка математических методов для отдельных модулей системы анализа связи «структура-свойства».
2. Программная реализация разработанных модулей и создание компьютерной системы.
3. Исследование связи «структура-свойства», дизайн и прогноз на основе сформированной системы.
Научная новизна. Впервые путём понижения размерности признакового пространства на основе принципа максимальной информативности, минимальной взаимозависимости и оптимального «покрытия» новых распознаваемых объектов разработан метод формирования решающего набора признаков для модели распознавания свойств химических соединений.
Разработан новый алгоритм выявления замкнутых подграфов неориентированного графа (циклических фрагментов молекулярных структурных формул), заключающийся во фронтальном параллельном рассмотрении всех возможных ребер и цепей, исходящих из каждой вершины графа.
Разработан метод прогнозной оценки свойств соединений, имеющих широкий диапазон оценок, для которого не может быть применена обычная дихотомическая процедура формирования модели. Сущность метода заключается в последовательном ступенчатом сужении прогнозируемых интервалов в рамках комплекса иерархических моделей. Границы интервалов устанавливаются автоматически путем оптимизации распознавания свойств соединений на стадии формирования моделей, а также алгоритмов прогноза.
Практическая ценность работы. Созданная компьютерная система анализа связи «структура - свойства» с использованием разработанных методов и алгоритмов, иерархические комплексы прогноза токсичности и база знаний, содержащая материалы по целенаправленному конструированию производных бензимидазола, оксикарбоновых кислот, сульфонилмочевины применяются: в научно-исследовательской работе НИТИГ АН РБ при выборе оптимальных направлений целенаправленного синтеза и для оценки токсичности новых химических соединений; в научных работах сотрудников и аспирантов кафедры физики УГНТУ и УТИС при исследовании связи «структура - свойства»; в образовательном процессе и при экспресс оценки острой токсичности биологически активных соединений на кафедре гигиены БГМУ.
Основные положения и результаты диссертационной работы докладывались и обсуждались на республиканской научно-практической конференции молодых учёных (Уфа, 2000); конференции «Новые достижения в химии карбонильных и гетероциклических соединений» (Саратов, 2000); XIII Международной научной технической конференции «Химические реактивы, реагенты и процессы малотоннажной химии» (Тула,
2000); международной научно-практической конференции «Современные информационные технологии» (Пенза, 2000); международной научно-практической конференции «Методы и алгоритмы прикладной математики в технике, медицине и экономике» (Новочеркасск, 2001); II Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах» (Новочеркасск,
2001).
1. Обзор литературы
ВЫВОДЫ
1. Разработан алгоритм, создано программное обеспечение и предложена новая версия компьютерной системы исследования связи «структура — свойства» химических соединений 8АШ)-21, обеспечивающая проведение всех этапов исследования - от подготовки базы данных, до дизайна и прогноза, включая аналитическую обработку в числовом и графическом представлении. В рамках предложенной версии реализованы: а) новый подход формирования решающего набора признаков, основанного на принципах теории распознавания образов максимальной информативности, минимальной взаимозависимости и оптимального «покрытия» новых распознаваемых объектов, который может быть применен для других задач теории распознавания образов; б) новый алгоритм выявления циклических фрагментов молекулярных структурных формул, что позволило создать конвертор структурных формул от различных систем ввода; в) новые критерии ранжирования результатов прогноза.
2. Разработан метод прогнозной оценки свойств соединений, имеющих широкий диапазон значений, сущность которого заключается в прогнозировании интервальных оценок в рамках комплекса иерархических моделей. Границы интервалов устанавливаются автоматически, путем оптимизации распознавания на стадии формирования моделей.
3. Разработаны прогнозирующие системы оценки острой токсичности, основанные на сформированных иерархических комплексах и созданных математических моделях (от 30 до 100 и более моделей). Системы использованы для оценки влияния структурных фрагментов на токсичность, необходимых для комплексного дизайна и прогноза значений острой токсичности.
4. Исследована связь между строением и антигельминтной активностью производных бензимидазола: сформированы 7 математических моделей (с достоверностью 75-98%), сконструированы потенциально активные структуры с низкой токсичностью, прогнозированы их активность и токсичность; осуществлен молекулярный дизайн производных сульфонилмочевины, оксикарбоновых кислот и их субструктурных аналогов с комплексом свойств (гербицидной, росторегулирующей, фунгицидной активностью и низким уровнем токсичности).
5. Показано, что полученные экспериментальные оценки активности и токсичности соединений, синтезированных по результатам дизайна и прогноза, сочетаются с расчетными данными.
1.В. Компьютерное предсказание биологической активности веществ: пределы возможного.// Химия в России - 1999 - № 2 - С.8-12.
2. Computational Materials Design// T.Saido (ed.). Springer-Verlag 1999 - 320 p.
3. Sulea Т., Oprea T.I., Muresan S., Chan S.L. A Different Method for Streric Field Evalution in CoMFA Improves Model Robustness// J.Chem. Inf. Comput. Sci. 1997. - 37- P.l 162-1170
4. Baskin, M.S. Belenikin, E.V. Ekimova, G. Costantino, V.A. Palyulin, R. Pellicciari, N.S. Zefirov// Dokl. Akad. Nauk 2000 - P.347-351.
5. Стьюпер Э., Брюггер У., Джуре П. Машинный анализ связи химической структуры и биологической активности. Под. ред. Евсеева A.M. //М: Мир -1982. -235с.
6. Stuper A., Jurs P. Classification of phsychotropic drugs as sedatives techniques// J.Amer. Chem. Soc. 1975. - V.97. - №1 - P. 182-187
7. Poroikov V., Akimov D., Shabelnikova E., Filimonov D. Top 200 medicines: can new actions be discovered through computer-aided prediction? //SAR and QSAR in Environmental Research -2001. 12 (4) - P.327-344.
8. Раевский О.А., Дескрипторы молекулярной структуры в компьютерном дизайне биологически активных веществ. // Успехи химии 1999. - 68 (6) -С. 555-576.
9. Биглов P.P., Бурляев В.В., Бурляева Е.В. Комплексная интервальная модель для предсказания количественной активности сложных органических соединений // Электронный обзор
10. Скворцова М.И., Баскин И.И., Словохотова O.JL, Палюлин В.А., Зефиров Н.С. // Докл. АН СССР. 1996. - Т. 346. - С. 497.
11. Зефиров Н. С., Палюлин В.А., Радченко Е.В. // Докл. АН СССР. — 1991. — Т. 316.-С. 921.
12. Скворцова М.И., Баскин И.И., Словохотова O.JI., Палюлин В.А., Зефиров Н.С. // Докл. АН СССР. 1992. - Т. 324. - С. 344.
13. В.В. Поройков, Д. А. Филимонов, А. А. Лагунин Компьютерное прогнозирование спектра биологической активности химических соединений // Электронный обзор.
14. Применение теории графов в химии. (Под ред. Н.С.Зефирова, С.И.Кучанова). //Наука, Новосибирск 1988.- 306 с.
15. Рувре Д. В кн. Химические приложения топологии и теории графов. (Под ред. Р.Кинга). // Мир, Москва 1987.- С. 181
16. U.Wedig, L.Schroder. Visualization reveals new structures in solid-state chemistry. // Scient. Сотр. World. -1996. 21 - P.21-22.
17. Авидон B.B., Голендер B.E., Розенблит А.Б., В кн. Методы представления и обработки структурной информации для анализа связи структура-активность. // ИОС АН ЛатвССР Рига, 1981. - С. 8
18. Голендер В.Е., Розенблит А.Б. Вычислительные методы конструирования лекарств.// Рига:3инатне. 1978. - 238 с.
19. Mannhold R., Cruciani G., Dross К., Rekker R.//J. Comp.-Aided Mol. Design. -1998.-V.12.-P. 573-581.
20. Петелин Д.Е., Арсланов H.A., Хамин A.C., Палюлин В.А., Зефиров Н.С. // Докл. АН СССР. 1995. - Т. 340. - С. 509-513.
21. Tratch S. S., Lomova О.А., Sukhachev D.V., Palyulin V.A., Zefirov N. S. Generation of molecular graphs for QSAR studies: an approach based on acyclic fragment combinations // J. Chem. Inf. Comput. Sci. -1992. -V.32. №2. -P.130-139.
22. Аркадьев А.Г., Браверман Э.М. Обучение машины классификации объектов.// М.: Наука 1971. - 192 с.
23. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск, изд-во ИМ 1999. - 270 с.
24. Merill Т., Green О.М. On the effectiveness of receptors in recognition systems.//JRETrans. Inform. Theory- 1963- vol. JT-9 P.l 1-17.
25. Загоруйко Н.Г. Гипотезы компактности и 1-компактности в методах анализа данных. Сибирский журнал индустриальной математики. // Изд. ИМ СО РАН.- 1998 Т1 - N1 - С.114-126.
26. Ту Дж., Гонсалес Р. Принципы распознавания образов.// М.: Мир, 1978.411 с.
27. Бонгард М.М. Проблемы узнавания // М.: Наука 1967 - 320с.
28. Джуре П., Айзенауэр Т. Распознавание образов в химии/ Пер. с англ. под ред. Кривенко С.В.//М.: Мир 1971.-230 с.
29. Menon J.K., Cammarata A. Pattern recognition. Investigation of structure-activity relationships// J. Pharm. Sci.-l 997.- V.66.- №3. P.304-314.
30. Harrison P.I. A method of cluster analysis and some applications// Appl. Stat.-1968.-№3.-P. 226-236.
31. Lawson R.G., Jurs P.C. Cluster analysis of acrylates to guide sampling for toxicity testing//J.Chem. Inf. and Comput. Sci.- 1990.-V.30.-№ 2.-P.137- 144.
32. Hansh C.A. A quantitative approach to biochemical structure-activity relationships.// Accounts Chem. Res.-1969.- V.2.- P. 232-239.
33. K.A.Burke, T.J.Greebowe, and M.A.Windschitl. Developing and Using Conceptual Copmuter Animations for Chemistry Instruction.// J. Chem. Edu.-1998. V.75 (12)- P.1658-1661.
34. Макеев Г.М., Кумсков М.И., Подосенин A.B. Моделирование связи «структура-биологическая активность» с помощью новых пространственных дескрипторов молекул// Хим.-фарм. Ж.-1998.-Т.32.-№10.-С.41-45.
35. Cruciani М., Cruciani G. Molecular lipophilicity descriptors: a multivariate analysis Raimund// 12 th European Symposium on QSAR Molecular Modelling and Prediction of Bioactivity.- Programme and Abstracts. -Copenhagen - 1998.- P. 1.04.
36. McFarland J.W., Raevsky O.A. Hydrogen Bond Acceptor and Donor Factors, Ca and Cd: New QSAR Descriptors// 12th European Symposium on QSAR -Molecular Modelling and Prediction of Bioactivity.- Programme and Abstracts -Copenhagen 1998.- P. 1.14.
37. D.Bradley Lightening the load for the practicing Chemist// Scient. Comp. World.- 1997.- 30 P.31-32.
38. Baskin, V.A. Palyulin, N.S. Zefirov // J. Chem. Inf. Comput. Sci. -1997. -V.30. -P. 715-721.
39. Halberstam N.M., Baskin I.I., Palyulin V.A., Zefirov N.S.//Int. Symp. CACR-96, Book of Abstracts,- Moscow 1996 - P. 37-38
40. Cramer R.D., Patterson D.E, Bunce J.D. Comparative Molecular Field Analysis (CoMFA) // J. Am. Chem. Soc. 1988 - 110 - P.5959-5967
41. Кадыров Ч.Ш., Тюрина Л.А., Симонов В.Д., Семенов В.А. Машинный поиск химических препаратов с заданными свойствами.//Ташкент.: Фан, -1989.-164с.
42. Тюрина JI.A., Кадыров Ч.Ш., Симонов В.Д. Машинный поиск закономерностей строение биологическое действие химических соединений //Итоги науки и техн. Сер. Органическая химия.-М.: ВИНИТИ,-1989.-189с.
43. Emanuela Gancia, Gianpaolo Bravi, Paolo Mascagni, Andrea Zaliani. Global 3D-QSAR methods: MS-WHIM and autocorrelation// Journal of Computer-Aided Molecular Design April 2000- 14(3)- P.293-306,
44. David B. Turner, Peter Willett. Evaluation of the EVA descriptor for QSAR studies: 3. The use of a genetic algorithm to search for models with enhanced predictive properties (EVAGA) // Journal of Computer-Aided Molecular Design.-2000 14(1) - P. 1-21
45. Kurunczi, L., et al., MTD-PLS: A PLS-based variant of the MTD method. 2. Mapping ligand-receptor interactions. Enzymatic acetic acid esters hydrolysis// Journal of Chemical Information & Computer Sciences 2002. - 42(4) - P.841-846
46. Oprea, T.I., et al. MTD-PLS: A PLS-based variant of the MTD method. A 3D-QSAR analysis of receptor affinities for a series of halogenated dibenzoxin and biphenyl derivatives// Sar & QSAR in Environmental Research 2001. - 12(1-2)- P. 75-92.
47. Oprea, T.L.//Virtual screening in lead discovery: A viewpoint. Molecules -2002. -7(1)-P. 51-62.
48. Станкевич М.И., Станкевич И.В., Зефиров H.C.// Успехи химии 1998 - 57-Р.337-405
49. N.S. Zefirov, V.A. Palyulin, E.V. Radchenko // Dokl. Akad. Nauk. 1997 - 352- P.630-633.
50. V.A. Palyulin, E.V. Radchenko, N.S. Zefirov // J Chem. Inf. Comput. Sci. -2000.-40-P. 659-667.
51. Радченко E.B. // Автореф. дисс. канд. Наук, МГУ Москва - 2000 - 24 с.
52. A.S. Khamin, V.A. Palyulin, S.E. Tkachenko, N.S. Zefirov //European Symposium on Quantitative Structure-Activity Relationships, Abstracts, Lausanne, September 1-6, -1996. -P-22.A,
53. Lagunin A., Stepanchikova A., Filimonov D., Poroikov V. PASS: prediction of activity spectra for biologically active substances.// Bioinformatics 2000. - 16 (8) - P.747-748.
54. Filimonov D.A. и др. Chemical Similarity Assessment Trough Multilevel Neighborhoods of Atoms: Definition and Comparison with The Other Descriptors //J. Chem. Inf. Comput. Sci. -1999. V.39. -P.666-670.
55. Лагунин A.A., Филимонов Д.А., Поройков B.B. Компьютерный поиск потенциальных антигипертензивных соединений комбинированного действия. // Хим.-фарм. журн. 2001. - 35 (7) - С.28-34.
56. Poroikov V., Filimonov D. Computer-aided prediction of biological activity spectra. Application for finding and optimization of new leads// Rational Approaches to Drug Design, Eds. H.-D. Holtje, W.Sippl, Prous Science, Barcelona 2001. - P.403-407.
57. Anzali S., Barnickel G., Cezanne В., Krug M., Filimonov D., Poroikov V. Discriminating between drugs and nondrugs by Prediction of Activity Spectra for Substances (PASS). // J. Med. Chem.- 2001 -4 (15)- P.2432-2437.
58. Новиков C.M., Поройков B.B., Тертичников C.H., Семеновых JI.H., Филимонов Д.А. Анализ тенденций в развитии информационных технологий и обоснование концепции разработки банка токсикологических данных SARET BAZE.// Гигиена и санитария 1997. -№4 - С.3-8.
59. Sanderson D.M., Earnshaw C.G. Computer prediction of possible toxic action from chemical structure; the DEREK system. // Hum. and Exp. Toxicol 1991. -V. 10 -№4 - P. 261-273.
60. Салмина Н.Ю., Ходашинский И.А. Система прогнозирования экологической опасности химических соединений// Тез.докл. IX Всес.конф. Черного-ловка, 1992., С.110-111.
61. Велик А.В., Гусева В.В., Зайцев Ю.А. и др. Оценка класса токсичности производных тиазолидина методом потенциальных функций.// Химико-фармацевтический журнал. 1993. - № 12 - С. 34-36.
62. Ivanov A.S., Sechenykh A.A., Skvortsov V.S., Shkrob A.M., Archakov A.I. Database mining for new inhibitors of cytochromes P450// Proceedings of the 2nd International Conference on Molecular Structural Biology.- Vienna 1997.-P.62.
63. Тюрина Л.А., Лукманова AJI., Кирлан С.А., Кирлан A.B., Каримова Ф.С., Хлебникова Т.Д., Кантор Е.А. //Молекулярный дизайн потенциальных гербицидов на ос-нове производных окси-алканкарбоновых кислот//Агрохимия. 2002. -№4.- С.65-69.
64. Тюрин A.A. // Афтореф. дисс. канд. хим. наук. Уфа. - 1999. - 24 с.
65. Тюрина Л.А., Зарудий Ф.С., Волкова С.С., Соломонова Т.С., Тюрин A.A., Алехин А.К., Шаймухаметова Р.Х., Халиуллин Ф.А., Катаев В.А., Сибиряк C.B. Компьютерный поиск новых иммунотропных азолов // Хим.-фарм. журн. 1996. - №8. - С.35-39.
66. Тюрин A.A., Зарудий Ф.С., Тюрина Л.А., Хлиуллин Ф.А., Соломонова Т.С. Валитов Р.Б. Компьютерный поиск лекарственных средств из класса азолов // Башкирский химический журнал. 1997. - Т.4. -№4. - С. 49-58.
67. Ямансарова Э.Т., Куковинец О.С., Зайнуллин P.A., Галин Ф.З. и др. // Башк. хим. журн. 2000. - Т.7. - № 6. С.25-35.
68. Тюрина Л.А., Семёнов В.А., Кадыров Ч.Ш., Аюпова А. Т., Молчанов Л.В. //Агрохимия. 1986. -№ 1.-С.99-106.
69. Зулькарнаев Т.Р., Тюрин A.A., Соломонова Т.С. и др. // Башк. хим. журн. -1998.-Т. 5,№2.-С. 25-29.
70. Кагалай Д. П. Гигиена применения, токсикология пестицидов и полимерных материалов. //Киев 1993. - Вып. 13. - С. 177 - 182.
71. Перекалин В.В., Зонис С.А. Органическая химия. — М.: Просвещение. 1977. -622 с.
72. D.Bradley Chemistry suite a intelligent// Scient. Comp. World 1997. - 32 -P.41-44.
73. Покало Е.И., Хлебникова Т.Д., Лукманова А.Л., Тюрина Л.А., Кантор Е.А., Конструирование потенциальных пестицидов и лекарственных препаратов методами молекулярного дизайна.// Баш. Хим. Журнал. 2000. - Т.7. - №5. - С.29-31
74. Алдашев A.A., Рахимова H.A. Антгельминтики. // Фрунзе: Кыргь?стан, -1983.- 152 с.
75. Кротов А.И.// Пути и методы поиска новых антегельминтиков. Мед. Паразитол. И паразитарные болезни, 1990,№3, с 52-53
76. Альберт А. Избирательная токсичность. // Физико-химические основы терапии. М.: Медицина 1989.- Т.1, - 400 с. - Т.2. - 432 с.
77. Демидов Н.В. Антигельминтики в ветеринарии//М.: Колос 1982.- 367 с.
78. Лебедева М.И., Михайлицын Ф.С., Цизин Ю.С, Астафьев Б.А. Успехи в поиске и создании отечественных противогельминтных средств.// Мед. Паразитол. И паразитные болезни 1990 - №5 - С. 14-16
79. P. G. С. Douche// Xenobiótica 1973. - 3 - Р.367-380.
80. P. G. С. Douche, L. L. Buchanan// Xenobiotica 1979 - 9 -P.675-694.
81. J. A. Gardiner, R. K. Brantley, H. Sherman, J. Agrie// Food Chem. 1968 -16-P. 1050-1052
82. Патент ФРГ 2332398 (1973)// РЖ Химия 1975. - 160-С.185.
83. Патент ФРГ 2348104 (1973)//РЖ Химия 1975 - 240-С.112.
84. Патент ФРГ 2348120 (1973)//РЖ Химия 1975. - 240-С.111.
85. Патент США 3935209 (1975)// Изобретения за рубежом 1976. -№ 18-С.24.
86. Патент ФРГ 2332486 (1973)//РЖ Химия-1975.-230-С. 165.
87. Патент ФРГ 2332487 (1973)//РЖ Химия 1975.- 170 -С.131.
88. Levitt G. Sulfanilureas: new high potency herbicides //Pesticides Chemistry: Human Welfare and the Environment. —Oxford. —1983. —V.l. —P. 243— 250.
89. Макеева-Гурьянова Л.Т., Спиридонов Ю.Я., Шестаков В.Г. Сульфонилмочевины новые перспективные гербициды.// Агрохимия. — 1987.-№2.-С. 115-128
90. Коерре Т.К. и др. // British Crop Protection Conference Weeds. 1993. - V.l -P. 177.
91. Пестициды в экосистемах: Проблемы и перспективы: Аналитический обзор. // Новосибирск: СО РАН, ГПНТБ 1994 - 142 с.
92. The imidazolinone herbicides / Ed. by Shaner L.D., O'Connor S.L. Doca Ration, Ann Arbor, Boston, London: CRC Press 1991. - P. 290
93. Повякель Л.И., Бардик Ю.В., Любинская Л.А. Прогноз токсичности производных сульфонилмочевин по результатам изучения токсикокинетики хлорсульфурона //Сб. ст. школа акад. Черкеса О.И.: идеи, развитие, перспективы. —Киев. —1994. — С. 1614.
94. Повякель Л.И., Любинская Л.А. Структура — пестицидная активность — токсичность производных сульфонилмочевин //Актуальные вопросы токсикологии, гигиены применения пестицидов и полимерных материалов в народном хозяйстве. — Киев. —1991. —С. 40.
95. Murai T.S., Nakamura J., Ahago I., Sakashita N., Hage I. Synthesis and quantitative structure activity relationships of pyridylsulfanilurea herbicides// QSAR- 1993.-V. 12.-№ 1-4.- 163p.
96. Koch A., Seydel J.K., Casco A., Tironi C. & Fruttero R. QSAR and Molecular Modelling for series of Isomeric X-Sulfanilamido-1 phenylpyrazoles.// QSAR -1993.-V. 12. (4).-P. 373-382.
97. David W. Quntitative Structure Activity Relationships of Imidazolinyl-Pyridine Carboxylic Acid Herbicides// American Cyanamid Company Princeton. - 1986.- 107p.
98. Кадыров Ч.Ш., Тюрина JI.A., Симонов В.Д. Машинный поиск закономерностей строение биологическое действие химических соединений /Итоги науки и техн. Сер. Органическая химия.-М.: ВИНИТИ,-1989.-189с.
99. Кадыров Ч.Ш., Тюрина Л.А., Симонов В.Д., Семенов В.А. Машинный поиск химических препаратов с заданными свойствами.// Ташкент.: Фан -С.1989.-164
100. Альберт Э. Избирательная токсичность // Пер. с англ. под. ред. Хромова-Борисова Н.В. и Филова В.А. М.: Мир. - 1971.-Т. 1, 2.-420 с.
101. Hansch С., Fudjita Т. //J. Amer. Chem. Soc. 1964. - 86, N8. - P. 1616-1626.
102. Нижний C.B., Эпштейн H.A. // Успехи химии. 1978. - 47, вып. 4. — С.739-772.
103. Раевский O.A., Сапегин A.M. // Успехи химии. 1988. - 57, вып. 9. - С. 1565-1586.
104. Мельников H.H. Справочник по пестицидам. // М.- 1985. -С.ХХ.
105. Бихари Ф. и др. Химические средства борьбы с сорняками, /пер. С венг. И. Ф. Куренного; под ред. и с предисл. H. М. Жирмунской М.-Агропромиздат.- 1986. - 413 с.
106. Федтке К. Биохимия и физиология действия гербицидов. / пер. с англ. Н.М. Жирмунской; под ред. и с предисл. Ю.А.Баскакова. //М.- Агропромиздат. -1985.- 223с.
107. Adamsom G.W., Bawden D., Saggar D.T. Quantitative structure-activity relationship studies of acute toxicity (LD50) in large series of herbicidal benzimidazoles// Pestic. Sei., 1984.- №1 P.31-39.
108. Мельников H.H. Пестициды. Химия, технология и применение. // М.: Химия, 1987.-С.712
109. Ракитский В.Н. Корреляционная зависимость структура-токсичность в ряду производных хлорфеноксиалканкарбоновых кислот (сообщение 1)// Химия физиологически-активныхеоединений: Тез.докл. Всесоюз. семинар. -Черноголовка. 1989. -С. 202.