Применение нейронных сетей для выявления связи структура-биологическая активность тема автореферата и диссертации по химии, 02.00.10 ВАК РФ
Тетко, Игорь Владимирович
АВТОР
|
||||
кандидата химических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Киев
МЕСТО ЗАЩИТЫ
|
||||
1994
ГОД ЗАЩИТЫ
|
|
02.00.10
КОД ВАК РФ
|
||
|
АКАДЕМ1Я НАУК УКРА1НИ 1НСТИТУТ БШОРГАШЧНО! XIMlí TA НАФТОХ1М11 АН УКРАШИ
-m—од---——
~ Л АПР но правах рукопису
ТЕТКО 1Г0Р ВОЛОДИМИРОВИЧ
ЗАСТОСУВАННЯ НЕЙРОННИХ МЕРЕЖ ДЛЯ ВИЯВЛЕННЯ ЗВ'ЯЗКУ СТРУКТУРА-Б10Л0Г1ЧНА AKTHBHlCTb
02.00.10 - EioopraHÍHHa xímu, xímíh природшк та ф!31олопчио активних речовин
Автореферат дисертаци на здобугтя наукового ступеня кандидата xímí4hhx наук
Ки1в • 1994
ДисертаЩвю 8 рукопис.
Робота виконана у В1дд1л1 медико-б1олог1чгшх проблем 1нституту б1оорган1чно! х1м11 та нафтох!м11 АН Укра1ни
Науковий кер!вник: 0ф1ц1йн1 опоненти:
доктор медичних ваук, профэсор 0.1. Луйк
доктор х1м1чних наук, професор А.Я. 1льченко, кандидат техн1чшх наук О.М. Р1зник
Пров!дна установа:
Ф1зико-х1м1чНиЯ 1нститут АН УкраКни 1м. О.В. Богатського, м. Одвса
Захист в1дбудеться Э94 р. на
аас1данн1 спец!ал1зовано1 вчено1ради Д 016.65.01 в 1нститут1 б1оорган1чно1 х1м11 та нафтох!м11 АН Укра!ни (253660, м. Ки1в, вул. Мурманська, 1).
3 дисертац1ею можно ознайомитися у б!бл1отец1 1нституту 01оорган1чно1 х1м1I та нафтох1м11 АН Укра1ни (253660, м. Ки1в, вул. Мурманська, 1).
Автореферат роз!сланий ^Уу^ЯМяь р.
Вчений секретер /
спец1ал1зовано! вчено! рада д.м. Федоряк
ВСТУП.
Актуальн1сть проблеми ПередСачення о!олог1чно1 актшщост1 х1м!чних рачовин, виходячи.з ix будови, та створешш но@их препарат1в 1а задшш-ми властивоотями в одн!ев .3 найголовн1ших задач сучаспо1 медично): xiMil (Fujlta, 1984; Dunn III, 1989). Зг1дна данних статистики (Knight; 1990) в пров1дних ф1рмах св!ту.т1лыад одна 1з ' 10-15 тисяч синтезовагах та випробованих х1м1чних речовин знаходить використання в медичн1й практи-ц1. Через цв варт!сть створення нового л!карськогО препарату в серед-ньому сягаз 600-700 м1льйон1в долар1в 1 йа цо витрачаеться 8-12 рок1в. Метода комп'ютерного, скрин1нгу дозволяють значно прискорити процедуру такого пошуку 1 заощаДити значн1 матер!альн! кошти, як1 були 0 марко витраченГна синтез та наступи! б1олог1чп1 випробовування малоефсктив-них речовин.'
Знаходжешш зв'язку структура-б1олог!чна актиш1сть 8 одн1ею з найскладн1ших ма'тематичних задач пошуку' законом1рност1 тому, що к1ль-к!сть доступних для анал!зу даних, як правило; вельми обмакена, а сама залежн1сть параметри-активн1сть мае складаий нелШйний характер. Отри-мання нових. даних пов'язано 1з значними затратами ф1нанс!в та часу, а кр1м цього 1снуа ttMOBipHicTb'неправильного формувашя навчально! ви-01рки через неминуч1 експеримёнтальн! похибки. Тому досл1днгаш, шс1 працвк)ть над виявлснням зв'язку структура-активн1сть (ЗСА) прид1ляють особливу увагу пошуку та розробц1 метод1в знаходжошш заложностей, котр1 б дозволяли отримувати в!рог1дн! прогнози для таких склада« задач. Серед цих мэтод1в одн!ею з най01льш перспективних в трупа метода, в1домих п1д загальною назвою neitpomil мереж!. Щ мотода з усп1хом застосовувалися для вир1шеши задач розШзнавання рукописних знак1в, мови, ф1льтрацИ зображення в1д шуму, анал1зу енцефалограм (Kohonen 1991; Pukushlma 1987; Lando е.а., 1993; Gasteiger е.а., 1991). 1снув чимало тип1в нейрошшх мере», шо в1др!зняються свози архитектурою, ц1лями функц!ювання та алгоритмами навчання. Найчаст1ше для пошуку.ЗСА застосовуеться метод нейрогапс мерен 1з ■ зворопим розповсюдженням помилки - back-propagation neural networks (Ш). Але безпосёрвдпв застосування Им до проблеми ЗСА призвало до супервчливих результат1в: з одного боку, ряд досл1дник1в пов1домляють про значну пёревагу НМ над стандартними методами анал1зу ЗСА,.такими як л!н1йн1 регре'с1йн1 метода, метода л1н1Йно1*о дискрим1йантного внал1зу, метод головних компонент та 1ншими методами (Aoyama- е.а., 1990; Andrea е.а., 1991;'Chastrette е.а., 1991 и др.), а деяк1, досл!дники, навпаки, звертають увагу на випадки
- 1 -
досить поганого узагалышшш дани щ™ методом (Ь1и е.а., 1.9Э2).
Мета робота полягала в пошуку алгоритм! в пол!пшення узагалыюння даних им та розроОц! методу для розв'язання задач виявлзння законо-м!рностой структура-актамисть.
Задач! досл1джешш полягали у наступному;
1) виявити можлив1 причини пог!ршення узагальнэння даних НМ та розрооити алгоритм!!, ЯК1 Оудуть СПрОМОКН! подолати Ц1 Н9Д0Л1КИ методу.
2) створити мотоди оценки 1иформатиЕНост1 вх!дних параметр1в нейроних морок;
3) пролнал!зувати результата класиф1кац11 молекул .методом НМ як попередню оОробку для подальшо'го досл1Дкення методами, що анал1зують 1х просторову будову, наприклзд, елоктрон-тополог!чним методом (ЕТМ). ПородОачалось використати як приклада дэяк1 класичн1 'задач! пошуку ЗСА, добре досл1джен1 Оагатьма методами, а такок ряд нових задач цього кла-су: класиф1кац!я л1карських речовин по типу 1х д!1 на основн1 сигнальн1 системи кл1тшш (ОССК); анал1з 1нг10!тор1в зворотньо! транскриптази (ЗТ) в!руса 1мунодеф1Цита людини 1-го типу (В1Л-1) та 1нш1 задач!.
Наукова новизна Розроблено иовиИ метод пошуку ЗСА на основ1 засто-сування алгоритму НМ !з зворот!шм розповсюдкенкям помилки. Запропонова-но для уншшоння випадкових- кореляц!й НМ використовуйати статистичний анал!з, який також дозволяв виявити достов!рн!сть класиф1кац11 молекул 1з контрольноI виб1рки. Запропоновано новий ориг!нальний рлгоритм змен-шення НМ та' оц1нки !нформативност! онал1зованих параметр!в шд час нввчання мерек1. Цей алгоритм дозволяв зб1льшити швидк1сть навчання НЫ, знайти наймешу арх1тектуру мереж1, а використання т1льки найб1лып ефективного набору, параметр!в допомагае значно пол!пшити прогностичн1 властивост1 НМ. Результата, отриман1 за допомогою Ш, мають самост1йну наукову ц1нн!сть, прото вони можуть ышористовуватись що й для поперед-ньо! обробки даних для б1льш складних метод1в пошуку ЗСА.
.. Теоретична значения робота Запропоновано нов1 ефективн1 алгоритми пол1пшення 'прогнозу НМ. Розро0лен1 метода можуть використовуватися у вс!х.галузях. науки та техн1ки, де потр!бен розпоД!л об'ект1в на класи. .
. Практична значения робота Запропонований метод пошуку ЗСА Сув з' усп!хом> застосований для анал1зу та прогнозування ЗСА 1нг!б1тор1в ЗТ В1Л-1. Для цього Суло створоно банк най01льш типових !нг1б1тор!в ЗТ В1Л-1, який включав так1 високоактивн! !нг1б!тори, як азидотим1дин (АЗТ), (Ме, (1(11. ПВО (Раияе1в, 1993) та 1нш!. Деяк! з цих рочовин застосовуються для л!кування синдрому набутого 1мунодеф1циту людини (СН1Д). Нейроны! мереж! навчалися на основ! цього банку 1 використову-
валися для комп'ютерного скришнгу речовин.-що булн впсршэ синтазовяШ в 1нституТ1 6iooprani4Hoi xiMii та нафтох1м11 АН Украпш. Результат nporno3iB ИМ noBiiicm тдтворжвн1 наступними ■ бшлопчшмл вштросову-ваннями, проведе'ннми в рсфэренс-лабораторП .Национального комгготу по OopoxbOi i3 захв'орюванями СШДом при Президент! Украпш.
Застосування запропонова'ного методу . для задич! класиф) ic.ml t л1-карських препарат!в по типу tx д11 на ociiobiiI сигналы» систоми кл1тини дозволило з високою ймов1рн1стю (74%)_правильно перодбачити актива!сть 90 првпарат1в 1з контрольно! виб!рки. Kq ochobI поел!дуючого апал1зу рёзультат!в прогнозу ИМ Сула створена иавчальна виб1рка.найб!льш типо-вих npenapaTiB. Аналхз niet виб!рки электрон-тополог!чним методом дозволив вийвити'фармакофор'ний елемёнт, який внзн'ачаа загальнйй проф1ль д!1 л!карських препарат!в на ОССК. . "
' Апробац1я роботи OciioBHi результата' ройоти допов!далися на X Всесоюзна конфоренцП по тооретичн!й орган!чн1й xiMU (Волгоград, 1991); Bcepociftcbiclfl науковШ конференцИ "Створення л!карських препарат1в" (Москва, 1992); М1жнародньому конгрэс! по' комп'ютерним системам та прикладшй математиц1 "CSAN'93" (Санкт-Петьрбург, 1993); 121Й щор1чн1й конферешцI' Товариства по молокулярн1й ;граф1ц1 (Швойдар1я, 1993); на трет1й щор!чн1й коиферснцП по еволюц!йному 'програмув.анню "ЕР'94" (Сан7Д1его, 1994); на мшшродному ceMiitapl по альдозо родуктаз!, (US-Japan Aldose Reductase Workshop, Hawaii, 1994); .на пауковому ceMlHapi лаОорзторП нейрогашх мйреж )ледачного факультету Католицького ушверейтету Левена (Бельпя, 1993); на наукових сем1нарах 1нституту проблем математичних машин та, систем АН. Укра!ни (Ки!в, 1993 - 1994); на наукових сем!нарах в1дд!лу медико-б!олог1чншс досл1джень та конферонц1ях молодих вчених 1нституту 01ооргав1чдо! xiMi1 та нафтох1м11 АН Украпш (Кшв, 1989-1993). .
' Розм1р та структура дисертацИ Дисертац!я... складаеться !з вступу, п'яти роздШв, висновк!в, списка л!тератури. та додатку. Робота ёикладена на 154 аркушах машинописного тексту, 1люстрована 11 малюнками та 22 таблицями. Список л!тератури нараховуе 1.18-джервл.
. 1. ЗАГАЛЫШ ОШС МЕТОДУ НЕИГОШШХ МЕРЕЖ , . Штучн! нейронн1 Mepeai створювалися по аналог!i з реальними . нейронними мережами головного мозку людшш. - Опрощена схема реального нейрона показа на Мал. 1. Нейрон складаеться. э т1ла, багатьох вход1в (дендрит1в) та одного виходу- аксону. Т!ло нейрона зд1 Ясное просторово-часову сумац1ю та перетворення сигнал1в, як1 надходять до цього нейрону.
Аксон розгалужуеться на в!дростки, як! передашь сигнали'на входи
4ч ■
aJ = f(LwIJ-al)
Нал. 1. Схема нейрон!в з головного мозку тварин та 1х штучного . аналога. 1-дендр1ти, 2-т!ло кл1тини, 3-аксон.
1шшх iieltpoKlв. Точки з'еднання нозивавться синапсами 1 д1ють га типу елоктрох1м1чно! передач! сигналу. Нейрони в мозку об'еднан1 в складн1 1ерарх1чн1 система, як1 оСроСляють поступаючу 1нформац1ю. Штучний нейрон побудовано аналог1чно реальному. В1н складаеться 1з суматора вх1дних сигнал1в та нел1н1йного перетворювача, який обробляе ц1 сигнали зг1Дно з нел!н1йною функц1ею, таков як г1пербол1чний тангенс, лог1стична фун-кц1я та 1нш1. Доля сигналу, котрий передаеться в!д одного нейрону до 1НШОГО, пропорц1йна величин! ваги зв'язку м1ж i-м нейроном на р1вн! в та 3-им нейроном на р1вн1 в+1 - Wj^. 1снуе чимало тип!в нейронних мере*, котр1 под1ляються на да! ochobhI категорИ - мере*1, як1 функц1онують по типу асоц1ативно! пам'ят1 та мереж1 з прямим розповсюдаенням оигнал1в. Ми використовували т1льки один 1з п1дтип1в нейронних мареж з прямим розповсюдаенням, а само нейронн! море*1 1з зворотним розповсюдаенням помилки (НМ), котр!, як було вказано у вступ1, найб1лып часто застосо-вуються для вир1шення проблем поиуку ЗСА (Gastelger е.а., 1991). НМ, во . побудована з п посл!довних piBHiB, показана на Мал. 2. Нейрони позначе- • Hi кульками. На перший (вх!дний) р1вень поступав пот!к 1нформац11, наприклад, вектор анал1зованих параметр1в молекул. При проходжен1 через прихован1 р1вн1, а звичайно використовуеться всього один прихований р!вень, цей пот1к нэл1н1йно трансформуеться. Для кожного вх1дного вектора 1снуб в1дпов1дний йому ц!льовий (вих1дш1й) вектор. Ц1 вектори складають навчаючу пару. - Навчання морек1 полягае в такому настроюванн1 зв*язк!в мерек!, коли кокне вх!дне збудаення призводить до появи на виход! нейронно! мереж! Сажаного вектору (спочатку ваги зв*язк!в 1н1-
ц! юються випадково). Навчання IM bi дпоситься до методу навчання а вчителем i проводиться-зп дно сл1дуючому алгоритму: •
1. Ьибрати 13 сукупност1 BCix нав-чальних BöKTopiB сл1дуючу навчальну пару. Подати на вх1д мерена вх!дний вектор.
2. Бирахувати вих!д мереж!.
3. Бирахувати р1зшщп'м1ж отримани-ми та'баяаними виходамн ми ре к 1.
4. Зкоригувати'вагу зв'язк1в так, щоО зменшти помилку мереж!.
5. Повторювати етапи 1-5 до тих nip,' поки помилка.на вс1й сукуп-. ройповсюджонням сигнал!в, яка склэ-HOCTi не досяпю заданого р!вня. .• даеться 1з n-plBHiB.'
Iснуе чимало алгоритм!в,'котр! мсжуть використовуватись на четвертому етат. Ми використовували один з Найб1лыи простих алгоритм1в, а саме дельта-правило (Runraelhart е.а., 1986). У вс1х сво!х досл1дженнях ми використовували НМ з одним ггрихованим рШтм! ■ .
1.2. Застосування нейрокних ансаибл1в для усунсння • неоднозначност! прогнозу НМ
Безпосередав застосування Ш до пошуку 3GÄ моке призвести до поганого передбачетш активност1 нових молекул (Liu е.а., 1992). Сама такою була наша перша спроба застосувати метод нсйронних мереж дли пошуку ЗСА пох1дних карбох!нон1в - потшщШшх протииухлшших -siicodlB (Аоуагаа е.а., 1990). to спробували повторит результата ц'их автор1в. 11 молекул вико-ристовуцалися як навчальна виб1рка, та 5 молекул використовувалось для контролю. якост1-Неродбачення активности Нейроши мереж! Мали ту ж саму арх1тектуру та параметра навчання, що викорйстовувались японськими вче-ними. Нейронна мережа чудово навчалася, але передбачення деяких молекул 1з контрольно!' виб!рки було неоднозначна (Табл. 1).
' Для усунення неоднозначност1 перо'дбачення активност! нових молекул ми запропонували вйкористовувати статистичний анал!з ряда незалекншс прогноз1в НМ або нейронн1 ансамбл1 (НА). Можлив1сть' пол1пшення передбачення при використовуваНн! НА Bi даичалась в робот! (Hansen, Solomon, 1990). Нами вперше було запропоновано використати закони б1ном1нального розпод!лу, для визначення'в1рог1даост1 отриманого прогнозу. Нехвй нам потр1бно визначити.до якого з, двох клас1в А чи В налекить молекула, що анал!зувться. Якщо ця молекула в и випадках 1з п була передбачена НМ а
piBCHl/
==>а
Параметр» / моле кул и
<
п-2 -
ю
Y'ucKb 11
> I
>
Akthbiuctl молекул II
/
Мал. 2. Нейронна мережа з прямим
ТаОлиця 1. ПеродСачоння вктшшост! молекул, пох1дних м1том1цину, ■ для р!пних початкових ваг матриц! зв'язк!ва
# початково! матриц! и.
сполуки - 1 2 3 4 5 6 7 8 9 10 римент. дан!
г 5 . 5 Б 4 Б. б Б 5 Б Б 5
4 4 4 4 4 4 4 4 4 4 4 4
7 Б 5 4 Б 5 5 Б Б • Б 5 4
10 Б 4 5 Б . 4 5 Б Б Б 4 2
16 2 3 2 1 3 2 3 2 2 1 1
а- вс1 молекул Сули в1даесен! до Б клас!в активност1 - 1,...,б (Аоуаша, 1990), ноПрошш марока мала 4 нейрона на прихованому р1вн1
типом активност1 А (ш>(п-т)), то з достов1рн1стю п п
Рг(рА>р=0.5)=^;)р1(1-р)п-1^Т1^1Т1-2-п< а/2 (1) .
1=ГП 1=Я1
молекула мае тип активност1 А (Джонсон та 1н., 1987). Формула (1) в1дпов1дав перев1рц! г1потези рА>1/2 (рд=т/п, рв=(п-т)/п), тобто того, що в 01лыпе половиш випадк1в НМ Суде достов1рно перодОачати молекулу як ту, що мар октивн1сть типу А. Формула (1) узагельншться 1 для ви-падку класиф1кац!1 молекул на б!льшу к1льк1сть тип1в активность Вико-ристаннй цього критер!ю дозволяв уникнути неоднозиачност1 пвродбачення молекул 1з контрольно1 виб1рки, як показано у Табл. 2.
Таблиця 2. Розрахован1 активност1 пох!дних м1том1цину для 50 р1зних початкових матриць ваг зв*язк1в
Розрахований тип активност! (к1льк1сть раз1в)
N -■- активн!сть
сполуки 5 4 3 2 1 розр. екс
2 48 2 0 0 0 5 5
4 0 50 0 0 0 4 4
7 43 6 0 0 2 5 4
10 38 12 0 0 0 4 3
16 0 0 21 3 26 3 ЧИ 1 1
а
- нейронна мережа мала 4 нейрона в прихованому р1вн1"
Пор1вняння прогностично! сшш методу нейрошшх мере* 1з 1нши-ми методами пошуку ЗСА Оуло проведено методом зм!иного контролю. НЫ
Метод' Правильно перодбачоно
активн1сть молекул, %
' НМ 4 75
РАНК Ь7 с
АНК 75
показали" тар! к результата пвредбачення йктивнрст! молекул, шс'1 метод, вдаптивних наймешиих квадрат1в (АНК, Morlguchl, 1986). Але, як показано у Табл. 3, ц! результата були'демо ripuil, tiin отримаШ мотодом розмитих АНК (РАЖ, Morlguchl е.а., 1990). Сл1д зазначити, щй АЛК . та . РАШ вважаються одними з найкращих метод!в пошуку ЗСА.
Ыи не проводили виб!р най- • ТаблКця 3. Пвредбачення протипух-б!льш офективгаи параметр!в лшшо, актквност! пох!дшх м1том1шшу
спец1алыю для 1Ш, як це було зроблено 'для АНК та РАНК (Morlguchl е.а., 1990). Такий виб!р параметров 3Mir Си значно П0Л1Пшити пвредбачення НЫ. Проте й отрим2н1 результата СЛ1Д розц1-нювати як ц1лком задов!льи!.
1.3. Розробка методу зиешпешш нейронних иереж
. Знаходження оптимально! арх1тектури найрошю! морож{ для вир1-шення конкретно! задач! е одп!ею з найбхльш' важливих проблем при за-стосуванн! Ш. Результата теоратичних та експершенталышх досл!джень покаэують, що-чим манша нейронна' мережа, там кращв Boiia мае узагалыт-Вати 1нформац1ю, що анал!з'уёться., Але, з 1ншого боку,, 1снують теоре-тичн! -обмекення найменших розм!р1в нейронно! мереж!, за якими .нейронна мерожа не можа взагал1 навчитися конкретно задач! (Karnln, 1990). Сл!д також зазначити, що мэров! з невеликою к!льк!стю нойрои1в на приховаио-му-р!вн1 г!рше навчаютьсй, част!ше потрапляють в локальн! м!н1муш1. В л1тератур! описан! метода змешлення мереж, котр! дозволяють усп!шно знаходити найменшу арх1тектуру'мереж! П1д час навч'ання НМ (Omlln е.а., 1993; Kamln, 1990; Moser, Smolensky, 1987).
Проте, в1дом1 методи на дозволяють виявити найб1льш 1нформативн1 ■ параметра молекул. Ця задача найт1сн1шим шляхом пов'язана зпроблемою пошуку найменшо! арх!тектури мереж!. В обох випадках мають бути вилучв-и! деяк! нейрони, котр! Ш' мають аначпого .впливу на процее навчання нейрошшх мереж. Для вир!шення цих проблем нами .'було запропоновано та розроблено . ориг1нальний метод зменшеш!Я нейронних мереж. Цей метод реал!зуа на р1вн1 зв'язмв одного нейрону принцип посилеНня ("reinforcement"), котрий '1з ycnixoM використовувався в 1гаюму тип! нейронних-мереж, що працюють по типу асоц1ативно! пам'ят! (Fukuahlma 1975; 1980). Для кожного зв'язку'нейрона розраховуеться його чутлишсть зМдно з
Метод полягав в додаткопому коригувшш1 ваг ов'язк!в зг1дно: " ' »0
-¡^2— .якпю шв^в
1 в г (4)
'"к!* „„,„„ _8 -в
л«®1=(л»®1)о1<1-
у * К
А <■;
а.З 'ЯКЩ0
1>Т
да а - кооф1ц1внт нормуваши. При цьому зв'язки з найб1льшою чутлив1стю отримують дэдаткове1 стимулювання для свого росту, а 1нш1 зв'язки пригшчуються. '
Аналог!чно чутлшюст! зв'язку розраховуеться чутлш1сть нейрон!в:
яка в1дображуо величину зв'язку нейрона 1 на р1вн1 в з ус!ма нейронами на наступному р!вн1. Вилучення найменш чутливих нейрон1в дозволяв знайти найменшу врх1тектуру нейронно! морен! для вир1шення поставлено! задач1. Шсля завершения навчакня НМ ми Мокемо проаиал1зувати, зг1дно формули <5), важлив1сть кожного параметру для формування досл!джувано! залятаост! та вилучити наймами важлив!. Адекватн1сть методу була пере-в!реиа на приклад1 ряду теоретичних задач розп1знавашм образ1в. Наприклад, для 1нтерполяц11 функцИ синуса (Мал. 3) запропонований метод дозволив в!рог1дно виявити з двох тестових набор!в найменш за-шумлэнмй наО!р да1Ш1. Результата по знаходкешпо найменшо! арх1тектури нейронно! мореж1. для проблем декодування та моделювання бульово! фун-кцП "виключаючого або" були апалог1чн1 результатам, отримаяим 1ншими. в1домими методами змешення лейротшх мерея, такими як розпад зв'язк1в, розпад чутливост1 нойрон1в та 1ншими (Кгизсйке е.а., 1991).
Таким чином, теоретично модэлввания дозволило нам переконатися в адеквагносг! запропонованого алгоритму для вилучення зайвих иейрон1в для динам1чного знаходаення наймешо! арх1тектури нейронних мере*. Оск1льки запропонований нами алгоритм виявився ефективним для вир1шення теоретичних задач проблем розп!знавашш образ!в,. в1н м!г дзл1 використцвуватися для вир1пення практичних задач пошуку ЗСА. 2. ПЕРЕВХРКА ЗАПРОПОНОВАНИХ АЛГОРИШГВ П0Л1ШЩМ НМ ДЛЯ ВИРШЕННЯ ПРАКТИЧНИХ ЗАДАЧ ЗСА £.1 Передбачення активност! 1нг1б1тор1в зворотньо! транскриптази В1Л-1. Для вир1шення Ц1е! проблеми нами Оуло проведено анал!з сучасно! л!тератури по 1нг1б1торам ЗТ В1Л-1 1 створено комп'втерний Оанк молекул,
О . 0.2 • 0.4 0,6 - 0.8 '• °1
Мал. 3. 1нтерполяц1я зашумлено! функцП у=а ein(i)+b. Для навчання НМ використовувалось два набора даних, що позначен! на малшку як о та х. НМ виявила наб1р 1 (позначвний. □), зг1дио формул! (5), як 01льш чутлисий для навчання;, у пор1внянн1 з . набором 2. Ш повн1стю в1дпов1дав д1йсност1, оск1льки наб!р 1 мёнш зпшушеп'.-Н в1д набору 2.
який включав 44 структура. Del речовшш були Яод1лон1 на два класи: РКТИВН1- та мэлоэктийн1 речовшш. Т1 сполуки, для яких в1дноше1шя ïx ED5q до ED50 АЗТ byло б1льш, н1ж 103, вважали неакгавними. Частина з цих молекул (30) використовувалась. для навчання нейронно! мереж1, а 1нш1 речовшм (14) використовувалися як контрольна висЛрка.
Для кодування молекул розраховувалось 46 топологНниХ iiweKclB, Щ 1ндекси включали як добре в1дом1 1ндекси Klpa, Балабайа, Ранд!ча тэ 1н., 'як1 вже ран1ш широко використовувалися для перодбачення 01олог1ч-но! активност1 (К1ег, 1976), так 1 ряд нових 1ндекс1в, запропоновэних нами вперше (Пода та 1н., 1993). Навча1шя нейрошю! мереж1 одночасно з yciwa Индексами немокшве. В цьому випадку нейронна мережа давала б дужа погаие узагальнення внасл1док паренавчання. 3 iHmoro боку, немож-ливо використувати запропонований алгоритм змэшёння, тому що.це вимя-гало б забагато часу для зменшеюш тако! велико! мвреи1. Тому ми бико-ристали Метод попередньо! оц1нки вх1Дгаос параметр1в зг1дно 1ерарх!чному ■ кластерному анал!зу (пршщип середнього зв'язку). Bel паряматри .норму-валися на одинйчну дисперс1ю. Кластерний анал!з дозЬолив под!лити вс1 параметра на 6 груп. 3 кожного--кластеру використовувалося .для навчання нейронно! мереж1 по одному параметру, що мав найб1льший коеф!ц1внт кореляцИ з вектором активяоет! молекул 1з навчально! вйб!рки.
Опечатку нейронна мережа мала структуру 6-10-2. ВИсть нейрон!в на
поршому р1вн! в^дпоЕЦали К1лькост1 парамотр1В. молекул, а 2 нейрони на вих1доому р1 шц - к!лькост! клас!в (нактивш" та "неактивн!" сполуки) для класиф1кацН молекул. Нойронна мерека швидко нйвчаЛася 1 в!рно пзродбачала активн!сть ус!х молекул з навчалыю! виб!рки. Нашть п1сля скорочешш 7 нейрон!в внутршпьогд та 2 нййрошв першого'р!вня нейрошт мережа все ще правильно навчалася. Подальше ркорочення призводило до помилково! класиф1к'ацП двяких сполук 13 навчаючо! виб!рки. Тому як остаточна нами була обрана структура ИМ 4-3-2. '•
У Табл. ,4 приведен! результата кл.асиф1кац!1 молекул 1з контрольно! виб!рки нейронними мореками р1зно! арх1тектури .;
Таблица 4. К1льк!сть молекул з контрольно! виб!рки, для яких було 1Юв1рно гшродбачено противав1русну активн1сть щодо ЗТ В1Л-13
Арх1тектура нейронно! мерек1 6-10-4 6-3-4 4-10-4 4-3-4 •
к!льк!сть • , с о о.
■ молекул ' * ° ° ,
8 - результата отриман! на основ! статистичпого .энал!зу Прогнозу 40 неаалекних мер.аж зг1дно формули (1). Отриман! результат« статистична достов1рн! (р<0.01). Парадбачекня активност1 для молекул 1з коитрольндго набору значка' пол1пшилось при вшсористашЦ ИМ 1з меншою арх!текг'урою.
11М !з будовою 4-3-2 використовувалися для прогнозу активност!-20 нових сполук, як1 були вцерше синтозован! в 1нститут1 б1оорган!чно$ 11мИ та нафтох1м1! АН УкраПш 1 люб'язно надая! нам С.Г. Ввдшевським та 1н. Т!лыш одна'з рочовин В2 (Мал. 4) була передбачена.як активна з р1вием достов1рност1 р<0.01. Вс! 1нш! молекули були передбачен! з т!ею к достов1рн1стю як неактивн1.
Б1омедичн! досиидаеши йроводилися т1льки для .3 речовин,
= осСГ^^сосНз' «ЖзсЛДсНз
ОСНз ОН ОН ^Ы02 СНзОО^С^ОН
В1 ■ В2 ВЗ
Мал. 4. Молекули, як! використовувались в б!омедичних досл1давн-нях. Молекула В2 була передбачена як високоактивний 1нг1б!тор ЗТ В1Л-1, то було Шдтверджено б1олог!ч1Шми випробуваннями.
СН3СОС1С
молекули Е2,' передбачено!, зпдно прогнозу, як найб!льш активна," та . .двох II найближчих структурних аналог!в В1 та В2,(Мал. 4). Молекула ВЗ виявилася високотоксичною,i для не1 подальт! 01олог1чн1 випробувэння на против1русну активн1сть не проводилися.' Активн1оть сполук 61 та В2 оц1нювалася чотирна методами. Було виявлено, ио сполуКа В2 мае таку ж активн1сть проти ЗТ BIJI-I, як i АЗТ, ала в .10 раз1в менш токсична для кл1тин. Сполука В1 виявилась неактивною. Таким чином, б!олог!чн1 випро-Совування повн1стю Шдтвердили комп'ютерний прогноз активност! молекул. 2.2 Застоеування ИМ для класиф1кац11 л1к8рсышх препарат1в по типу 1х д!1 на основн! сигналън1 систем» кл1ти*и (ОССК). В IBOHX п1д кер!вництвом проф. 0.1. Луйка 1нтенсивно проводяться досл1дження по класиф1кац11 л1карських препарат!в. На першому щабл! 1ерарх1чно1 класиф1кац11 пропонуеться розпод1л'речовин на два ochobiiI класи - -"+1/-2" - ксеноб1отикй, ml посилюють сигнали, що проходять через аден1латциклазну систему. (АдЦ) 1: пригн1чують передачу сигнал1в через фосфол1п1дну сигнальну систему (ФЛСС).Та "-1/+2" - речовини, як1 мають протилежний тип'дП. Нами було проанал1зовино б!льа як 200 препа-рат1в, як1 в1дносяться до цих груп. Частила цих молекул вже анал1зува-лася ран!пю (Пода, 1992). 0ск1льки стандартн1 метода лШЯного дискри-м1нантного анал!зу (ЛДА Ф1шера, ДДА методом найменших квадрат1в) показали низьк1 результата при навчанн! (60-70%) та прогноз1 нових молекул (50-60%), Пода застосовував для анал1зу ориг1налышй Ямов1рносно-статистичний метод (ИСМ). Неефективн1сть мэтод1в ЛДА вказуд- на склад-н!сть вир1шення ц1е! задач1.
Ми спробували вир1шити цю задачу, методом НМ. Контрольна виб!рка була значно розшрена за рахунок вклвчёння 60 нових молекул, як! буди в1днесен! до одного з двох клас1в активност! зг1дно принципам, що викладен1 в ,робот1 Луйка, Мог1левича (1992). Сл1д в1дм1тити, що внасл1док неповноти 1нформац11 про д1ю сполук для деяких молекул як 1э навчалЬно!, так 1 контрольно! виб!рки м1г бути неправильно визначений тип IX активност1 щодо ОССК.
Навчвння ИМ проводалося, як описано вище при йнал!з1 1кг1б1тор1в ЗТ В1Л-К Застосування НМ з меншос арх1текТурою дозволило значно пол1п-пшти передбачення активност1 молекул • 1з контрольно1 виС1рки, як показано на Табл. 5.
НМ показали кращ1 результата при навчанн1 та прогаоз1 активност! молекул 1з контрольно! виб1рЮТ, в пор1внянн1 з ИСМ Та методом к-найближчих сус1д1в. Проте, анал1з молекул, котр1 кодуються вектором IX параметр1в, не дозволяв вияйита т! структуры! елемэнти чи фармакофор.
Таблица 5. Класиф1кац1я сполук по типу Л.дИ па ОССК.
Метод . ■ % В1рш1х кл9оиф1кац1й адя виб!рока
, , навчалыю! . контрольно!.
к найбликчих сус!д1в • 7Ь 68 .
ПОМ 87 70 . ;
НМЬ (15-15-2) , • 100 70' ■ ,
НМ <15-6-2) 100' ¿8 ' •■. '
НМ . (10-15-2) 100. 72
Ш (10-6-2) ' 95 74
а - навчальна ви01рка складалась 1з 111, а контрольна-13 90 молекул
- в дужках показана арх!тектура нейронно! мереж!.
як! в1дпов1дають за прояв тщу активност! , во спостер1гаеться. Такий
анал!з можна зробити, напршслад, ЕТМ.
Для анал1зу ЕТМ Оуло взято по 20 молекул 1з кожнох гру1Ш. Це Оули, головним чином, и(оротк1 структури з обмеженим числом ступен!в свобода, для яких була правильно перодбачена .активность методом Ш. Застосування ЁТЫ дозволило виявити фармакофор (Мал. б), яйий зустр1чався у 17 1з 20 молокул з групи "+1/-2". Цей фармакофор взагал! не зустр!чався у структу-р1 речовин групи "-1/+2" 1 моке бути екзаменуючою ознакою для в!днесення. молекул до групи "+1/-2". Спроби знайти який-небудь загальний фрагмент у ' СудовI речовин 1з групи "-1/+2" не призвели до статистично значимих ре-зультат1в. Цай факт можна поясшти наявн1стс дек1лькох альтернатив! шх механ!зм!в взаемодИ молекул групи "-1/+2" з компонентами ОССК, для конного з яких характерна своя тополог!я активного центра. .
Обговорения результат1в досл!джень Як було вказано у вступ1, великий пот1к нових синтезованих х1м!ч1шх сполук, необх!дн1сть хх О!олог!чних випробувань вимагають значних матер1альних та людських ресурс1в. Ц! проблеми пост1йно. сти-мулюють досл!дник1в на створення. теоретичних розрахункових метод1в поредбачення б!олог!чно! активност! речовин на основ! IX структурно! формули. Проблема пошуку ЗСА е складною задачею. НЫ, як! мають чудов! якоот1 щодо нел1н1йно1 екстраполяц!!, мокуть . виявитися найб1лып адекват1шми для вир1шення ц1в! .надзвичайно важливо! задач1, •■
Проте, в деяких випадках безНооередне застосування Ш для анал1зу ЗСА моле привести до виявлення випадкових зв'язк1в, що в результат! цоНршуе результата передбачення активност! нових молекул. Для випадку
Cl (012) N (•ЛИ) с2 . (0 13) Сз (-оол) С4 (0 12) с5 (-0 Об) ч (-0 04)
1.46 2 40 4.86 2.42 5.01 6.12
к 1.46 5.70 1.46 6.38 7.37
сг 5.65 2.39 7.28 8.28
Ст 6.86 5.62 6.50
С«. 7.08 8.25
с 5 1.40
Мал. 5. Матриця в1дстаней м1ж атомами фармакофора, ио був .знайдений ЕТМ. У дужках вказан1 заряди на атомах.
досл1джоння к1льк1сного зв'язку структура-активн1оть (Andrea е.а.,.1990) показана можлив!сть поПршення передбачення активност1 нових молекул при зменшённ1 параметру р, який дор1вшое в1днои!енню к1лькост1 анал1зо-взних даних до к1лькост1 ступен1в свобода мереж!. Наш! дослЮТення задач ЗСА вказують на момивЮть виникнення за цих же причин неоднозначного пйредбачення активност1 молекул 1з навчальНо! виб1рки НМ. Проблема уникнення нбстаб1льност1 передбачення НМ в актуальною при застосуванн1 НМ. не т!льки для задач пошуку ЗСА. але i для велико! к1лькост1 задач практичного використання НМ в !шшх галузях науки та техн!ки. Нами було показано, що подолання цього неДол1ку НМ можливе при використанн1. ста-тистичного анал1зу ряду незалежних передбачень методу (нейронних ансамбли), отриманих при навчанн1 нейронних мереж 1э випадковими початкови-ми значениями матриц1 зв'язк1в. Застосувшшя НА. до дужё вежливо, дозволяв оц1нити р1вень достов1рност1 отриманого прогнозу.
Зг1дноэтеоретичним* досл1дженнямй-(Sletsma е.а., 1991; Hlnton,
1987; Hiroae е.а., 1991), узагальнепня нових даннйх НМ мдв пол1пшувоти-ся при використанн1 НМ з меяшоп врИтейтуров. Ц1 висновки були п1дтверджен1 нами при передбачеян1. активност1 1йг1б1тор1в ЗТ В1Л-1. та класиф1кац11 речовин по типу 1х Д1! на ОССК. Застосування НМ 1з меншою арх1тектурою зб1льшувало процент в1рних передбачень. Особливо великий вплив на пол1пшення передбачення активност1 речйвин чинило, зменшепня числа не1нформативних параметра. Для вирНиенНя проблеми вилучення таких параметра та динам1чного знаходження наймегаго1. архИектури ней-ронно! мереж! нами було запропоновйга йовий' ориПнальнйй метод. 1дея запропонованого методу аналог1чна 1де! конкуренцИ„ та посилення ("reinforcement") нейрон!в, яка була застосована в моделях копИтрона та неокогн1 трона (Fukushlma,. 1980), ала в нашому випадау ця 1двя реал1-зована на р1вн! зв'язк1в одного нейрону. ЩективнЮть запропонованого
- 13 -
методу Оуло nupúBípeHÓ на приклад! як теоретичних задач проблеми роз-Шзнавання образ1в, так i практичних. задач пошуку. ЗСА. ■ ,
РозроОлон! матоди пол!пшення узагальнэння даних дозволяють з'начно. пол1пшити передбачення НК|. Наприклад, ,НЫ показали'.кращ! результата передбачення активнойт1 нових молекул для задач!. класифкацП речовин но типу 1х д1! на ochobhI сигнальн! системи кл1тшш, в пор1внянн1 з методом k-найближчих сус1д1в та ИСМ.Для задач! передбачення протипух-линно! актнвност1 молекул, поздних м!том1цину, результата передбачення НЫ сп1впали 1з результатами АНК (Moriguchi, 1986), алв були дещо г!рш1, н1к отриман! методом РАЁК (Moriguchi е.а., 1990). Ми не проводили детального пор!вняння результата передбачення НМ i.3 результатами, отри-маними 1ншими методами на велик1й к1лькост1 1нших задач. Але й ц1 отри-Haiii результата в багатообШяючими, зважаючи на велику склада!сть, розв'язуваних задач '(Пода, 1992; Moriguchi е.а., 1990). На жаль, висновки про перовагу НМ, у nopibiwinil з традицШшми методами виявлен-ня заложност!, номожливо зробити на ochobí анал1зу 1нших л1тературних даних (Chaatrette.e.a., 1991; II е.а., 1993; Sitting е.а., 1992), хоча в згаданих працях автори. роблять як раз так! висновки. Досл1джешш, що описан! в ц1й дисертацП, вказують на можлив1сть спостерекешш ви-падкових кореляц1й припрогноз1, активност1 нових молекул. Як раз так1 корвляцИ мали м1сце в робот! (Aoyamá е.а., 1990), результата яко! ми використали в сво!х досл1дженнях. 3 1ншого Ооку, критичн1 зауваження • про випадки поганого передбачення Ш для нових молекул (Liu е.а., 1.992)' ■ т.чкож можуть бути насл1дком випадкойих кореЛяц1й НЫ, з тих же причин.
Хоча наш анал1з торкався випадк1в застосувйння НМ для вир^ення задач пошуку ЗСА, деяк1 висновки можуть бути зроблен1.також 1 для проблеми пошуку к!льк1сного зв'язку структура- активн!сть-. Для отримання сталих прогноз 1 в в цих випадках також доц1лыю проводите статистичний внал1з низки незалехних передбачень та розраховувата середнв значения та дисперс1ю активност! кожно1 молекули, що анал1зуеться.
На жаль, метода пошуку ЗСА, як1 Ьикористовують ^одування молекули воктором 11 параметр1в (1D метода), на дозволяють виявити конкретн! фрагмента Оудови молокул, що в1дпов1дають за той чй 1нший вид С1олог1-чно! активност1 молекул. Сама пошук такого фармакофору .в найбльи важли-вим для практичного ц!леспрямованого створення ноеиХ речовин. На приклад! задач! класиф!кац!1 молекул по типу íx д!I на ОССК ми йроанал!-зували можлив!сть використання ID метод1в для попередаьо! обробки маси-ву молекул та вибору невелико! к1лькост! найб1льш типовйх структур для подалыоого анал1зу методами, що враховують просторову;будову речовин.
Ми використали ЕТМ, який дозволяв найб!льш ч1тко виявити фармакофорн! •елементи мацекул.'
Застосувашя ЕТМ дозволило виявити фармакофор,. той ¡снуо у б!льшост1 молекул 1з групи "+1/-2".1 в1дсутн1й у молекул 1з протилеино! групи. Спроби виявити який-нёбудь загальний. фрагмент для молекул !з групи "-1/+2" не призвели.до статистично значимых результат1в. Цо можна пояснити нэявн1стю б!льш ч1ткого розпод1лу електронно! густини сполуи першо! групи та передбачити, що мохан!зми взаемодП цих речовип з регу-лрючим сайтом б1опол1меру визначаються, наявн1стю знайденого фрапленту, Стосовно речовин груш "-1/+2" можна передбачити.наявн! сть дек1лькох альтернатив'них, або . взаемодоповнюючих. механ1зм1в, ' для кожного о яких характерна своя топоЛог1я активного центру. , '
ВИСКОВ К И
1. Показана можлив1сть виникнення нестаб1льност1 прогноз1в, випад-кових короляц1й 11М при його застосуваШЦ для задач пошуку ЗСА.
2. Вперше.для анал1зу передбачейь методом Ш застосовано стати-стичний п1дх1д, основою якого в закони С1ном1нального розпод!лу. Цей п1дх1д дозволяв запоб1 гти бипадкових кореляЩй та вирахуватй достов1р-н1сть прогнозу активност1 нових молекул.
3. Розроблено ориг1нальний метод спрощ&ння Ш, що дозволяв виявити п1д час навчання най01льш ваклтз1 параметри та динам1чно знаходити наймэншу арх1тектуру НМ. Ефективн! сть алгоритму продемонстрована як на приклад1 класичних задач теорИ розп1знавання обраэ1в, так 1 практичяих задачах пошуку ЗСА. .
4. На приклад1 прогнозування 1нг1б1тор1в ЗТ В1Л-1 та класиф1кацП речовин по типу !х д11 на ОССК показано п1двищення в1рних передбэчояь активност1 молекул НМ при використанн1 вказайих вище алгоритм!в. 0триман1 результата п1дтверджують теоретичн1 висновки про пол1пшення узагальнення даних нейроннимй мережами з меншою врх^ектурою.
5. Показано, до анал1з даних нейронними мерйжоми може бути вико-ристаний як попередня класиф1кац1я молекул для настушдах "досл1джень методами, що враховують просторову будову молекул; Застосування ЕТМ для задач1 класиф!кац1! сполук по типу .1х дИ на ОССК дозволило виявити фармакофорн! елементи, котр1 можуть визначати збудження АдЦ системи та гальмування проведения сигнал1в МСС. *
6. Проведен1 досл1даення п1дтверджують справедлив!сть використано-го п1дходу до рац1онально1 класиф1кац11 ф1з1с(лог1чно активних речовин та в!дкривають нов! перспективи !х розрахункового конструювання.
OchobhI катер1али дисертацИ викладен1 в публ1кац1ях.
1. Луйк А.И..Кухарь В.П., Радчанко И.В., Ильяшева Л.М., Найденова И.Ю., Пода Г.П., Кондрашова Л.Н., Тетко И.В. Стереотипный компонент механизма действия ксенобиотиков // ДАН УССР, Сер. Б.- 1990. - * 8. -С. 67-70. '' ' ' '
2. Пода Г.И^, Тетко И.В.. Луйк А.И., Могилевич С.Е., Кухарь В.П. Расчет структуры универсального фармакофора, определяпцего элементы стереотипии в действии лекарств // ДАН СССР. - 1991. - т. 317, * 2. -С. 488-491. .
3. Луйк А.И., Тетко И.В. Анализ ряда флавоноидов - ингибиторов цАШ фосфодиэстеразы модифицированным методом Хопфингора. // Тезисы I Всесоюзной конференции по теоретической органической химии. Волгоград. - 1991. - С. Б20.
4. Пода Г.И., Тетко И.В., Могилевич С.Е., Луйк А.И. Выявление элементов структурной общности веществ, сходно действующих на клеточные сигнальные системы // Хим.-Фарм. журнал - 1992. - * 2. - С. 15-18.
■ 5. Тетко И,В., Твичук В.В.; Луйк А.И. Применение нейронных сетей для анализа взаимосвязи "структура-активность" при малом числе молекул // Тезисы Российской научной конференции "Конструирование лекарственных средств". Москва. - 1992*. - С. 43-44.
6. Тетко И.В., Пода Г.И., Танчук В.Ю., Луйк А.И. Анализ модифицированным методом Хопфингера фосфодиэстеразной ингибирущей активности, флавоноидов. // Теор. и зксп. химия. - 1993. - т. 29, * 1. - С. 63-69.
7. Пода Г.И., Твнчук В.Ю., Тетко И.В., Кошель М.И., Луйк А.И. Применение Топологических индексов для прогнозирования 5-липоксигеназной ингибирущей активности в ряду Гидроксаматов. // Теор. и эксп. химия. - 1993. - т. 29. * 2. - С. 122-125.
8. Tetko I.V., Luik A.I... Poda G.I. Applications or Neural Networks In Structure-Activity Relationships oi a Small Number of Molecules. // J. Med. Chen. - 1993. - v. 36, Jt 7: - pp. 811-816.'
■9, Tetko I.V., Lulk A.I. A Node Pruning Algorithm fpr Feed-Forward Neural Networks. // J. Intelligent Control, Neurocomputlng and Fuzzy Logic. - 1993. - Y.I, - pp..'
10. Tetko I^V., Koshel M.I., bulk A.I. The Simple Pruning Algorithm lor Feed-Forward Neural Networks. // Abstracts of International Congress on Computer Systems and Applied Mathematics CSAM'93. St. Petersburg. - 1993; - pp. 219-220.
11. Tetko i:v., Tanchuk V.Yu., Lulk A.I. Applications of Neural. Networks to a Small Dataset Structure-Activity Relationship. //Poster
Presentations or 12th Annual Conference or the Molecular. Craphica Society. Interlaken, Switzerland. - 1993. — p. 86. /..
12. Tetko X.V., Tanchuk V.Yu., bulk A.I. Application «!, an.Evolutionary Algorithm to the Structure-Activity Relationship.'.//-. Proceeding ol EP'94 (The Third Annual Conference on Evolutlonary Progmmingt, San Diego. - 1994. pp. 207-222.
13. A.С." ГоскомизоОретений СССР от £7.06.91, Я 4951446/04.
(055216): 3-(2-Бензофурил)-7-гидрокси-8-метилхромон,. обладаний ■ проти-. во воспалительной активностью (В.П. Хиля, В.Н. Ковалев; И.А.' Зупанвц; -.•; Г.И. Пода, И.В. Тэтко, С.А. Васильев). s
ГИдп. до друку. Ц СХ. 9Л- Формат»»« »ч'/ц Пап1р'0f>t
Лрук. офс. Умовк. друк. арк. С, IS Обл.-вид. арк. е, ft тир. too
ч
Зам. Ч-lOtt
КпТвська кнпжкова друкарня науковоТ кинги. Ки1в, .Рсп1на, 4.
V 17 {