ИЗВЛЕЧЕНИЕ СТРУКТУРНОЙ ИНФОРМАЦИИ ИЗ МАСС-СПЕКТРОВ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ С ПОМОЩЬЮ ЭВМ тема автореферата и диссертации по химии, 02.00.04 ВАК РФ
Лебедев, Константин Сергеевич
АВТОР
|
||||
кандидата химических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
1981
ГОД ЗАЩИТЫ
|
|
02.00.04
КОД ВАК РФ
|
||
|
шшс1ерств0 сельского хозяйства ссср
Иэсковская Ордена 1енхна и Ордена Трудового Красного Знаменв Сельскохозяйственная Авакемая имени К. А. Тимирязева
■ .. на правах рухошся
Лебедев Константин Сергеевич
шишнзив стршхрной информлции из иасс-ошсгров органических соединений с ПОШЦШ ЭВМ
(02.00.04 - <|язическая химия)
Автореферат диссертации на- соискание учёной степени кандидата химических наук
Москва- 1981
Работа выполнена,в Новосибирском институте органическсл зааши СО АН СССР.
Научный руководитель:' академик АН СССР, доктор химических наук КоптюгВ.А.
Научный консультант со вопросам использования ЭВМ в'масс-спекгрометрш: кандидат химических наук Дерендяев Б.Г.
Официальные ошоненты: доктор физико-математических наук профессор Гримов Л.А.кавдядат хишческюс наук Бродский Е.С. -
Ведущая организация: Институт химической физики.АН СССР.
Защита диссертации состоится "_" _1361 г.
в "_часов на заседании Специализированного Совета
K-I20.35.04 в Московской сельскохозяйственной Академии имени К.А.Тимирязева - 127550, Мэсква И-550, ул. Тимирязевская,""4Э, Ученый "совет ТСХА.
С диссертацией можно ознакомиться в Центральной научной
библиотеке ТСХА.
-
Автореферат разослан "_" ■ 1981 г.
Ученый секретарь Специализированного
совета кандидат химических наук Князев В.Н.
N
0Н2АЯ ХАРАКТЕК'.СИКЛ РАБОТЫ
Актуальность темы! Еирокое использование методов.молекулярной спектроскопии является отличительной чертой современного этапа исследований в области органической химии. Применение этих методов обеспечивает существенное ускорение темпов научных работ наоткрывает принщшиально новые исследовательские вогмошоста,
Иасс-спектрометрия - одан из наиболее информативных методов ьтадекулярвоЕ спектроскопии, возводящий получать.сведения о строения органических соедкноязй с использованием очень ьвякг количеств ' образцов (до 1СГ®г). Цвдако использование этого метода связано с - рядом трудностей, основной вз которых является сложность е во кно-ш случаях неоднозначность выявляемых спектро-структурных корреляций. Это вынуждает исследователя формулировать болызоо число гипотез о строении изучаемого соединения, прячем возможность выхода ' на правальнул ганотеэу в значительной степени определяется тем, работал ли ранее исследователь с соединениями того класса, к которому принадлежит анализируешь образец. Не удивительно поэтому, что в последнее время проявляется повышенный интерес к разработке штатных методов "расшифровки тсс—спектров. Этому в немалой степени способствует наличие больших библиотек, содераагах янфоршцлю о десятках тысяч шсс-спектров низкого разрегения. Автоматизированные системы, базирукцаеся на мааашнх библиотеках, могут бить использованы как для идентификации ранее - описанных соединений, что имеет важное практическое значение для исследований, связанных с проблемами охраны окружающей среды, анализа побочных продуктов телюлоппескнх продессов,хригланатистнки и других областей, так и для установления строения новых синтезируемых или выделяемых из природного сырья соединений.
Паль щбо^ы,- Настоящее исследование посвящено разработке ма-сшпшх систем, базиругЕЖся на каталогах полных масс-спектров низкого разрешения, и предназначенных для оказания исследоватеяю по-ыэ=31 в установлении строения органических соединений. Это исследование продолжает работы Новосибирского института органической химии и 11аучно-ин4ормашюнного центра по молекулярной спектроскопии . СО АН СССР по создании мп^тн!«: банков дшшкх и малинных методов анализа различных видов иэдекулярнше спектров. В данной работе преследовалась цель обеспечения решения двух основных задач:
I) идентификации индивидуальных соединений по" их масо-спект-
рам низкого разрешения; ^ Центр. вац::а «35Я
Мзск. орд,-.Л:ки с«::з», шд. из, К. д, Тжолзла ШЗУШ.
2) выявления основных структурна особеююстсй соединений, шсс-спектрн которых отсутствуют в ыапшшои каталоге.
Необходаше требование, предъявляемое » разрабагыпасми системам, - эффективное регснно структурных задач m объектах произ- * .. вольных классов хпзяпеских соединений & воэдаяность их сирокого использования в исследовательской прашихе.
Научная покипи». На осиово статистич с ско го анализа достаточно представительной байте теки иасс-спектров оргаютеекдх соединений ©"орнулированы новио прижали сохранения полных иасс-спектров s осеккл мери близости срашиваеммх спектров и оэдедмппс групп спектральных признаков.
разработаны ноше иагишше сгстеии, предназначенные для идеи-, тв^лкаиии ранее одисакшдс соединений и ыитлешм структурных особенностей ношх соединений по их иасс-спег.трац низкого разрешения.
Продемонстрировала высокая эффективность использования статг-стичесгюго подхода и базируггдасся на не» систем для pezcinui структурных задач органической хдыдг.
Показана пражопшальноя возможность подпой аотоиатнзадаи процедура выявления сгруктур!шх особенностей неизвестных соединений do результатом мадпаюго анализа ех ыасс-спег.тров.
Теоретическая ъ пшпктячоашя тнпость. Разработанные статао-тичесгаю npneini сокращения полных спектров и опенка степени подобия срашшваешх спектров явлится достаточно упиверсальныни и могут битв, со-Елдаючг. использованы црд создошш подобных слстеш для других видов молекулярной спектроскопии, шшршер, 1К и fiïfP^C.
Созданные в ходе выполнения данной роботы машинные системы шгут найти практическое применение во izror&f областях хзшзческах исследований, в которых рсггштся задача устаяовлеюш строения соединений со их молекулярным спектром. В частности, она ухе используются в практической деятельности KJÎQI & ЮЩ № СО АН СССР, а тайга ЕНЗБШОПГЕО.
Апробздря работа. Результаты роботы доложены л обсуждены на 17 Всесоюзной конференции со аналитической химии органических со-едявенкй <г. Москва, 1980) в У Всесоюзной коифоренциипо использованию вычиодителышх малин в спектроскопия молекул s химических нселодоваляях (г. Новосибирск, 1980).
Птйзикашш. Основной материал диссертационной работы опубликован в трех статьях в теэасах двух конференции.
ÇypmtTypa в объем работа. Диссертаяшх излоаена на 131 страни-
це мптттнопдсаого текста и состоит из введения, четырех глав, обдах выводов и спгска цитируемой литературы, включающего 105" ссылок. • Иллюстрационный материал - 18 рисунков и 27 таблиц. .
ОСНОШОВ СОДЕРЖАНИЕ РАБОТЫ'.
Во ньедешш лается обоснование цели настоящей работы, кратко характеризуется методы реЕе)пш" поставленных зэд'ач и. приводятся основные выводы. , . .
В первой главе праводитсн обзор литературп'на.тену; "Извлече-нгс структурной ■ информации из масс-спектров низкого. разрешения с помогцьго ЭДУ. В керша часта обзора обсуждёны капанные методы ре-гения задачи вдентнфикаада ранее описанных соединений и различные поисковые алгоритмы. При этем особое шмше уделено наиболее важным фактором, опредедякда эффективность решения данной задачи.
Вторая часть посвящена капанный методой аиалаэа гасс-спектров низкого разрешения с целью оказания исследователю подает вря установлении строения новых соединений.'В этой области исследований выявилась три основных направления: "распознавание образов", "искусственный интеллект" и "библиотечный поиск аналогов". Анализ литературных данпых доказал, что последнее направление является наиболее перспективным, так как оно не имеет принципиальных-огранзче-нпй на классы исследуемых соединений и ориентируется на выявление ■ структурных особенностей: без использования предварительно сформированных таблиц ссектро-структурных корреляций.
вгород главе ссасывается алгоритм и разработанная на его основе каашная система "Ицент-МС", предназначенная для вдентк^и-кндивгдуальпш; органичесаяЕХ соединений. -С пошецл ЭВМ идентификация исследуемого соединения осуществляется, как правило, путем сравнения его спектра со спектрами соединений мзшнпого каталога. Несмотря на ка^цухюя простоту, ре-сешт данной задачи связано с радом существенных трудностей, подробно обсуждаемых в обзоре литературы.'-
Одной из наиболее важных задач, возникавдих при создания по-' исковых систем, яшшется укещлюнйе объема спектрально.! информации записываемой на внесшие носители памяти ЭБМ. Существует несколько вариантов ресенпя данной задачи, среди которых.наибольшую популярность подучил предложенный впервые ".Биманом. с сотрудниками способ сокращения полных спектров, заклгчащийся в отборе из каждого интервала в 14 т/2 двух наиболее интенсивных пиков:'Этот способ
т/г
Ряо. I. Заввсемость частота встречаемости пжов N (лгала по N ло-гарнфгичесгая) от эиачонжа т/2 в каталоге из 4903 сокра-п;дттцт масс-спектро В.
одвадо ее учитывает реальную раслростравенностъ линий в спектрах соединетай штанного катагога. Проведенное кшш изучение статястж-ч в его го распределения ланий со значениям т/2 в каталоге из 4903 полных шсс-спеягров шхазало, что соотпсгсиже числа линдП, отба-раеясс из интервалов 14 m/2t должно составлять црайжазительно 3:2:1 дяя областей 20*117, 116*187 и 180*705 едшшц m/Z. Ксдадъ-зопаяве отого, основанного яа статистачесном анализе способа сох-розевЕя спектров, вклвчаеша в поисковый каталог, позволяет в шш-' читальной степени устранить субьектавази асслодоватолл s праводгт к уценьшешт среднего числа лшшй, прзюашдася ва одкн спектр, в средней о 68 до 20.
В бозывтетве опвсатшх радов поисковых алгоритмов при оценке подобая сравнивавшее спсатров совпадению лкляй в различных областях слшстра придается одинаковое значение. Одпаго из pitc. X следует, что ПД01 с различными значениями лг /г следует учитывать 09 развоиу. Оченвдно, что совпадении наиболее часто встречаетжхся в спектрах даосов, напрливр, с т/2 27, 43, 45 и т.д следует придавать иенывеа ав&чевхе, чей менее распространенным шпеам. Лдя оценка значимости совпадения значений т/2 лзшиЗ сравниваемых свекров использовались целочисленные значения фок то ров М :
м —U) ■
где Рт - относительная частота встречаемости шков о дптпша значением т/Вт.е. Рт в N/4903 (cuipzo. I). *
Аналогичным образом било исследовано статистическое распределение лшшй со юс интенсЕшостяц. Относительные' значения пнтенезга-постеИ лятй s спектрах^ одшзх it тех же соодппонпй существенным образом зависят ог уагопзй-их регистрами, лозтоиу гш сочли возшх-пим при оценке подобия сравниваемых спектров оценивать совпадения lie ccjjzt значений шпенслвностеа, а определенных интервалов. (Д ), в которые опя.попадает: - , • - . ■
I="l0g2'P*(2)
где Р^ (¿'j отдосптслъиал частота встречаемости в каталоге сохраненных спектров лшей,' интепспвностп которых попадая? в вн-' тервзд значешй Д . - . .
Границы кнтерсалов СХ+З.З^, 8.4+24.24.3+50.2i,v50.3+8?.S£i п Б7.Э+10С#) определены тагам образом, чтобы фкторц значвмосха I пркниналп целочаслешшс значения: I, 2, 3, 4 а 5 соответственно,, Такта образом, совпадешго- более интенсивных линий придается болъ^-сее значение, •- . ■ . -
Ддя оценки степени подобия сравниваешь спектров' предложен достаточно простой критерий - Доктор совпадения (2С):
ФС = 10<MV/WX ,Z V . ' (3)
где VV - суюаршй фактор зяочииоств совлаших знапмшЗ /Л/2 з ЕПтенсшшостеЗ литй спектра неизвестного соединения (X) и спектра шгяншго каталога (К):
W=XM, ■*:.' .(4,
Il*I?-I? , ССЛП I;SI[ . Ii-=0 . есяа ГГ If. V
Wx- суисфныЯ фактор значимости всех'лзшпЗ спектра неизвестного соединения:
Wx = S(M+wt • (5)
EupascHae (3) в осшшш чертог отражает логику иасо-спектроиет-рдстов spa реяешш вопроса об идентичности сравниваемых спехтров,
т.е. больсее значение прадлется совладению наиболее интенсивных линий с "редкима" значениями CT/Z , и чем больше относительное содержание таких линяй, тец банде вероятность того, что сравнивав-■ ше спектры принадлежат одному и тоиу же соединению.
Результатом работа сг.стеьа "Ндент-И?" является «ашнный ответ, дредстаилягсай собой ciraccic названий соединений поискового каталога, спектры которых наиболее подобны спектру'анализируемого соединения, т.е. дшот наивыссис значения W.
Возможности использования этой система при иденте^якаанп ор^ ганнчеезак саедйнеииЗ одененн на примере анализа масо-спег.тров 217 различных сосдяыониЯ, представленных .в катавшем каталоге со крайней поре дцуия спектрами кз разных литературных источников. Сказалось, что средняя вероятность появления изучаемого соединения на ■порвем не сто кхлапюго ответа составляет 7££, а среда первих пяти соединенна - ЭС^.-При указании малеку-ляршдс весов (КЗ) исоледу-еш соединений соответстБухсде сороятлоста возрастает с достигают eei я 99ji. ' ' ; ■
Полученные вчходс этих экспериментов результаты позволили также заклшить, что наряду с вжолнешеы основных ^пааД, - система обладает достаточно хорсеей способностью отбирать из шашвопэ каталога структурные аналоги исследуемых сосдшгспий. Ото обстоятельство дало основание полагать, что использований.в ней статистический подо« повет' оказаться плодотворным для сгстеиы более ш-сского уровня, ориектзровашгаЗ на сказание исследователю помоэд в установлении строения соединений, «асс-сясктрн которих отсутствуют в машинной каталого.
В тг^тт^й т^-nw. описываются принципы, алгоритм и разработанная на ttz осново Этапная ссстею "Квтвр-МС", предназначенная для выявления структурных особенностей ноизвестнцх соединений по их иасо-сгсктрам низкого разрегеташ.
При выпостешш этой часта работы кы стреадлдсь к соэдшшв спстеш, позволявшей по рлду касс-споктроуетргчеоаа признаков неизвестного соединения отбирать из маашшого каталога структурно-подобные соединения, последупцай анализ которых давал бн возможность получать достаточно полные и достоверные сведения о строе- -шш изучаешго соединения.
Разработанная в ходе данного исследования система "Интер-ИСи базируется па использовании двух наиболее информативных в структурном отношении груш спектральных признаков, связанных с абсолютным (пика ионов) и относительным (первичные нейтральные поте-
Таблкса I.Спектральные признаки,используемые в системе "Интер-МЗ".
1 Спектральные признаки Диапазон использования Весовой фактор
ПОИСК А Пики ионов т/г =20 + 705 -- - 0 = з +
ПОИСК в "Первичные потерн" ит *М8-Шу7) Ш <= 0 + (МЗ-20) 3 а I + 1С0£ . -
3 § 1 Пики конов и "первичные потери" /л/г = го + 7С5 &т = о + пЗ/2
3 - интенсивность пика.
ри)н положением лшшй в масс-спектре. По аналогии, с системой "Идент-Ж" для оценки подобия сравниваемых групп спектральных признаков (си. табл. I) использовались весовые факторы и У/АВ, характеризутагие суммарную статистическую значимость совпадения отдельных элементов празнакоз: т/2 (фактор М )5И, интенсивностей (фактор I ) н величин "первичных потерь" ЫП (фактор Ь ), причем:
ь=-юд2Рлт, . се)
где Рд^]— относительная частота встречаемости в спектрах ма— гзашого каталога "первичных потерь"' с заданной величиной Д/71.
Для практического использования значения факторов Ь округлялись до йлииайгего целого. Например, для "первнчных потерь" с величинами ЛШ = 35,. 29, 43 единиц = I, дгя йШ - 38, 27 -Ь = 3, а для ¿/Л = 26, -10, 50 -
Результатом работы системы "Интер-НС" при анализе масс-спектра цеизвеспгого соединения в режимах "ПОИСК А'V "ПОИСК В" или
* Тергдш имеет формальный характер, отражая различие (й/71 ) в значениях/я/г молекулярного и рассматриваемого осколочного иона, независимо от возможного механизма фрагментации.
ш В этом случае при вачвс-теции факторов М частоты встречаемости пиков (Ы ) при выбранном■значении та относились не к обгвму числу спектров малинного каталога, а к чнсду спектров соединений, молекулярные-веса которых больше или ровны данному значению/я/г .
"ПОИСК АБ" яеляотся список соединений машинной библиотека, слехт-ральнне признаки которых давт щюпнслге значения «»акторов WA, WB иди WAB соответственно,
Воздаззюсти использования этих режимов для резедия структурно задач оценены на примере анализа масс-спектров 67 разнообразных органических соединенна, структурные аналоги которых имелись в icraiiKoS библиотеке. Рассмотрим наиболее характерные особенности полученных при этом результатов.
I, Рехйм "ПОИСК А" позволяет в подаакягсем большинстве случаев отбирать структурные аполога исследуете го соединения, соследую-сзй анализ которих дает вовмсдность выявлять связанные стру&зураиа фрагменты, характеризуюе, наг права», больцуп часть шлекули Еэучаешго соединения. В качестве примера hsso прлведшш максима-дытао обдзо структурные блоки, шяелсшою в соединениях ш^ишшх ответов, шяучшпшх при анализе масо-сдсктров трех "неизвестных" соедилежА.
"Нелзвосхпоо"",«оевтенио ОЛэЙ структурный йлод
oia-ícogJs-oootaj -(CHgJg-COOCH-j *
СИ С7!
СВз СНз ct^OÍ- (cHg >з-сз-саз ^рп 1 Сй, СИ-, JL V i L m с&ам cagíg-oMs-caj
<xj
2. Сранштелыша результатов, полученных в рехамах
"ПОИСК А" в "ОШСС АН" на одштх п тех хе объектах, показал, что они, icos правило, садтверядшзт в дополняет друг друга, что евпдо— тежьстдует о целесообразности совместного использования этнх.ре-пуяьтатов щи формулировании гипотез о воаиоисном строевшд вручаемого соединения. Прсанлоотрируем это только двумя примерами (ниже
а Здесь в далее черточка; означаю свойсют» валадтивоть.
приведены названия трех первых соединений, отобранных ЗВЫ в результате анализа пасс-спектров даре "нсяевостша" соединений).
а) "Неизвестное" соединение: 1,7-птметилипдол. ПОИСК А: 2,б-дицетняжндол. 2,3-дшатшошдод, 2,О-дшиетюгиндол. ПОИСК В: 2,0-дииетеливдаа, 2,5-даыетядгощод, 5,7-дкиеталицдол.
б) "Неизвестное" соединение: оталовнй э£зр м-брокбонзой-
ной кислоты.
ПОИСК А: о-броАйензойная кисло та ,71 -бромацетофопон, м-бромакето-
4<снон.
паюк В: эталонна эфир бензойной кислоты, /2-бром$енетол, атшовмД
ц-глорбензойиой кислоты. В первом случае результаты двух вариантов поиска очень близки, что позволяет с достаточно высокой уверенность» предположить наличие в "псизвесгнса" соединении гадального кольца. Во втором - демолстря-руется возможность получения разнородных сведений о строении изучаемого соединения; по результатам "ПО/.СКа А" ыохло предположить присутствие в молекуле исследуемого образца £рагаента бензилшого строения в атома броаа, а результат "ПСЙСКа В" позволяют допустить ВПД1ЧДС отокси—группы.
3. Ецявзена повышенная способность режима "ШКХ АЕ* (со сра-* шепив о "ПЙ1СК А") отбирать из машинного каталога структурные аналоги ссследуемых соединена!!. Отличительная особенность получаемых при этом результатов заключается в ток, что на дериас местах шгзшюго ответа присутствуют, как пропило, наиболее■ близкие структурные аналога. Это легко понять, поскольку режим "ПОИСК АВ"' ориентирован на нахождение таких соединенна, обгее иасо-спелтраль-ноо по веде ни о которых наилучеш образом соотватстцует 'анализируемому объекту (см. табл. 2).
Представляло интерес количественно оценить возможность прея- ' сказания структурных особенностей исследуемых соединений по результатам «зонного анализа иг масс-спектров. В качестве "предсказываема" системой фрагментов рассматривались максимальные со размерам структурные патенты наиболее часто представленные в первых Л-соедикешЕях машинного ответа (Л = 3,6,10 и 14). При этой пао но-тересовали связанные фрашенш трех категорий. I, П а 0, размеры, которых составляют соответственно 100*75?, 75*60% ж 60*50? * размера молекулы изучаемого соединения. Полученные в результате ава-
*Размерность струатурнтдс фрагментов оц&пивалаоь общи чжолом шо* иэв всех элементов за исключением атомов водорода.
Таблица 2.' Примеры первых соединений машинных: ответов, полученных в режимах "ПШСК А" и "ПОИСК АВИ.
. ftSVCIt . | U . n;«cm $a U t n
■ vtxP"j C¥j о vy^v«1) Cir-<ij-C«<dj 1 M 1 Bj « c"i "1 ■ 1 1 n : n ! »1
ОС«, ti eiJ-1 ■ - 1 ОС*. * ■cc - • ti! it »1
- J? . ндежся^Нсн^-СЁ, " ! - i CSj-ICH,)^*^ CH, | ■ 1'. ,0 ■ i i M 14 i ,
НУ"'" - " ~ 4*1 fv ',• ii 40
jmja 67 машинных ответов.данные о частотах'появления корректных (&к) и.некорректных: фрагментов различных категорий приведены в таблице З...На основе этихданнда предложены достаточно про стые критерии структурных предсказаний - Art = Пк - Пн , при по мощи которых определены параметры Р5Р(вероятность структурного .предсказания) н RSP (достоверность структурного предсказания), характерпзушйо способность састеда "выявлять" структурные особенности исследуемых соединений по предъявляемом. еЛ масс-спектрам:
* PSP - too'S//72, % (7)
S* ■ »
_„ - общее число структурных, предсказаний; /72- число "не известных" соединений опытного массива (в нагем случае (71 ¡в 67);
RSP-IOO'S^/S; V (8)
где S к -'обкее число корректных структурных предсказаний. Приведенные в таблице 3 значения параметров PSP и RSP показывают, что в среднем по результатам.работы системы в 63% атучаев (ложно вшиоять достаточно крупный фрагмент произвольного строения, * достоверность присутствия которого и исследуемом соедзшении сос-
Таб-тица 3. Количественная оценка работоспособности системы
"Интерес".
Рёхим - "ПОИСК А"
п йП Р5 Р, %
I П Ш I П Ш I П 0 I ' П П
3 1.7/0.5 2.2/0.4 2.5/0.5 I 2 2 64 73 78 8В 96 94
6 3.Г/1.4 4.1/1.6 4.8/1,4 2 2 3 64 55 70 81 94 96
10 4.5/2.4 6.4/2.8 7.7/2.9 2 4 5 60 51 6-1 88 91 95
14 5.8/3.3 8.4/4.0 10.3/4.3 2 4 6 64 55 60 82 94 95
Режим - "По;:ск АВ"'
3 1.7/0.4 2.3/0.4 2.5/0.3 I 2 2 61 72 84 90 98 98
е 3.3/1.5 4.5/1.5 4.9/1.2 2 3 4 .57 60 64 89 38 98
10 4.8/2.5 6.7/2.8 7.8/2.6 2' 4 5 67 57 Й 89 Э8 98
14 6.2/3.3 8.7/3.9 10.5/3.Э 3 5 7 57 51 58 90 97 97
таиляет 91л а для-решсжт "ПО-Сл А" и "ПОНСл АВ" соответстссн-но. Каксикалыше значения параметров Р$Р = 84,? в = ЗЕК подучены для фрохкентов □ категории, выявляемых из трех сери« соединенна, отобранных Э2-! в режиме "ПСИСК АВ".
Вамюо значение при установлении строения органического совладения имеет знание его формальной ненаснцетюсти, представляющей собой суммарное число эквивалентов двойных связей. Сказалось, что эта информация с достаточной точность» в внбокоЗ 'доотовераоо-ты> 02£) также может бить получена при помоги системы "Интер-ЬХГ. -
В настоящее время разработанные системы базируются на малинном каталоге, содержащем ~ 23000 полных масс-спектров, реализованы па 'базе ЭШ "!Л31СК-32Я и доступны исследователю при пошка внегзюго терминального устройства "Con.SUС -254".
Четвертая глава посвящена изучении возможностей машинного анализа структурных формул соединений, отобранных в результате работы састеш "Интер-МС", с целью автоматизированного выявления их структурной общности и прогнозирования этим путем структурных осо-
бенностей исследуемого соединения. На данном охапе мы.'ограничились анализом трех первых соединений машинного, ответа, так как именно в этом случае маяно получать наиболее достоверную структурную ин-форсшшя. Раэработашшйвходевсследойавдяалгоритм выявления . структурных особенностей неизвестных соединений приведен на рас.2. Рассмотри» кратко его основные элементы. •/Исходными дяяннмя являются структурные фораулы трех первых соединений ьшинного ответа, закодированные в.пэатошо-фрагиентном виде..Для этого использовалась разработанная,в НИЦ МС СО All СССР автоматизированная система кодирования структур химических соединений, которая обеспечивает кошактпое, полное и однозначное представление плоских структур оргвянчеедзх со единений в вгде соответ— ствущвх матриц смежности в является достаточно удобной ара формировании изашшого файла структур,' доггалшззедего каталог'спектров. L. Первый отад'предполагает выявление в*аяалиэпруешх структурах обвдг фрагментов заданного'строения путем обращения к библиотеке "стандартных" фрагментов, которис шшболео надежно • кденгифлцярувг-ся по масс-спектро мотрпч е сгаш признака«. Библиотека должна содср- -: • дать н достаточно крутзше фрагменты сиклического строения, вцдоле-~ ние которых из соответстпупцих патриц сиегности требует значительных.затрат машинного временя. Быстрая и надежная, идентификация подобных подструктур ужо на первом этапе'анализа шжет в некоторая ■I случаях, полностью 'удовлетворить интерес'исследователя. ■ " " * Для ввделения o&skx фрагментов произвольного' строения использовалась програ!лка (Пдоттух-Пелецкай В.Н. В кн.: Аннотации к прог--"раммам.для молекулярной спектроскопии. Новосибирск, 1977, с. 149), позволяющая путем попарных сравнений Л-структур (в ка=еи случае /1=3) получать полный список связанных фрагментов, обззе со краЗ-.ней иеро для двух структур анализируемого списка. Опыт показал, что наиболее эффективно задачу выделения обдих фрагментов произвольного строения можно ресить,. если использовать одновременно три различных способа машинного представления структур: поатомно-фрагмантного, поатоиного и скелетного. • .
Использование поатокно-фрагментного кода предпочтительнее . при анализе шдгитсс ответов, содержзякх гомологи исследуемого соединения, так какв этих, случаях он поаводяет очень бистро*выде-дять достаточно крупные связанные фрагменты, Однако среди соединений, отобранных ЭВМ, часто присутствуют жзомери или еяе более далекие - структурны□ аналога анализируемого соединения. В этих случа-
Л* ЭД'.«! 1Я * —V ; * ^тч ш
ях иепэсредственнсе использование поатомно—^рагиентного кеда не дает возможность выделять крушше связанные фрагменты, содержали е-ся и щшлаэкруемоЗ гругае соединенна.
Достоинство пэатемного способа представления структурной информации - возможность выявления фрагментов подобных тем, которые определяет исследователь при визуальном анализе структур; недостаток - значительные затраты маяаошой памяти и времени и чрезвычайно бальзой список структурных фрагментов, отяичапкхся в основном только располохением атомов водорода. Последнее обстоятельство вынуждает относиться к фрагментам, выделенным из поатомво представленных структур, с особой осторожностью, так как процессы водородных перегруппировок типичны для масс-спектроиетрии.
Использование скелетного способа представления структур (получаемого из поатсиного путем отбрасывания всех атомов водорода) позволяет с одной стороны устранить отмеченные визе недостатки, но с другой - приводит иногда н получения информация, недостаточной для Езнюеания строения взучаемого соединения, особенно в случаях ппмгаза масо-слектров соединений алифатического рлда.
Конечный результат работы алгоритма, приведенного на рисГз, — список структурных фрагментов категорий I, Пап, лвлящихся над-
Таблица 4. .Результаты машинного предсказаная- оп^ктуршд особенностей - "неизвестных" соединений.
"Неизвестное" соединение .Предсказанные структурное фрагаенти
СНз-í сн2 ) 3-CH-Í €¡¡2 ) 2-С0 ' ■ 1—■—0-1 -(oîgl^ch-chg—сн2-со, -(сн3)2-сн- -(cil,)2-co, -(сн2)3-сн-(снЛ2- -со i-о-1 - i-о -—i " i—0 ~-1 -tCH2>2-CK-CCK2)2-CO i ■ '—о-1 /> - '
СН^-СН- С 6-С0СШ3 ' -СН-ССНтЗо- , -C-C-ÍC)«-- , -¿-{С),- , -C-W-C-O-C-C-C-COOCHí, 1 й J ■ V 1 1 1 0 1 1 J Mil! I l 1 ' J 6 ' -'' Ó -."6, .... V, . . , .:■
-, ■ <■ ■ ■ .■, ОСТ0' i . - : ., tlx ''o^.o '
i ' ш ■ ^ шз , ш он1 Ш . CH3 ■ сн3 фс :. ¿x, ^фс. зфг, '^JL . ^x. ф:.: сн3 (ж си * сн3 сн3* оп ¿X. фс .¿ï .lôc .фг. зф:"3
* Звездочкой (s) отмечены некорректные структурные фрагменты.
более вероятными кандидатами на структурное родство с объектом исследования. Результаты экспериментальной проверки этого алгоритма (см. табл. 4) показывают, что разработанные в ходе данной работы мадццше методы позволяют из масс-спектров, низкого разрешения извлекать достаточно полные и достоверные сведения о строении анализируемых соединенна. Эти сведения могут оказать исследователю существенную помочь при формулировании окончательных гипотез о строении изучаемых соединения.
В И В О Д Ы у
1. Показана о-^ктивность использования статистического подхода для решения задачи сокращения полных масс-спектров при создании поискового машинного каталога* используемого как для ресенил задач Еденти^сканин, так я для извлечения структурной информации из масс-спектров соединений, отсутствующих в ыалзшном каталоге,
2. разработана система "Идеит-iK", предназначенная для идентя-фоыщии индивидуальных оргшшческих соединений по ах ыасо-споктраы низкого разрешения; показана э^«ктишюсть применения статистических дойных для опенки мери близости сравниваемых спектров. IIa примере исследования масс-спектров 217 различных соединений показано, что система обеспечивает в среднем в 76£ случаев появление соединения, кдеитичного исследуемсцу, на первом месте ¿яюшного ответа и в ЭС% случаев - среди первых пяти соединений ответа.
3. Разработана система "ilHiep-WC", ориентировавшая на установление структурных особенностей соединений, масс-спектры которых отсутствуют в малишюм каталоге. IIa примере исследования масс-спектров 67 различных органических соединений установлена способность светеш отбирать из мавшного каталога структурные аналоги исследуемого соединения, последующий анализ которых позволяет достоверно определять входяаий в молекулу изучаемого соединения крупный структурный фрагмент. Решение о наличии в анализируемом соединении -нахрси*рагмеита произвольного строения принимается в средней в случаев, причем достоверность принятого решения -96$.
4. Показана принципиальная возможность автоматизации процедуры выявления структурных особенностей исследуемых неизвестных соединений по результатам машинного анализа их масс-спектров.
Основное содержание диссертационной работы опубликовано в следущих сообщениях.
IГ £ерендяев Б.Г., "Коптит В.А., Лебедев К.С., Шарапова О.Н. Машинная днфор-*аалонно-Еоасковал система на базе каталога полных ■ масс-спектров.- Автометрия,-1979, S 4, с,_3-13. -
2. Лебедев К,С..-ТоЕыышеВ'В.Н.,,Шарапова О.Н., Мамаева Н.В. Дерендяев Б.Г.Коптхг. В.А. Извлечение структурной информации из масс-спектров о помогало. ЭВМ. П.Система "Интер-Ш". Использование сведений о массовых числах и интенсивностях ■ спектральных линий.-Изв. Саб.' отд. АН СССР, I9S0, Я -1. Сер.хим.наук,, вып. 2, о. 54-64..
3.. Лебедев К.С., Тормыаев В.М. . Дерендяеа Б.Г. Извлечение структурной ннфоршцпи из масо-спгктров с помощь» ЭВМ. И.Использование первичных потерь для рас=ареная возможностей систем "Интер-МС";--.. Изв. Сиб. отд. АН СССР, I960, Ji '4. Сер.хин.наук, вып. 2, с. 64-73.
4. Лебедев К.С., Дерендяев Б.Г., Копткт В.А. Малинная пн^орш-ционно-поасковая .систеиа па базе каталога,полных масс-спектров.-В кн.: Тезисы докладов 17 Всесоюзной конференции по аналитической химии органических соединений. Москва, I960, с. 232.
„5. Лебедев К.С., Тормксев B.U. ,'"Деревднев Б.Г., Коптит В.А. ^ Извлечение структурной информации из масс-спектров с помогал ЭШ. Система "Катср-^Ю"В кн.: Тезисы докладов. У Всесоюзной конференция со использованию вычислительной техники' в спектроскопия иоде-кул.нтхимлческих исследованиях. Новосибирск, J9E0, с. 48.' ; .
. 1 1С
Подписано к печати 27/02-г мн ос 122 Формат бумаги €0x84 1/16. Объем I печ. 0.8 уч.-изд.-л. Тйраж 100 экз. Зак. * ¿з
Отпечатано на ротапринте Новосибирского института органической химия СО АН СССР 630090, Новосибирск-90, пр. Науки 9.