ИЗВЛЕЧЕНИЕ СТРУКТУРНОЙ ИНФОРМАЦИИ ИЗ МАСС-СПЕКТРОВ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ С ПОМОЩЬЮ ЭВМ тема автореферата и диссертации по химии, 02.00.04 ВАК РФ

Лебедев, Константин Сергеевич АВТОР
кандидата химических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
1981 ГОД ЗАЩИТЫ
   
02.00.04 КОД ВАК РФ
Автореферат по химии на тему «ИЗВЛЕЧЕНИЕ СТРУКТУРНОЙ ИНФОРМАЦИИ ИЗ МАСС-СПЕКТРОВ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ С ПОМОЩЬЮ ЭВМ»
 
Автореферат диссертации на тему "ИЗВЛЕЧЕНИЕ СТРУКТУРНОЙ ИНФОРМАЦИИ ИЗ МАСС-СПЕКТРОВ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ С ПОМОЩЬЮ ЭВМ"

шшс1ерств0 сельского хозяйства ссср

Иэсковская Ордена 1енхна и Ордена Трудового Красного Знаменв Сельскохозяйственная Авакемая имени К. А. Тимирязева

■ .. на правах рухошся

Лебедев Константин Сергеевич

шишнзив стршхрной информлции из иасс-ошсгров органических соединений с ПОШЦШ ЭВМ

(02.00.04 - <|язическая химия)

Автореферат диссертации на- соискание учёной степени кандидата химических наук

Москва- 1981

Работа выполнена,в Новосибирском институте органическсл зааши СО АН СССР.

Научный руководитель:' академик АН СССР, доктор химических наук КоптюгВ.А.

Научный консультант со вопросам использования ЭВМ в'масс-спекгрометрш: кандидат химических наук Дерендяев Б.Г.

Официальные ошоненты: доктор физико-математических наук профессор Гримов Л.А.кавдядат хишческюс наук Бродский Е.С. -

Ведущая организация: Институт химической физики.АН СССР.

Защита диссертации состоится "_" _1361 г.

в "_часов на заседании Специализированного Совета

K-I20.35.04 в Московской сельскохозяйственной Академии имени К.А.Тимирязева - 127550, Мэсква И-550, ул. Тимирязевская,""4Э, Ученый "совет ТСХА.

С диссертацией можно ознакомиться в Центральной научной

библиотеке ТСХА.

-

Автореферат разослан "_" ■ 1981 г.

Ученый секретарь Специализированного

совета кандидат химических наук Князев В.Н.

N

0Н2АЯ ХАРАКТЕК'.СИКЛ РАБОТЫ

Актуальность темы! Еирокое использование методов.молекулярной спектроскопии является отличительной чертой современного этапа исследований в области органической химии. Применение этих методов обеспечивает существенное ускорение темпов научных работ наоткрывает принщшиально новые исследовательские вогмошоста,

Иасс-спектрометрия - одан из наиболее информативных методов ьтадекулярвоЕ спектроскопии, возводящий получать.сведения о строения органических соедкноязй с использованием очень ьвякг количеств ' образцов (до 1СГ®г). Цвдако использование этого метода связано с - рядом трудностей, основной вз которых является сложность е во кно-ш случаях неоднозначность выявляемых спектро-структурных корреляций. Это вынуждает исследователя формулировать болызоо число гипотез о строении изучаемого соединения, прячем возможность выхода ' на правальнул ганотеэу в значительной степени определяется тем, работал ли ранее исследователь с соединениями того класса, к которому принадлежит анализируешь образец. Не удивительно поэтому, что в последнее время проявляется повышенный интерес к разработке штатных методов "расшифровки тсс—спектров. Этому в немалой степени способствует наличие больших библиотек, содераагах янфоршцлю о десятках тысяч шсс-спектров низкого разрегения. Автоматизированные системы, базирукцаеся на мааашнх библиотеках, могут бить использованы как для идентификации ранее - описанных соединений, что имеет важное практическое значение для исследований, связанных с проблемами охраны окружающей среды, анализа побочных продуктов телюлоппескнх продессов,хригланатистнки и других областей, так и для установления строения новых синтезируемых или выделяемых из природного сырья соединений.

Паль щбо^ы,- Настоящее исследование посвящено разработке ма-сшпшх систем, базиругЕЖся на каталогах полных масс-спектров низкого разрешения, и предназначенных для оказания исследоватеяю по-ыэ=31 в установлении строения органических соединений. Это исследование продолжает работы Новосибирского института органической химии и 11аучно-ин4ормашюнного центра по молекулярной спектроскопии . СО АН СССР по создании мп^тн!«: банков дшшкх и малинных методов анализа различных видов иэдекулярнше спектров. В данной работе преследовалась цель обеспечения решения двух основных задач:

I) идентификации индивидуальных соединений по" их масо-спект-

рам низкого разрешения; ^ Центр. вац::а «35Я

Мзск. орд,-.Л:ки с«::з», шд. из, К. д, Тжолзла ШЗУШ.

2) выявления основных структурна особеююстсй соединений, шсс-спектрн которых отсутствуют в ыапшшои каталоге.

Необходаше требование, предъявляемое » разрабагыпасми системам, - эффективное регснно структурных задач m объектах произ- * .. вольных классов хпзяпеских соединений & воэдаяность их сирокого использования в исследовательской прашихе.

Научная покипи». На осиово статистич с ско го анализа достаточно представительной байте теки иасс-спектров оргаютеекдх соединений ©"орнулированы новио прижали сохранения полных иасс-спектров s осеккл мери близости срашиваеммх спектров и оэдедмппс групп спектральных признаков.

разработаны ноше иагишше сгстеии, предназначенные для идеи-, тв^лкаиии ранее одисакшдс соединений и ыитлешм структурных особенностей ношх соединений по их иасс-спег.трац низкого разрешения.

Продемонстрировала высокая эффективность использования статг-стичесгюго подхода и базируггдасся на не» систем для pezcinui структурных задач органической хдыдг.

Показана пражопшальноя возможность подпой аотоиатнзадаи процедура выявления сгруктур!шх особенностей неизвестных соединений do результатом мадпаюго анализа ех ыасс-спег.тров.

Теоретическая ъ пшпктячоашя тнпость. Разработанные статао-тичесгаю npneini сокращения полных спектров и опенка степени подобия срашшваешх спектров явлится достаточно упиверсальныни и могут битв, со-Елдаючг. использованы црд создошш подобных слстеш для других видов молекулярной спектроскопии, шшршер, 1К и fiïfP^C.

Созданные в ходе выполнения данной роботы машинные системы шгут найти практическое применение во izror&f областях хзшзческах исследований, в которых рсггштся задача устаяовлеюш строения соединений со их молекулярным спектром. В частности, она ухе используются в практической деятельности KJÎQI & ЮЩ № СО АН СССР, а тайга ЕНЗБШОПГЕО.

Апробздря работа. Результаты роботы доложены л обсуждены на 17 Всесоюзной конференции со аналитической химии органических со-едявенкй <г. Москва, 1980) в У Всесоюзной коифоренциипо использованию вычиодителышх малин в спектроскопия молекул s химических нселодоваляях (г. Новосибирск, 1980).

Птйзикашш. Основной материал диссертационной работы опубликован в трех статьях в теэасах двух конференции.

ÇypmtTypa в объем работа. Диссертаяшх излоаена на 131 страни-

це мптттнопдсаого текста и состоит из введения, четырех глав, обдах выводов и спгска цитируемой литературы, включающего 105" ссылок. • Иллюстрационный материал - 18 рисунков и 27 таблиц. .

ОСНОШОВ СОДЕРЖАНИЕ РАБОТЫ'.

Во ньедешш лается обоснование цели настоящей работы, кратко характеризуется методы реЕе)пш" поставленных зэд'ач и. приводятся основные выводы. , . .

В первой главе праводитсн обзор литературп'на.тену; "Извлече-нгс структурной ■ информации из масс-спектров низкого. разрешения с помогцьго ЭДУ. В керша часта обзора обсуждёны капанные методы ре-гения задачи вдентнфикаада ранее описанных соединений и различные поисковые алгоритмы. При этем особое шмше уделено наиболее важным фактором, опредедякда эффективность решения данной задачи.

Вторая часть посвящена капанный методой аиалаэа гасс-спектров низкого разрешения с целью оказания исследователю подает вря установлении строения новых соединений.'В этой области исследований выявилась три основных направления: "распознавание образов", "искусственный интеллект" и "библиотечный поиск аналогов". Анализ литературных данпых доказал, что последнее направление является наиболее перспективным, так как оно не имеет принципиальных-огранзче-нпй на классы исследуемых соединений и ориентируется на выявление ■ структурных особенностей: без использования предварительно сформированных таблиц ссектро-структурных корреляций.

вгород главе ссасывается алгоритм и разработанная на его основе каашная система "Ицент-МС", предназначенная для вдентк^и-кндивгдуальпш; органичесаяЕХ соединений. -С пошецл ЭВМ идентификация исследуемого соединения осуществляется, как правило, путем сравнения его спектра со спектрами соединений мзшнпого каталога. Несмотря на ка^цухюя простоту, ре-сешт данной задачи связано с радом существенных трудностей, подробно обсуждаемых в обзоре литературы.'-

Одной из наиболее важных задач, возникавдих при создания по-' исковых систем, яшшется укещлюнйе объема спектрально.! информации записываемой на внесшие носители памяти ЭБМ. Существует несколько вариантов ресенпя данной задачи, среди которых.наибольшую популярность подучил предложенный впервые ".Биманом. с сотрудниками способ сокращения полных спектров, заклгчащийся в отборе из каждого интервала в 14 т/2 двух наиболее интенсивных пиков:'Этот способ

т/г

Ряо. I. Заввсемость частота встречаемости пжов N (лгала по N ло-гарнфгичесгая) от эиачонжа т/2 в каталоге из 4903 сокра-п;дттцт масс-спектро В.

одвадо ее учитывает реальную раслростравенностъ линий в спектрах соединетай штанного катагога. Проведенное кшш изучение статястж-ч в его го распределения ланий со значениям т/2 в каталоге из 4903 полных шсс-спеягров шхазало, что соотпсгсиже числа линдП, отба-раеясс из интервалов 14 m/2t должно составлять црайжазительно 3:2:1 дяя областей 20*117, 116*187 и 180*705 едшшц m/Z. Ксдадъ-зопаяве отого, основанного яа статистачесном анализе способа сох-розевЕя спектров, вклвчаеша в поисковый каталог, позволяет в шш-' читальной степени устранить субьектавази асслодоватолл s праводгт к уценьшешт среднего числа лшшй, прзюашдася ва одкн спектр, в средней о 68 до 20.

В бозывтетве опвсатшх радов поисковых алгоритмов при оценке подобая сравнивавшее спсатров совпадению лкляй в различных областях слшстра придается одинаковое значение. Одпаго из pitc. X следует, что ПД01 с различными значениями лг /г следует учитывать 09 развоиу. Оченвдно, что совпадении наиболее часто встречаетжхся в спектрах даосов, напрливр, с т/2 27, 43, 45 и т.д следует придавать иенывеа ав&чевхе, чей менее распространенным шпеам. Лдя оценка значимости совпадения значений т/2 лзшиЗ сравниваемых свекров использовались целочисленные значения фок то ров М :

м —U) ■

где Рт - относительная частота встречаемости шков о дптпша значением т/Вт.е. Рт в N/4903 (cuipzo. I). *

Аналогичным образом било исследовано статистическое распределение лшшй со юс интенсЕшостяц. Относительные' значения пнтенезга-постеИ лятй s спектрах^ одшзх it тех же соодппонпй существенным образом зависят ог уагопзй-их регистрами, лозтоиу гш сочли возшх-пим при оценке подобия сравниваемых спектров оценивать совпадения lie ccjjzt значений шпенслвностеа, а определенных интервалов. (Д ), в которые опя.попадает: - , • - . ■

I="l0g2'P*(2)

где Р^ (¿'j отдосптслъиал частота встречаемости в каталоге сохраненных спектров лшей,' интепспвностп которых попадая? в вн-' тервзд значешй Д . - . .

Границы кнтерсалов СХ+З.З^, 8.4+24.24.3+50.2i,v50.3+8?.S£i п Б7.Э+10С#) определены тагам образом, чтобы фкторц значвмосха I пркниналп целочаслешшс значения: I, 2, 3, 4 а 5 соответственно,, Такта образом, совпадешго- более интенсивных линий придается болъ^-сее значение, •- . ■ . -

Ддя оценки степени подобия сравниваешь спектров' предложен достаточно простой критерий - Доктор совпадения (2С):

ФС = 10<MV/WX ,Z V . ' (3)

где VV - суюаршй фактор зяочииоств совлаших знапмшЗ /Л/2 з ЕПтенсшшостеЗ литй спектра неизвестного соединения (X) и спектра шгяншго каталога (К):

W=XM, ■*:.' .(4,

Il*I?-I? , ССЛП I;SI[ . Ii-=0 . есяа ГГ If. V

Wx- суисфныЯ фактор значимости всех'лзшпЗ спектра неизвестного соединения:

Wx = S(M+wt • (5)

EupascHae (3) в осшшш чертог отражает логику иасо-спектроиет-рдстов spa реяешш вопроса об идентичности сравниваемых спехтров,

т.е. больсее значение прадлется совладению наиболее интенсивных линий с "редкима" значениями CT/Z , и чем больше относительное содержание таких линяй, тец банде вероятность того, что сравнивав-■ ше спектры принадлежат одному и тоиу же соединению.

Результатом работа сг.стеьа "Ндент-И?" является «ашнный ответ, дредстаилягсай собой ciraccic названий соединений поискового каталога, спектры которых наиболее подобны спектру'анализируемого соединения, т.е. дшот наивыссис значения W.

Возможности использования этой система при иденте^якаанп ор^ ганнчеезак саедйнеииЗ одененн на примере анализа масо-спег.тров 217 различных сосдяыониЯ, представленных .в катавшем каталоге со крайней поре дцуия спектрами кз разных литературных источников. Сказалось, что средняя вероятность появления изучаемого соединения на ■порвем не сто кхлапюго ответа составляет 7££, а среда первих пяти соединенна - ЭС^.-При указании малеку-ляршдс весов (КЗ) исоледу-еш соединений соответстБухсде сороятлоста возрастает с достигают eei я 99ji. ' ' ; ■

Полученные вчходс этих экспериментов результаты позволили также заклшить, что наряду с вжолнешеы основных ^пааД, - система обладает достаточно хорсеей способностью отбирать из шашвопэ каталога структурные аналоги исследуемых сосдшгспий. Ото обстоятельство дало основание полагать, что использований.в ней статистический подо« повет' оказаться плодотворным для сгстеиы более ш-сского уровня, ориектзровашгаЗ на сказание исследователю помоэд в установлении строения соединений, «асс-сясктрн которих отсутствуют в машинной каталого.

В тг^тт^й т^-nw. описываются принципы, алгоритм и разработанная на ttz осново Этапная ссстею "Квтвр-МС", предназначенная для выявления структурных особенностей ноизвестнцх соединений по их иасо-сгсктрам низкого разрегеташ.

При выпостешш этой часта работы кы стреадлдсь к соэдшшв спстеш, позволявшей по рлду касс-споктроуетргчеоаа признаков неизвестного соединения отбирать из маашшого каталога структурно-подобные соединения, последупцай анализ которых давал бн возможность получать достаточно полные и достоверные сведения о строе- -шш изучаешго соединения.

Разработанная в ходе данного исследования система "Интер-ИСи базируется па использовании двух наиболее информативных в структурном отношении груш спектральных признаков, связанных с абсолютным (пика ионов) и относительным (первичные нейтральные поте-

Таблкса I.Спектральные признаки,используемые в системе "Интер-МЗ".

1 Спектральные признаки Диапазон использования Весовой фактор

ПОИСК А Пики ионов т/г =20 + 705 -- - 0 = з +

ПОИСК в "Первичные потерн" ит *М8-Шу7) Ш <= 0 + (МЗ-20) 3 а I + 1С0£ . -

3 § 1 Пики конов и "первичные потери" /л/г = го + 7С5 &т = о + пЗ/2

3 - интенсивность пика.

ри)н положением лшшй в масс-спектре. По аналогии, с системой "Идент-Ж" для оценки подобия сравниваемых групп спектральных признаков (си. табл. I) использовались весовые факторы и У/АВ, характеризутагие суммарную статистическую значимость совпадения отдельных элементов празнакоз: т/2 (фактор М )5И, интенсивностей (фактор I ) н величин "первичных потерь" ЫП (фактор Ь ), причем:

ь=-юд2Рлт, . се)

где Рд^]— относительная частота встречаемости в спектрах ма— гзашого каталога "первичных потерь"' с заданной величиной Д/71.

Для практического использования значения факторов Ь округлялись до йлииайгего целого. Например, для "первнчных потерь" с величинами ЛШ = 35,. 29, 43 единиц = I, дгя йШ - 38, 27 -Ь = 3, а для ¿/Л = 26, -10, 50 -

Результатом работы системы "Интер-НС" при анализе масс-спектра цеизвеспгого соединения в режимах "ПОИСК А'V "ПОИСК В" или

* Тергдш имеет формальный характер, отражая различие (й/71 ) в значениях/я/г молекулярного и рассматриваемого осколочного иона, независимо от возможного механизма фрагментации.

ш В этом случае при вачвс-теции факторов М частоты встречаемости пиков (Ы ) при выбранном■значении та относились не к обгвму числу спектров малинного каталога, а к чнсду спектров соединений, молекулярные-веса которых больше или ровны данному значению/я/г .

"ПОИСК АБ" яеляотся список соединений машинной библиотека, слехт-ральнне признаки которых давт щюпнслге значения «»акторов WA, WB иди WAB соответственно,

Воздаззюсти использования этих режимов для резедия структурно задач оценены на примере анализа масс-спектров 67 разнообразных органических соединенна, структурные аналоги которых имелись в icraiiKoS библиотеке. Рассмотрим наиболее характерные особенности полученных при этом результатов.

I, Рехйм "ПОИСК А" позволяет в подаакягсем большинстве случаев отбирать структурные аполога исследуете го соединения, соследую-сзй анализ которих дает вовмсдность выявлять связанные стру&зураиа фрагменты, характеризуюе, наг права», больцуп часть шлекули Еэучаешго соединения. В качестве примера hsso прлведшш максима-дытао обдзо структурные блоки, шяелсшою в соединениях ш^ишшх ответов, шяучшпшх при анализе масо-сдсктров трех "неизвестных" соедилежА.

"Нелзвосхпоо"",«оевтенио ОЛэЙ структурный йлод

oia-ícogJs-oootaj -(CHgJg-COOCH-j *

СИ С7!

СВз СНз ct^OÍ- (cHg >з-сз-саз ^рп 1 Сй, СИ-, JL V i L m с&ам cagíg-oMs-caj

<xj

2. Сранштелыша результатов, полученных в рехамах

"ПОИСК А" в "ОШСС АН" на одштх п тех хе объектах, показал, что они, icos правило, садтверядшзт в дополняет друг друга, что евпдо— тежьстдует о целесообразности совместного использования этнх.ре-пуяьтатов щи формулировании гипотез о воаиоисном строевшд вручаемого соединения. Прсанлоотрируем это только двумя примерами (ниже

а Здесь в далее черточка; означаю свойсют» валадтивоть.

приведены названия трех первых соединений, отобранных ЗВЫ в результате анализа пасс-спектров даре "нсяевостша" соединений).

а) "Неизвестное" соединение: 1,7-птметилипдол. ПОИСК А: 2,б-дицетняжндол. 2,3-дшатшошдод, 2,О-дшиетюгиндол. ПОИСК В: 2,0-дииетеливдаа, 2,5-даыетядгощод, 5,7-дкиеталицдол.

б) "Неизвестное" соединение: оталовнй э£зр м-брокбонзой-

ной кислоты.

ПОИСК А: о-броАйензойная кисло та ,71 -бромацетофопон, м-бромакето-

4<снон.

паюк В: эталонна эфир бензойной кислоты, /2-бром$енетол, атшовмД

ц-глорбензойиой кислоты. В первом случае результаты двух вариантов поиска очень близки, что позволяет с достаточно высокой уверенность» предположить наличие в "псизвесгнса" соединении гадального кольца. Во втором - демолстря-руется возможность получения разнородных сведений о строении изучаемого соединения; по результатам "ПО/.СКа А" ыохло предположить присутствие в молекуле исследуемого образца £рагаента бензилшого строения в атома броаа, а результат "ПСЙСКа В" позволяют допустить ВПД1ЧДС отокси—группы.

3. Ецявзена повышенная способность режима "ШКХ АЕ* (со сра-* шепив о "ПЙ1СК А") отбирать из машинного каталога структурные аналоги ссследуемых соединена!!. Отличительная особенность получаемых при этом результатов заключается в ток, что на дериас местах шгзшюго ответа присутствуют, как пропило, наиболее■ близкие структурные аналога. Это легко понять, поскольку режим "ПОИСК АВ"' ориентирован на нахождение таких соединенна, обгее иасо-спелтраль-ноо по веде ни о которых наилучеш образом соотватстцует 'анализируемому объекту (см. табл. 2).

Представляло интерес количественно оценить возможность прея- ' сказания структурных особенностей исследуемых соединений по результатам «зонного анализа иг масс-спектров. В качестве "предсказываема" системой фрагментов рассматривались максимальные со размерам структурные патенты наиболее часто представленные в первых Л-соедикешЕях машинного ответа (Л = 3,6,10 и 14). При этой пао но-тересовали связанные фрашенш трех категорий. I, П а 0, размеры, которых составляют соответственно 100*75?, 75*60% ж 60*50? * размера молекулы изучаемого соединения. Полученные в результате ава-

*Размерность струатурнтдс фрагментов оц&пивалаоь общи чжолом шо* иэв всех элементов за исключением атомов водорода.

Таблица 2.' Примеры первых соединений машинных: ответов, полученных в режимах "ПШСК А" и "ПОИСК АВИ.

. ftSVCIt . | U . n;«cm $a U t n

■ vtxP"j C¥j о vy^v«1) Cir-<ij-C«<dj 1 M 1 Bj « c"i "1 ■ 1 1 n : n ! »1

ОС«, ti eiJ-1 ■ - 1 ОС*. * ■cc - • ti! it »1

- J? . ндежся^Нсн^-СЁ, " ! - i CSj-ICH,)^*^ CH, | ■ 1'. ,0 ■ i i M 14 i ,

НУ"'" - " ~ 4*1 fv ',• ii 40

jmja 67 машинных ответов.данные о частотах'появления корректных (&к) и.некорректных: фрагментов различных категорий приведены в таблице З...На основе этихданнда предложены достаточно про стые критерии структурных предсказаний - Art = Пк - Пн , при по мощи которых определены параметры Р5Р(вероятность структурного .предсказания) н RSP (достоверность структурного предсказания), характерпзушйо способность састеда "выявлять" структурные особенности исследуемых соединений по предъявляемом. еЛ масс-спектрам:

* PSP - too'S//72, % (7)

S* ■ »

_„ - общее число структурных, предсказаний; /72- число "не известных" соединений опытного массива (в нагем случае (71 ¡в 67);

RSP-IOO'S^/S; V (8)

где S к -'обкее число корректных структурных предсказаний. Приведенные в таблице 3 значения параметров PSP и RSP показывают, что в среднем по результатам.работы системы в 63% атучаев (ложно вшиоять достаточно крупный фрагмент произвольного строения, * достоверность присутствия которого и исследуемом соедзшении сос-

Таб-тица 3. Количественная оценка работоспособности системы

"Интерес".

Рёхим - "ПОИСК А"

п йП Р5 Р, %

I П Ш I П Ш I П 0 I ' П П

3 1.7/0.5 2.2/0.4 2.5/0.5 I 2 2 64 73 78 8В 96 94

6 3.Г/1.4 4.1/1.6 4.8/1,4 2 2 3 64 55 70 81 94 96

10 4.5/2.4 6.4/2.8 7.7/2.9 2 4 5 60 51 6-1 88 91 95

14 5.8/3.3 8.4/4.0 10.3/4.3 2 4 6 64 55 60 82 94 95

Режим - "По;:ск АВ"'

3 1.7/0.4 2.3/0.4 2.5/0.3 I 2 2 61 72 84 90 98 98

е 3.3/1.5 4.5/1.5 4.9/1.2 2 3 4 .57 60 64 89 38 98

10 4.8/2.5 6.7/2.8 7.8/2.6 2' 4 5 67 57 Й 89 Э8 98

14 6.2/3.3 8.7/3.9 10.5/3.Э 3 5 7 57 51 58 90 97 97

таиляет 91л а для-решсжт "ПО-Сл А" и "ПОНСл АВ" соответстссн-но. Каксикалыше значения параметров Р$Р = 84,? в = ЗЕК подучены для фрохкентов □ категории, выявляемых из трех сери« соединенна, отобранных Э2-! в режиме "ПСИСК АВ".

Вамюо значение при установлении строения органического совладения имеет знание его формальной ненаснцетюсти, представляющей собой суммарное число эквивалентов двойных связей. Сказалось, что эта информация с достаточной точность» в внбокоЗ 'доотовераоо-ты> 02£) также может бить получена при помоги системы "Интер-ЬХГ. -

В настоящее время разработанные системы базируются на малинном каталоге, содержащем ~ 23000 полных масс-спектров, реализованы па 'базе ЭШ "!Л31СК-32Я и доступны исследователю при пошка внегзюго терминального устройства "Con.SUС -254".

Четвертая глава посвящена изучении возможностей машинного анализа структурных формул соединений, отобранных в результате работы састеш "Интер-МС", с целью автоматизированного выявления их структурной общности и прогнозирования этим путем структурных осо-

бенностей исследуемого соединения. На данном охапе мы.'ограничились анализом трех первых соединений машинного, ответа, так как именно в этом случае маяно получать наиболее достоверную структурную ин-форсшшя. Раэработашшйвходевсследойавдяалгоритм выявления . структурных особенностей неизвестных соединений приведен на рас.2. Рассмотри» кратко его основные элементы. •/Исходными дяяннмя являются структурные фораулы трех первых соединений ьшинного ответа, закодированные в.пэатошо-фрагиентном виде..Для этого использовалась разработанная,в НИЦ МС СО All СССР автоматизированная система кодирования структур химических соединений, которая обеспечивает кошактпое, полное и однозначное представление плоских структур оргвянчеедзх со единений в вгде соответ— ствущвх матриц смежности в является достаточно удобной ара формировании изашшого файла структур,' доггалшззедего каталог'спектров. L. Первый отад'предполагает выявление в*аяалиэпруешх структурах обвдг фрагментов заданного'строения путем обращения к библиотеке "стандартных" фрагментов, которис шшболео надежно • кденгифлцярувг-ся по масс-спектро мотрпч е сгаш признака«. Библиотека должна содср- -: • дать н достаточно крутзше фрагменты сиклического строения, вцдоле-~ ние которых из соответстпупцих патриц сиегности требует значительных.затрат машинного временя. Быстрая и надежная, идентификация подобных подструктур ужо на первом этапе'анализа шжет в некоторая ■I случаях, полностью 'удовлетворить интерес'исследователя. ■ " " * Для ввделения o&skx фрагментов произвольного' строения использовалась програ!лка (Пдоттух-Пелецкай В.Н. В кн.: Аннотации к прог--"раммам.для молекулярной спектроскопии. Новосибирск, 1977, с. 149), позволяющая путем попарных сравнений Л-структур (в ка=еи случае /1=3) получать полный список связанных фрагментов, обззе со краЗ-.ней иеро для двух структур анализируемого списка. Опыт показал, что наиболее эффективно задачу выделения обдих фрагментов произвольного строения можно ресить,. если использовать одновременно три различных способа машинного представления структур: поатомно-фрагмантного, поатоиного и скелетного. • .

Использование поатокно-фрагментного кода предпочтительнее . при анализе шдгитсс ответов, содержзякх гомологи исследуемого соединения, так какв этих, случаях он поаводяет очень бистро*выде-дять достаточно крупные связанные фрагменты, Однако среди соединений, отобранных ЭВМ, часто присутствуют жзомери или еяе более далекие - структурны□ аналога анализируемого соединения. В этих случа-

Л* ЭД'.«! 1Я * —V ; * ^тч ш

ях иепэсредственнсе использование поатомно—^рагиентного кеда не дает возможность выделять крушше связанные фрагменты, содержали е-ся и щшлаэкруемоЗ гругае соединенна.

Достоинство пэатемного способа представления структурной информации - возможность выявления фрагментов подобных тем, которые определяет исследователь при визуальном анализе структур; недостаток - значительные затраты маяаошой памяти и времени и чрезвычайно бальзой список структурных фрагментов, отяичапкхся в основном только располохением атомов водорода. Последнее обстоятельство вынуждает относиться к фрагментам, выделенным из поатомво представленных структур, с особой осторожностью, так как процессы водородных перегруппировок типичны для масс-спектроиетрии.

Использование скелетного способа представления структур (получаемого из поатсиного путем отбрасывания всех атомов водорода) позволяет с одной стороны устранить отмеченные визе недостатки, но с другой - приводит иногда н получения информация, недостаточной для Езнюеания строения взучаемого соединения, особенно в случаях ппмгаза масо-слектров соединений алифатического рлда.

Конечный результат работы алгоритма, приведенного на рисГз, — список структурных фрагментов категорий I, Пап, лвлящихся над-

Таблица 4. .Результаты машинного предсказаная- оп^ктуршд особенностей - "неизвестных" соединений.

"Неизвестное" соединение .Предсказанные структурное фрагаенти

СНз-í сн2 ) 3-CH-Í €¡¡2 ) 2-С0 ' ■ 1—■—0-1 -(oîgl^ch-chg—сн2-со, -(сн3)2-сн- -(cil,)2-co, -(сн2)3-сн-(снЛ2- -со i-о-1 - i-о -—i " i—0 ~-1 -tCH2>2-CK-CCK2)2-CO i ■ '—о-1 /> - '

СН^-СН- С 6-С0СШ3 ' -СН-ССНтЗо- , -C-C-ÍC)«-- , -¿-{С),- , -C-W-C-O-C-C-C-COOCHí, 1 й J ■ V 1 1 1 0 1 1 J Mil! I l 1 ' J 6 ' -'' Ó -."6, .... V, . . , .:■

-, ■ <■ ■ ■ .■, ОСТ0' i . - : ., tlx ''o^.o '

i ' ш ■ ^ шз , ш он1 Ш . CH3 ■ сн3 фс :. ¿x, ^фс. зфг, '^JL . ^x. ф:.: сн3 (ж си * сн3 сн3* оп ¿X. фс .¿ï .lôc .фг. зф:"3

* Звездочкой (s) отмечены некорректные структурные фрагменты.

более вероятными кандидатами на структурное родство с объектом исследования. Результаты экспериментальной проверки этого алгоритма (см. табл. 4) показывают, что разработанные в ходе данной работы мадццше методы позволяют из масс-спектров, низкого разрешения извлекать достаточно полные и достоверные сведения о строении анализируемых соединенна. Эти сведения могут оказать исследователю существенную помочь при формулировании окончательных гипотез о строении изучаемых соединения.

В И В О Д Ы у

1. Показана о-^ктивность использования статистического подхода для решения задачи сокращения полных масс-спектров при создании поискового машинного каталога* используемого как для ресенил задач Еденти^сканин, так я для извлечения структурной информации из масс-спектров соединений, отсутствующих в ыалзшном каталоге,

2. разработана система "Идеит-iK", предназначенная для идентя-фоыщии индивидуальных оргшшческих соединений по ах ыасо-споктраы низкого разрешения; показана э^«ктишюсть применения статистических дойных для опенки мери близости сравниваемых спектров. IIa примере исследования масс-спектров 217 различных соединений показано, что система обеспечивает в среднем в 76£ случаев появление соединения, кдеитичного исследуемсцу, на первом месте ¿яюшного ответа и в ЭС% случаев - среди первых пяти соединений ответа.

3. Разработана система "ilHiep-WC", ориентировавшая на установление структурных особенностей соединений, масс-спектры которых отсутствуют в малишюм каталоге. IIa примере исследования масс-спектров 67 различных органических соединений установлена способность светеш отбирать из мавшного каталога структурные аналоги исследуемого соединения, последующий анализ которых позволяет достоверно определять входяаий в молекулу изучаемого соединения крупный структурный фрагмент. Решение о наличии в анализируемом соединении -нахрси*рагмеита произвольного строения принимается в средней в случаев, причем достоверность принятого решения -96$.

4. Показана принципиальная возможность автоматизации процедуры выявления структурных особенностей исследуемых неизвестных соединений по результатам машинного анализа их масс-спектров.

Основное содержание диссертационной работы опубликовано в следущих сообщениях.

IГ £ерендяев Б.Г., "Коптит В.А., Лебедев К.С., Шарапова О.Н. Машинная днфор-*аалонно-Еоасковал система на базе каталога полных ■ масс-спектров.- Автометрия,-1979, S 4, с,_3-13. -

2. Лебедев К,С..-ТоЕыышеВ'В.Н.,,Шарапова О.Н., Мамаева Н.В. Дерендяев Б.Г.Коптхг. В.А. Извлечение структурной информации из масс-спектров о помогало. ЭВМ. П.Система "Интер-Ш". Использование сведений о массовых числах и интенсивностях ■ спектральных линий.-Изв. Саб.' отд. АН СССР, I9S0, Я -1. Сер.хим.наук,, вып. 2, о. 54-64..

3.. Лебедев К.С., Тормыаев В.М. . Дерендяеа Б.Г. Извлечение структурной ннфоршцпи из масо-спгктров с помощь» ЭВМ. И.Использование первичных потерь для рас=ареная возможностей систем "Интер-МС";--.. Изв. Сиб. отд. АН СССР, I960, Ji '4. Сер.хин.наук, вып. 2, с. 64-73.

4. Лебедев К.С., Дерендяев Б.Г., Копткт В.А. Малинная пн^орш-ционно-поасковая .систеиа па базе каталога,полных масс-спектров.-В кн.: Тезисы докладов 17 Всесоюзной конференции по аналитической химии органических соединений. Москва, I960, с. 232.

„5. Лебедев К.С., Тормксев B.U. ,'"Деревднев Б.Г., Коптит В.А. ^ Извлечение структурной информации из масс-спектров с помогал ЭШ. Система "Катср-^Ю"В кн.: Тезисы докладов. У Всесоюзной конференция со использованию вычислительной техники' в спектроскопия иоде-кул.нтхимлческих исследованиях. Новосибирск, J9E0, с. 48.' ; .

. 1 1С

Подписано к печати 27/02-г мн ос 122 Формат бумаги €0x84 1/16. Объем I печ. 0.8 уч.-изд.-л. Тйраж 100 экз. Зак. * ¿з

Отпечатано на ротапринте Новосибирского института органической химия СО АН СССР 630090, Новосибирск-90, пр. Науки 9.