Учет экспериментальных погрешностей в информационно-поисковой системе по масс-спектрометрии и разработка на этой основе методов решения типичных аналитических задач тема автореферата и диссертации по химии, 02.00.02 ВАК РФ

Покровский, Леонид Михайлович АВТОР
кандидата химических наук УЧЕНАЯ СТЕПЕНЬ
МЕСТО ЗАЩИТЫ
1990 ГОД ЗАЩИТЫ
   
02.00.02 КОД ВАК РФ
Автореферат по химии на тему «Учет экспериментальных погрешностей в информационно-поисковой системе по масс-спектрометрии и разработка на этой основе методов решения типичных аналитических задач»
 
Автореферат диссертации на тему "Учет экспериментальных погрешностей в информационно-поисковой системе по масс-спектрометрии и разработка на этой основе методов решения типичных аналитических задач"

Академия наук СССР Ордена Ленина Сибирское отделение ИНСТИТУТ НЕОРГАНИЧЕСКОЙ ИШ1

На правах рукописи

Покровский Лемшд Шхайлович

УЖ 543.51:681.32

УЧЕТ ЭКСдаИШПТШЪШЙ ПОГРШЮСТЕЙ 3 ШФОРМАЦИОШЮ-ИОИСКОЮЛ СИСТЕМЕ ПО 1.1АСС-СПЕ1{ТР0г.Щ'РШ1 • И РАЗРАБОТКА НА ЭТОЛ ОСНОВЕ МЕТОДОВ РЕШЕНИЯ ТИПИЧНЫХ АНАЛИТИЧЕШК злдичч

Специальность 02.00.02 - аналитическая химия

А в т о р е |{> е р а т диссертации на соискание учено;! степени кандидата химических наук

Новосибирск - 1990

Работа выполнена в Новосибирском институте органической химии Сибирского отделения АН СССР

Научный руководитель: доктор химических наук Б.Г.Дерепдяев

Официальные оппоненты: доктор физико-математических наук М.С.Хоц

кандидат химических наук А.И.Сапрыкин

Ведущая организация - Ордена Ленина Институт элементооргани-

ческих соединений им. А.Н.Несмеянова АН СССР

7 /

Завдта состоится "Ц " лне^х 199/ г. в Ю час. на заседании Специализированного совета Д 002.52.01 при Институте неорганической химии СО АН СССР по адресу: 630090, Новосибирск-90, проспект Академика Лаврентьева, 3.

С диссертацией можно ознакомиться в библиотеке Института.

Автореферат разослан и*> 1990 г.

7

Учета' секретарь схюциализированного совета кандидат химических наук Л.М.Буянова

озтч ХЛРЛКТШЮТШСА РАБОТЫ

Актуальность пр г'леш. Особое место масс-спектрометрии среди аналитических методов определяется целым рядом обстоятельств. Среди 1шх: зозмойн&сть анализа вещества в любом агрегатном состоянии, шсокая чувствительность и информативность метода, наличие хромато-масе-епектралы-шх комплексов и применимость результатов анализа 1С различным областям науки и техники.

Среда разнообразных видов масс-снектрометрин и способов ионизации изучаемого вещества наиболее широкое распространение в аналитической практике находит масс-спектрометрия низкого разрешения с ионизацией молекул .вещества электронами с энергией 5С-70 ов. Получаемая спектральная информация во многих случаях является основной для решения одной из наиболее массовых аналитических задач - установления строения анализируемого соединения.

Вместе с этим известные трудности интерпретации ползаем!«: данных, обусловленные неоднозначностью спектро-структурных корреляций, наличием разнообразных правил и исключений, описывающих диссоциативный распад соединений различных классов, значительно ограничивают области применения метода.

Ситуация усугубляется тем, что в случае масс-спектрометрии влияние условий регистрации спектров отражается на характеризующем соединение спектральном образе. Указанные обстоятельства обменяют проявляемый в последние года интерес к созданию машинных систем анализа масс-спектральных данных, способных оказывать исследователю помощь при интерпретавдг экспериментальных результатов. Б этих исследованиях выделяются две "горячие точки": необходимость разработки эффективных ин^юрмаци-ошю-поисковых систем, способных идентифицировать соединение по спектру вне зависимости от условий его регистрации и наличия нуримесей, и потребность создания новых алгоритмов анализа

спектров с целью- выявления молекулярной массы л особенностей строения исследуемого соединения.

Актуальность решения этих задач обусловлена радой обстоятельств, Ешхнейшие из которых: необходимость создания доступных и эффективных средств информационного обеспечения масс-спектрадыых исследований с целью интенсификации труда анали-тпков, возросший социальный запрос на расширение областей использования масс-спектрометрии при решении экологических про- -блем, контроля технологии и качества продукции химических производств, агропромышленного комплекса и-т.п.

Цель работы, данное исследование выполнено в рамках планов работ Новосибирского института органической химии (ШОХ) и Научно-технического центра химической кы/орматики (НТЦ Л!) СО Л11 СССР, связанных с разработкой машинных методов анализа и интерпретации различных видов молекулярных спектров (номер государственной регистрации 01.об.С 1С4011). Оно преследовало рсыеше следутадах двух основных задач:

- разработка алгоритмов и создание высокоэТ-ективпой информационно-поисковой системы (КЛС) на основе банка масс-спект-ральнкх данных, содеркацего параду с полной, существенным образом сокращенную спектральную информацию;

- разработка и реализация новых методов автоматизированного анализа исследуемых спектров в абсолютных и относительных акалах массовых чисел .с целью извлечения информации о строении индивидуального или содср;;;ачего примеси соединения.

Ка;,~чнал новизна работы определяется, во-первых, разработкой и реализацией алгоритмов шг]Ьрмационно-поисковых систем, сопоставляющих предъявленные спектры и спектры баз данных в абсолютных шкалах массовых чисел с учетом экспериментальных погрешностей метода. Во-вторых, разработкой новых и сравнительно быстрых алгоритмов Ш1С для поиска структурных аналогов исследуемого соединения.^путем сопоставления спектров в относительных шкалах масс. В третьих, разработкой принципиально нового алгоритма предсказания по предъявленному спектру молекулярных

масс ('.ЕЛ) индивидуальных соединений пли соединений, содержащих примеси. Наконец, в доказательстве возможности распознания i.L.I соединения, содержащего примеси, да-ке в случаях отсутствия в спектре его молекулярных ионов.

Практическая значимость работы заключается в создании высокоэффективной ШС по масс-спектрометрии дом мнни-ЭВЫ типа СМ, позволяющей оказывать исследователям помощь при решении наиболее массовых аналитических задач установления молекулярной массы изучаемого соединения и особенностей его строения. Разработайте в ходе исследования программы иронии испытание в НИОХ и НТЦ XII СО АН СССР и внедрены (в том числе с экономическим эффектом) в практику 6 организаций, включая Ленинградский технологический институт им. Ленсовета, Институт токсикологии i/ß СССР (Ленинград), Институт алеыенто-органических соединений АН СССР, Институт молекулярной генетики (г.Москва), СКВ АЛ НТО АН СССР (г.Ленинград), Институт химии им. В.П.Никитина Таджикской ССР (г.Дущанбе). Информационно-поисковая система по масс-спектрометрии на базе ЭШ CU-4 (ШС Ж-СМ) вошла в состав математического обеспечения отечественной системы обработки данных масс-спектрометрического эксперимента ИВК АП-03, выпускаемой Черноголовским опытно-эксперимьнталышм заводом АН СССР.

На защиту выносится:

- метод учета экспериментальных погрешностей при сопоставлении масс-спектров базы данпых и исследуемого соединения с целью его идентификации;

- алгоритм автоматизированного сопоставления спектров в относительных шкалах массовых чисел для отбора из машинного каталога спектров соединений структурно-родственных исследуемому;

- новый метод определения молекулярных масс соединений по масс-спектрам, осложненным влиянием примесей, и результаты его испытаний;

- высокоэффективная информационно-поисковая система по масс-спектрометрии на базе мшш-ЖД.

Публикации и апробации работы. По материалам диссертации

опубликовано 6 печатных 'работ. Основные результаты долокены на III и 1У Всесоюзных конференциях- по масс-спектрометрии (Ленинград, IS8I г., Сумы, 1986 г.), Ш+У1, УШ Всесоюзных семинарах-конференциях "Применение ЭВГ-Л в спектроскопии молекул" (Новосибирск 1975, 1977, 19Б0, 1983, 1989 г.г.), Зональной научной конференции "Аналитическая химия Сибири" (Тюмень, 1982 г.), !,1е;;здународной конференции "Использование ЭВМ в химии и химическом образовании" (Новосибирск, 1978 г.), 8 Международной конференции HKIP0;.1ACC-G8 (Таллинн, 1988 г.), на масс-спектрометри-ческой с.екции УШ, IX и XI Сибирского аналитического семинара (Новосибирск, 1984, 1985 и 1989 г.г.).

Структура диссертации, диссертация состоит из введения, пяти глав, выводов и прилокепия ( 9 актов внедрения), изложена на 169 страницах, содержи 13 таблиц 'и 32 рисунка. Основной текст диссертации занимает 104 страниц . Библиографический список включает 169 наименований.

СОдЕКШИЕ РАБОТЫ

Во введеннп дана краткая характеристика актуальности работы, место настоящего исследования среди других в области создания систем интерпретации масс-спектральных данных, обобщена основные результаты.

Первая глава представляет собой литературный обзор, посвященный методам идентификации веществ с помощью масс-спектро-котрни с ионизацией электронами и возникающим при этом проблемам. Детально рассмотрен характер получаемой спектро-струк-турнон информации, причины, вызывающие искажения спектральных параметров в зависимости от условий регистрации спектров. Рассмотрены наиболее известные приемы, применяемые с целью учета искажений спектров в' поисковых алгоритмах машинных информационно-поисковых систем. На основе проведенного анализа литературных данных делается вывод о том, что до настоящего времени, несмотря на значительные успехи, не достигнута требуемая распознающая способность ИПС как при идентификации соединений по их масс-спектрам, так и при распознавании особенностей строения.

Основная причина этого кроется, как следует из обзора, с одной стороны в недостаточном учете систематических и случайных погрешностей спектров, а с другой - в несовершенстве алгоритмов анализа.

Во второй главе рассматриваются вопросы разработки эффективных ИПС по масс-спектрометрии, опирающихся на базу данных суще ственным образом сокращенных масс-спектров. Рассматривается алгоритм одной из версий созданных ИПС, позволяющей учитывать систематические и случайные погрешности в интенсивностях пиков с целью улучшения результатов поиска.

Машинный каталог созданной на первом этапе исследования поисковой системы, содержал—17000 спектров, представленных 0 наиболее интенсивными пиками. Молекулярные массы этих соединений лежали в диапазоне от 16 до 1580 а.е.м., а их обобщенная брутто-формула может быть описана следующим видом:

С0-94Н0-19000-19%-8СЬ0-15ВН£^12рО-45^8Р0-6В0-1010-123:1:0-6

Реализованный на ЭВМ "Минск-32" достаточно простой алгоритм поиска позволил убедится в том, что в случае использования спектров, описанных ограниченным числом наиболее интенсивных пиков, возможно создание эффективной ИПС для идентификации соединений. Так, например, проведенные эксперименты по распознаванию 85 соединений по их масс-спектрам (молекулярные массы: 100-174 а.с.м., брутто-фэрмула: С2-12112-24°0-б''0-2?0-СС1'0-$30-2) показали, что распознавание соединений по первым трем из ранжированного списка соединений поискового ответа может быть от 87 до 98$ случаев в зависимости от указанной в поисковом задании информации об анализируемом соединении. Более глубокий анализ поисковых результатов, полученных на данном этапе исследования, показал необходимость учета при разработке ИПС систематических и случайных погрешностей, возникающих при регистрации изучаемого спектра и содержащийся в спектрах соединений базы данных.

Действительно, хорошо известно, что масс-спсктрн одного и того же соединения могут значительно отличаться друг от друга. Эти различия обусловлены конструктивными особенностями приборов,

условиями записей, температурой системы напуска и ионизационной камеры, настройкой прибора и т.п. Анализ основных источников спектральных неопределенностей» не связанных с грубыми Ехсперимеитальныш ошибками (например, тешература системы напуска приводит к разложению вещества), показал, что наиболее важное значение имеют следующие три вида искаяешй спектральных данных* Систематические ошибки„ вызванные влиянием метода развертки спектра на интенсивности линий. Возникающие при этом искажения спектров, как показали соответствующие эксперименты. жгут оыть в значительной степени нивелированы выбором спехщалшк проший, трансформирующих одно спектральное представление в другое. Например, оценка предельно возмогшее изыенешш в спектрах, записанных на приборах с разверткой по ускоряюще^' напряжению л магшташу полю, показала, что :.:о;шо воспользоваться зависимостями (I) к (2)

Л.^ 22.С6/(<«/£. ) + 0,265. (I)

+ Т, !<■;.!

где 1~? - лат0;1слш10с.?ь ллвяя з спектре, ¡записанном на приборе с разверткой по усксряшюду напряжению: 1.д - интенсивность ко в спектре, ¿¿писанном с разверткой по магнитному

Нзр^ся предложена К.Пруссейтсм в 1970 году, вторая ~

111 .гчиж., одсесЗкая зызиъатъ значите.и-ние рао;<о;.ш,енля слектроа одного я уого :яе соединении при их 1>оршдьно.'Л солоста-злваш, эолаочается а неполноге лредсгсшленних сзектралшос дашых, ограниченных зачастую нгашиш ьзличинаш ■ ■'•/" , до ко-тор.'ХХ сравниваемые слектрп записаны. Учет таких искакешШ ва-геа и достаточно прост, Наконец, обрати-: внимание на относительнее случайную погрешность в измерении интенсивностец пиков. Литературные з наши данные позволил: над допустить, что случайная погрешность (6 ) и относительная интенсивность шюс-епектральных пиков связаны соотношением £ ^/"З*«

С учетом высказанных гамечаний нами выбран следующий численный параметр а дая оценки меры различия двух сравниваемых сокрадеш:-:х (одним и тем же способом) спектров А и В, пики в которых.ранжированы в порядке уменьшения их интенсивностей:

_cl ° g + tf- --—, (3)

где и - случайные погрешности интенсивностей и ^при массовых числах м-с и d спектрах А (неизвестного соединения) и В (машинного каталога) соответственно; к. и t - число пиков содержащихся в спектрах А и В, из них \J пиков совпадает. обозначает, что из величин к и Ь берется минимальная; Я;* ^ ; оС -доля комбинаций из »V массовых чисел по £ , 'в которых число значений т/х , совпадшощих с соответствующими величинам в спектре А, больше или равно V. При отсутствии в спектре В (или А) пика с массовым числом, равным м- (или ), ему приписывается значение интенсивности, равное (или ) соот-ветствешо.

Моино убедиться, что ¿„¡^ 0 , а Для опреде-

ления величины и- использовалось дополнительное условие: «¿(ч>9??), где 11 ~ значе'ия ¿им, при которых обеспе-

чивается 9??^-ный предварительны!'! отбор по спектрам запрашиваемых соединений спектров тех же соединений из машинного каталога. С целью получения этих величин 150 спектров различных соединений, представленных 8-ю наиболее интенсивными пиками, было сопоставлено с другими спектрами тех же соединений (ЗБЗ спектра) из машинного каталога. В результате получено ¿д7д=0,35, "'ду^З. Подставляя в (5) ?=1<=8, =3 и ы. =0.35, получаем л«30, что соответствует — 5^-ному уровню значимости частот появления различных значений тД. в машинном каталоге.

На рис. I представлена апробированная наш схема опознания соединения по его экспериментальному масс-спектру с использованием машинного каталога сокращенных спектров. Из полного спектра исследуемого соединения реализованный алгоритм автоматически определяет четыре условия предварительного отбора, которым

!

Выдача результатов

0кончательн15Готбор спектров

'ъизуалыюс сравнение полных спектров

Рис. 1. ¡.¿ток-схема опознания соединения :ю спе;:тр£>л с пег.юдш

обязан удовлетворять спектр о того соедшешш, осла он имеется а г.^жном каталогс. С этой цель» кз продьлзу.огшою сяох-тра генерируется набор сокрацсшшх (15 юкокшыга: тиков) спектров, цскаг«ешав; допуоткшлц скоте;атпческш.и гозгргкнос-11231. Сопоставлением спектров этого набора с учете;.; 1юз;до;:;-н1 IX случайных погрешостей определяются шссоше числа ( пД ) лпппй 1С, присутствующее срс/ех С наиболее интенешшх лшай рассштрнваедах спектров, и интерзаш их шгхсцсйввоствй ^.¡щ* }изх). Далее из сравнения спектра исследуемого соединения* с каддам спектром набора определяется ышшяалыю возможное число совпадающих пиков в этих спектрах «, и рассчитывается величина максимально допустимого различия спектров по интенсивнос-тял ¿т> Величина 4 рассчитывается только дая тех спектров каталога, которые содержат общие линии ( ЬС) и интенсивности которых попадают в указанные в запросе интервалы ,а ч к ¿г удовлетворяют требования:,! ?<| и £?г.

Отметит.! некоторые досто1шства НПО, реализующей пзлохсеншй

к Наряду со спектром исследуе;лого соединения в качестве спект-■ ра запроса монет выступать его измененный с помощью уравнений (I) и (2) "аналог".

шше подход. Бо-пердах, резко сокращается число спектров, релевантных условиям поиска. Во-вторых, заметно возросла "иденти-"Тлщируищая" способность алгоритма, что продемонстрировано на примерах распознания по спектрам объектов сложного для анализа методом масс-слектрометрии класса - углеводородов, имеющих важное прикладное значение.

Наконец, несмотря на то, что спектры могут быть представлены ограниченным числом пиков, хорош прослеживается возможность надежного распознания, если не самого соединения, то химического класса соединений, к которым принадлежит исследуемое. Отличительная особенность разработанного алгоритма и информационно-поисковой системы на ого основе состоит в том, что получаемые результаты не уступают таковш для системы РВМ (РгоЪг.-biiuy Hat chins System), базирующейся на более информативном каталоге спектров.

В третьей и четвертой главах проанализированы требования, предъявляемые к ШС индивидуального пользования широкого назначения, заключаемых, в том числе, в составы измерительно-вычислительных комплексов типа масс-спектрометр-ЭВМ. Показано, что подобного типа современше ИПС должны опираться на базы полных и сокращенных спектров, причем машинный анализ сопоставляемых спектров должен вестись как в абсолютных, так и относительных шкалах массовых чисел. Непременным условием эффективного функционирования ШС индивидуального назначешхя является наличие, наряду со спектральной базой, банка структур соответствующих соединений, графических средств вывода спектральной и структурной информации. Упрощенная блок-схема разработанной с учетом указанных требований системы анализа масс-спектрометрических данных приведена на рис. 2. Высокая скорость выполнения простых поисковых задач в этой системе обеспечена, с одной стороны, наличием банка данных сокращенных спектров, а с другой, специальной организацией ссылочных файлов. В ходе разработки системы предложен и используется компактный способ упаковки информации, учитывающий кластерный характер ионов, проявляемый в реальных масс-спектрах.

Как видно из рисунка, сопоставление предъявленного спектра

д

о

Масс-спектр неизвестного соединения

Режим I

Вычисление условий отбора

Резким 2

Условия отбора ча-4; ¿¿0,3

Способы сравне!шя спектров

Ш ТС сд МЧ

Молекулярная

масса ?-

Отбор спектров

Детальное сопоставление спектров выбранным способом

I

Ранжирование отобранных спектров

нет

Поиск структур по номерам

\

Результат\.

Поиск структур по структурам и структурным Фрагментам

Рис. 2. Блок-схема системы "ИПС МС-СМ".

со спекрагли базы данных* может проводиться четырьмя различными способами:

Ш - массовые числа и интенсивности пиков спектра исследуемого соединения и спектров базы данных сопоставляются в абсолютной шкале масс;

Ш, СД и ТС - сопоставление спектров в абсолютных и относительных шкалах. МП - сравнивает массовые числа, массы "первичных нейтральных потерь" и интенсивности соответствующих пиков. СД и ТС - сопоставляют спектры в относительных шкалах масс путем выбора оптимальной величины смещения шкал сравниваемых спектров, при которой различия спектров минимальны, детальное описание выбранных и реализованных алгоритмов сравнения приводится в тексте диссертационной работы. Здесь же мы ограничимся лишь рисунком (см. рис. 3), иллюстрирующим, как с переходом от способа сравнения Ш до ТС увеличивается близость спектров двух структурно-родственных соединений, а следовательно, растет вероятность отбора не совпадающего в абсолютной шкале масс-спектра (и соответствующего соединения) в окончательный машинный ответ.

Эффективность использования разработанной системы для целей идентификации (режим Ш) соединений оценена с помощью ЭВМ путем анализа спектров контрольной выборки соединений (спектры 96 соединений различных классов представлялись ИПС для поиска 258 спектров "дубликатов" в базе данных) по двум параметрам: полнота (П) и точность (Г) информационного поиска:

д_ _Количество отобранных искомых спектров_ . юо^

Общее количество искомых спектров в машинном каталоге

т_ _Количество отобранных искомых спектров_ . ^^

Количество отобранных в поисковый ответ спектров

к Основная база данных системы включает ~26500 спектров и структур органических соединений. Спектры представлены всеми пиками с интенсивностями более 1%, интенсивности пиков - целочисленными значениями корней квадратных из интенсивностей в спектре, нормированном к максимальному пику (100$).

I > 100'.

а , к.. ., , 1

4 и 1 12 1 ьо ¿с и 240 2 о

б 1 1 1,

4и 80 I, 1004 13 60 2с ю 240 0

в 1 (

I. 1004

г 1 1 1 к

[> 1004

д 1 1 1 1 .. . . 1

Рис. 3. Пример сопоставления спектров да(пара-метилфенил)тио-суль'Тоната (а) и дифенилтиосулкионата (б-д) в режимах МЧ (б), Ш (в), ОД (г) и ТС! (д).

При это?.; анализ проведен для случаев идантп^ккации соединений по еоираценнш и -полши спектрам. Зависимость полноты i) точности выдачи ошсиваошй ИПС от уровня ограничения поискового ответа по мере различия <1 представлена на рис. 4. Взаимосвязь полноты и точности выдачи при сравнении сокращениях и псшшх спектров наглядно прослеживается на рис. 5. Очевидно, что с немощью разработанной ИПС может Сыть достигнута точность выда-

более 50%' при полноте, близкой к kü%.

Результаты работы в рзззвлпх ОТ, а ТС шкястппрупгся кон-:;!>;гнымп примерами, см. табл. I. Iis рассмотрения структур со-лчннеплн. отбираемых в соответствую; ию машинные ответы, :;о::з;о, ■ ..топоны. выявить общ;;е структурные блоки отобранных

; и на стой основе сделать загслкче-пие о строении 'пс-

... ГН..ГГ, <;-\>-;лнеш!я. С другой, проследить как различия в

::.; ссаз^вагтсл на спектра:-; соедпиенлй, отСкраекик в ма-.пигый ответ после процедур сопоставления сне-.тров в относительных жалах масс.

Роаигэовсцише в ЛПС алгоритш, как нохзю было заметить, ш-/.•линуют смещения шкал массовых чисел ионов в спектрах с блнз---З.И по характеру распадами структурно-родственных молекул, iinen-::о о го обстоятельство и открывает дополнительные возмогло стп применения ШС при установлении строения новых ";yifi ЭВГ.Г соединений.

В пятой главе предложено цришдшаально новое ревение одной ::з вагнеИшос задач аналитической химии - опознание .молекулярной массы содержащего примеси соединения по его масс-спектру. .Хорошо известно насколько сложен в ряде случаев поиск ответа на этот вопрос д&'ке с использованием всего экспериментального набора современных средств масс-спектрометркк (понижение ионизирующего излучения, обращение к "мягким" способам ионизации, химическая модификация образца и т.п.). В настоящем исследовании предложен метод машинного анализа спектров, успешно решающий поставленную задачу и в случаях отсутствия в спектре изучаемого вещества пиков молекулярных ионов.

Важнейшая предпосылка данной разработки - создание описанной выше ШС, поисковые результаты которой, как показала прак-

1 ооз

30

20

о-"° 1

Р ,0-о--О 3

О / О'

х /а

--о

/ I?

\

\

Чо..с

I_I

•О.

'•О л

I

О

л_

_1_

0,10 0,20 Рис. 4

0,30

ю зо Полкота выдачи, % Рис. 5

Рис. Рис.

Зависимость полнота (I, 3) и'точности выдачи (2, 4) от уровня ограничения поискового ответа по параметру эо в режимах I (3, 4) и 2 (I, 2)

Взаимосвязь полноты и точности выдачи при сравнении сокращенных спектров контрольной выборки с-сокращенными спектрами базы данных (а) и при сравнении полных спектров контрольной выборки со спектрами основного поискового аайла (б) I, 3 - ре;:сим I; 2, 4 - режим 2

о

О

о

4

о.

Режим мера отобранные соединения

Ш 0,23

ш 0,17 0,24

сд 0,23 0,2/1 0,27 ^~^-со-дп-сн2-соодн3 <0>.СО-1Г1-ОН2-СООСНз

тс 0,17 0 , Р'1 0,'" 0,2? 0-ад-о-очо-сп3

Реим|,„ера| отоЗраиш

МЧ

МП

о,17 о, 22 0,2°

0,?А

J

„СЧ,

CF., »Г

%J %J '

il..

un

; ; , ;

„3 ,-он,

11"--' ! !

'i î'.i

0,2^

<

Таблица I

!í.. CH0-OH0-Î1U-, - cootie: x-Jj - - -

тика, слабо зависят от наличия в изучаемом спектре фоновых (до 20$ от общего ионного тока) компонент примеси.

В основу генерирования списка МЛ положена оценка относительных частот встречаемости ($ ). разностей д?.Е|ЫЛМ0-лЩ2, где ММ и ММ2 - молекулярные массы соединений поисковых ответов и соединений запросов соответственно, для двух "случайно выбрашшх" групп по 1000 соединений (спектров). Охсазалось, что в 45$ случаев среди »V (л-£5) первых отобранных при поиске соединений присутствуют соединения с величинами ММ^ММф. Величины дММ в 70$ случаев кратны величинам ¿-14, где ¿- целое число (04 6).

Выявленные закономерности позволяют генерировать список кандидатов в молекулярные массы (Ш^) неизвестного соединения простым суммированием МЛ соединений машинного ответа (ЬЫ^, ¿=1-5) с наиболее значимыми в статистическом отношении величинами дММ ЦММ^, к =1+11 при

+ дМЬ^. (6)

ЕЛок-схема разработанного и реализованного алгоритма определения молекулярной массы соединения представлена на рис. 6. На первом этапе по предъявленному в запросе спектру реализуется поиск в базе данных сокращенных, а затем полных спектров. Сопоставление спектров проводится в абсолютной идеале масс, а ранжирование осуществляется согласно величине параметра Т):

где Хт и Ут - значения интенсивностей пиков при массовом числе « полных масс-спектров неизвестного и библиотеки соответственно (0^15^1). Ответ ИПС содержит а соединений (0*^¿5) с мерами различия спектров 0£"Ъ^0,4.

На втором этапе с учетом величин д ММ и ММ соединений поискового ответа генерируется список возможных значений ММ-канди-датов, сопровождаемых соответствующими им статистически ожидаемыми для данного ответа ЭВМ суммами частот встречаемости.

На третьем этапе для каждого 1-кандидата проводится сопоставление предъявленного спектра со всеми ^-спектрами отобран-них соединений в относительных шкалах масс, формируемых путем

,--:_

I Сопоставление спектров ! лдя расчета ¿й-У

Результат \ [ММ, Я1.Я2.!\.у

Блок-схема программы предсказания молекулярной массы.

полного сдвига спектров до совпадения масс их молекулярных лонов с массой ММ -кандидата. При этом рассчитывается величина О по шраяешт, аналогичному (7), в котором индексов спектрах библиотеки заменяется на т'= т Далее на этой этапе вычисляется первая компонента параметра панжирования Ш-кандидатов:

Я1:» А (8)

V У\.

На заключительных этапах спектры машинного ответа еще раз сопоставляются со спектром неизвестного. При этом на разность молекулярных масс I -кандидата и ^-соединения поискового ответа могут сдвигаться не все пики соответствующего ^-спектра, а лишь часть из них. Из серии комбинаций сдвигов пиков выбирается та, которая приводит к наибольшему сближению сравниваемых

19

"спектров". После сопоставления всех спектров малинного ответа со спектром неизвестного соединения вычисляется 21 очевидно, что Выполнение этой процедуры завершается расчетом еще одной компоненты параметра ранжирования Ш-кавдида-

(9)

Окончательное ранжирование списка МЛ производится по параметру-

(ю)

Проверка изложенного подхода, проведенная путем анализа масс-спектров 319 "неизвестных" соединений (диапазон Ш от 44 до 536 а.ем.), из которых 225 содержали пики молекулярных ионов, а в 94 они отсутствовали, показала следующее. В 61 случае ЭВМ "отказалась" решать задачу, т.к. машинный ответ ИПС не содержал соединений, спектры которых удовлетворяли бы условйю "Ь£0,4. Из них 52 случая относились к спектрам соединений, содержащих, а 9 - не содержащих пик молекулярного иона. Для оставшихся 258 соединений искомая ММ находилась в списке генерируемых масс в 94,6% случаев.

Распределение искомых масс "неизвестных" соединений среди к-первых ММ-кандидатов для случаев анализа спектров с присутствующими и отсутствующими пиками молекулярных ионов, отражено в табл. 2.

Таблица 2

Относительные частоты обнаружения молекулярной массы исследуемого соединения среди к-первых ММ-кандидатов

к Нет пика М+ (85 спектров) Есть пик М* (173 спектра)

<и Я. Й.1 Я.2 Я.

I 57,5 37,6 64,7 77,5 30,1 85,0

3 74,7 45,9 81,2 90,2 41,6 90,8

5 84,7 56,5 87,1 91,3 53,5 91,9

10 92,9 82,9 92,9 92,5 87,0 91,9

юой

80 60

40

20

и

иа

[_1

1 ПГ)

1 <0

РПО

I |1

К),, 0,2

Н2

0,2

240 'РО т/г

Рис, 7. Пример анализа молекулярной массы основной компоненты (1-(1-метоксиэтокси)гептан) по масс-спектру. Пики примесей отмечены черточками.

У.охно видеть, что параметр 52 для обеих групп рассматриваемых спектров дает заметно худоие результаты по сравнению с параметром К1. Наиболее удовлетворительные данные получены с использованием параметра Е. В этих случаях в среднем в 30% решаемых ЭВЫ задач искомая ММ оказывается в списке первых пяти кандидатов. Отметим такие, что описанный алгоритм, по сравнению с реализованным ранее ( С.А.Нехорслез, 1985 г.) заметно лучше (на 10% по первому ответу ЭВМ) предсказывает МЛ соединений, молекулярные ионы в спектрах которых не проявляются.

На рис. 6 приведен пример предсказания молекулярной массы 1-(1-метоксиэтокси)гептана по спектру, содержащему пики примеси (часть из них отмечена черточкой). Видно, что искомой Ш соответствуют максимальные значения параметров КГ, В2, а следовательно, и К.

3 У В О Д Ы

I. На основе опыта разработки и использования ШС по масс-спектрометрии, базирующейся на каталоге сокращенных спектров, сформулирован новый алгоритм сопоставления предъявленного спектра и спектров базы данных, учитывающий экспериментальные по-

грешности в интенсивностях пиков. На базе мини-ЭВМ создана высокоэффективная ИПС, обеспечивающая при решении задач идентификации соединений по их масс-спектрам точность выдачи более 50% при полноте выдачи искомой информации близкой к 85%.

2. Разработан новый алгоритм автоматизированного сопоставления спектров в относительных шкалах массовых чисел. Продемонстрирована возможность эффективного отбора из базы данных спектров соединений, родственных по строению исследуемому. Это существенно расширяет возможность информационного поиска и позволяет на основе анализа структур отобранных соединений выносить суждения о химическом классе анализируемых соединений и особенностях его, строения в тех случаях, когда спектр изучаемого соединения отсутствует в базе данных.

3. Исследован и реализован принципиально новый алгоритм предсказания молекулярных масс изучаемых соединений по масс-спсктрам, осложненным влиянием примесей. Впервые показано, что задача автоматизированного опознания молекулярной массы по подобным спектрам может быть решена как в случае наличия, так и в случае отсутствия пиков молекулярных ионов в масс-спектрах низкого разрешения при ионизации молекул электронным пучком.

4. Создшшая в ходе выполнения работы информационно-поисковая система по масс-спектрометрии на базе ЭВМ СМ-4 (ШС МС-СМ) вйедрена в практику ряда организаций и вошла в состав матештического обеспечения отечественной системы обработки данных масс-спектрометрического эксперимента ИВК ЛП-03, выпускаемой Чсрноголовским опытно-эксиорименталышм заводом ЛИ СССР.

Основное содержание диссертации опубликовано в следующих работах:

1. Дсрендяев Б.Г., Иокровйкий Д.М., Пехорошев С.Л., Сшрнов В.И., Коптюг В.А. Машинная информационно-поисковая система для масс-спектрометрга. //Изв.СО ЛН СССР^ Сер.хим.наук -1977. -М. - Вып.2. - С. 109-115.

2. Покровский JI.M., Пехорошев С.Л., Соколов С.П. 0 возможности учета искажений интенсивностей линий при решении

структурных задач методом масс-спектрометрии. // Изв. СО АН СССР. Сер.хим.наук - 1982. -¿22. - Вып.1. - С.98-105.

3. Покровский Л.М., Дерендяев Б.Г. Информационно-поисковая система по масс-спектрометрии дая мини-ЭВМ. /Д. аналит. химии - I98S. - Т.43. - Вып.5. - С.786-792.

4. Покровский Ü.M., Дерендяев Б.Г. Отбор масс-спектров структурно-родственных соединений с помощью ЭВМ. // Изв. СО АН СССР. Сер.хим.наук - 1989. - Вып.4. - С.88-97.

5. Покровский Л.М., Строков И.И. Решение спектро-структурных задач масс-спектрометрии с помощью ШС МС-СМ. //Тез. докл. С-й международной конференции стран-членов СЭВ. ПВТРОЫАСС 88, 1С—21 сент. I9Gßr., Таллинн, 1988. -С.41-42.

6. Дерендяев Б.Г., Покровский Л.М., Номероцкая Е.М. Распознание молекулярной массы основной компоненты простых смесей с помощью ыасс-спектрометрической ИПС. //Тез. докл. УШ Всесоюз. кону. Использование вычислительных машин в спектроскопии молекул и химических исследованиях, 26-28 сент. 1989 г., Новосибирск, 1989. -С.106-107.

уормат бумаги 60x84 I/I6 Объем I п/л Заказ ю Тира?. 100 окз.

Отпечатано на ротапринте Новосибирского института органической хкши СО АН СССР, 63009Ü, Новосибирск, проспект акад. Лаврентьева, 9