Учет экспериментальных погрешностей в информационно-поисковой системе по масс-спектрометрии и разработка на этой основе методов решения типичных аналитических задач тема автореферата и диссертации по химии, 02.00.02 ВАК РФ
Покровский, Леонид Михайлович
АВТОР
|
||||
кандидата химических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
МЕСТО ЗАЩИТЫ
|
||||
1990
ГОД ЗАЩИТЫ
|
|
02.00.02
КОД ВАК РФ
|
||
|
Академия наук СССР Ордена Ленина Сибирское отделение ИНСТИТУТ НЕОРГАНИЧЕСКОЙ ИШ1
На правах рукописи
Покровский Лемшд Шхайлович
УЖ 543.51:681.32
УЧЕТ ЭКСдаИШПТШЪШЙ ПОГРШЮСТЕЙ 3 ШФОРМАЦИОШЮ-ИОИСКОЮЛ СИСТЕМЕ ПО 1.1АСС-СПЕ1{ТР0г.Щ'РШ1 • И РАЗРАБОТКА НА ЭТОЛ ОСНОВЕ МЕТОДОВ РЕШЕНИЯ ТИПИЧНЫХ АНАЛИТИЧЕШК злдичч
Специальность 02.00.02 - аналитическая химия
А в т о р е |{> е р а т диссертации на соискание учено;! степени кандидата химических наук
Новосибирск - 1990
Работа выполнена в Новосибирском институте органической химии Сибирского отделения АН СССР
Научный руководитель: доктор химических наук Б.Г.Дерепдяев
Официальные оппоненты: доктор физико-математических наук М.С.Хоц
кандидат химических наук А.И.Сапрыкин
Ведущая организация - Ордена Ленина Институт элементооргани-
ческих соединений им. А.Н.Несмеянова АН СССР
7 /
Завдта состоится "Ц " лне^х 199/ г. в Ю час. на заседании Специализированного совета Д 002.52.01 при Институте неорганической химии СО АН СССР по адресу: 630090, Новосибирск-90, проспект Академика Лаврентьева, 3.
С диссертацией можно ознакомиться в библиотеке Института.
Автореферат разослан и*> 1990 г.
7
Учета' секретарь схюциализированного совета кандидат химических наук Л.М.Буянова
озтч ХЛРЛКТШЮТШСА РАБОТЫ
Актуальность пр г'леш. Особое место масс-спектрометрии среди аналитических методов определяется целым рядом обстоятельств. Среди 1шх: зозмойн&сть анализа вещества в любом агрегатном состоянии, шсокая чувствительность и информативность метода, наличие хромато-масе-епектралы-шх комплексов и применимость результатов анализа 1С различным областям науки и техники.
Среда разнообразных видов масс-снектрометрин и способов ионизации изучаемого вещества наиболее широкое распространение в аналитической практике находит масс-спектрометрия низкого разрешения с ионизацией молекул .вещества электронами с энергией 5С-70 ов. Получаемая спектральная информация во многих случаях является основной для решения одной из наиболее массовых аналитических задач - установления строения анализируемого соединения.
Вместе с этим известные трудности интерпретации ползаем!«: данных, обусловленные неоднозначностью спектро-структурных корреляций, наличием разнообразных правил и исключений, описывающих диссоциативный распад соединений различных классов, значительно ограничивают области применения метода.
Ситуация усугубляется тем, что в случае масс-спектрометрии влияние условий регистрации спектров отражается на характеризующем соединение спектральном образе. Указанные обстоятельства обменяют проявляемый в последние года интерес к созданию машинных систем анализа масс-спектральных данных, способных оказывать исследователю помощь при интерпретавдг экспериментальных результатов. Б этих исследованиях выделяются две "горячие точки": необходимость разработки эффективных ин^юрмаци-ошю-поисковых систем, способных идентифицировать соединение по спектру вне зависимости от условий его регистрации и наличия нуримесей, и потребность создания новых алгоритмов анализа
спектров с целью- выявления молекулярной массы л особенностей строения исследуемого соединения.
Актуальность решения этих задач обусловлена радой обстоятельств, Ешхнейшие из которых: необходимость создания доступных и эффективных средств информационного обеспечения масс-спектрадыых исследований с целью интенсификации труда анали-тпков, возросший социальный запрос на расширение областей использования масс-спектрометрии при решении экологических про- -блем, контроля технологии и качества продукции химических производств, агропромышленного комплекса и-т.п.
Цель работы, данное исследование выполнено в рамках планов работ Новосибирского института органической химии (ШОХ) и Научно-технического центра химической кы/орматики (НТЦ Л!) СО Л11 СССР, связанных с разработкой машинных методов анализа и интерпретации различных видов молекулярных спектров (номер государственной регистрации 01.об.С 1С4011). Оно преследовало рсыеше следутадах двух основных задач:
- разработка алгоритмов и создание высокоэТ-ективпой информационно-поисковой системы (КЛС) на основе банка масс-спект-ральнкх данных, содеркацего параду с полной, существенным образом сокращенную спектральную информацию;
- разработка и реализация новых методов автоматизированного анализа исследуемых спектров в абсолютных и относительных акалах массовых чисел .с целью извлечения информации о строении индивидуального или содср;;;ачего примеси соединения.
Ка;,~чнал новизна работы определяется, во-первых, разработкой и реализацией алгоритмов шг]Ьрмационно-поисковых систем, сопоставляющих предъявленные спектры и спектры баз данных в абсолютных шкалах массовых чисел с учетом экспериментальных погрешностей метода. Во-вторых, разработкой новых и сравнительно быстрых алгоритмов Ш1С для поиска структурных аналогов исследуемого соединения.^путем сопоставления спектров в относительных шкалах масс. В третьих, разработкой принципиально нового алгоритма предсказания по предъявленному спектру молекулярных
масс ('.ЕЛ) индивидуальных соединений пли соединений, содержащих примеси. Наконец, в доказательстве возможности распознания i.L.I соединения, содержащего примеси, да-ке в случаях отсутствия в спектре его молекулярных ионов.
Практическая значимость работы заключается в создании высокоэффективной ШС по масс-спектрометрии дом мнни-ЭВЫ типа СМ, позволяющей оказывать исследователям помощь при решении наиболее массовых аналитических задач установления молекулярной массы изучаемого соединения и особенностей его строения. Разработайте в ходе исследования программы иронии испытание в НИОХ и НТЦ XII СО АН СССР и внедрены (в том числе с экономическим эффектом) в практику 6 организаций, включая Ленинградский технологический институт им. Ленсовета, Институт токсикологии i/ß СССР (Ленинград), Институт алеыенто-органических соединений АН СССР, Институт молекулярной генетики (г.Москва), СКВ АЛ НТО АН СССР (г.Ленинград), Институт химии им. В.П.Никитина Таджикской ССР (г.Дущанбе). Информационно-поисковая система по масс-спектрометрии на базе ЭШ CU-4 (ШС Ж-СМ) вошла в состав математического обеспечения отечественной системы обработки данных масс-спектрометрического эксперимента ИВК АП-03, выпускаемой Черноголовским опытно-эксперимьнталышм заводом АН СССР.
На защиту выносится:
- метод учета экспериментальных погрешностей при сопоставлении масс-спектров базы данпых и исследуемого соединения с целью его идентификации;
- алгоритм автоматизированного сопоставления спектров в относительных шкалах массовых чисел для отбора из машинного каталога спектров соединений структурно-родственных исследуемому;
- новый метод определения молекулярных масс соединений по масс-спектрам, осложненным влиянием примесей, и результаты его испытаний;
- высокоэффективная информационно-поисковая система по масс-спектрометрии на базе мшш-ЖД.
Публикации и апробации работы. По материалам диссертации
опубликовано 6 печатных 'работ. Основные результаты долокены на III и 1У Всесоюзных конференциях- по масс-спектрометрии (Ленинград, IS8I г., Сумы, 1986 г.), Ш+У1, УШ Всесоюзных семинарах-конференциях "Применение ЭВГ-Л в спектроскопии молекул" (Новосибирск 1975, 1977, 19Б0, 1983, 1989 г.г.), Зональной научной конференции "Аналитическая химия Сибири" (Тюмень, 1982 г.), !,1е;;здународной конференции "Использование ЭВМ в химии и химическом образовании" (Новосибирск, 1978 г.), 8 Международной конференции HKIP0;.1ACC-G8 (Таллинн, 1988 г.), на масс-спектрометри-ческой с.екции УШ, IX и XI Сибирского аналитического семинара (Новосибирск, 1984, 1985 и 1989 г.г.).
Структура диссертации, диссертация состоит из введения, пяти глав, выводов и прилокепия ( 9 актов внедрения), изложена на 169 страницах, содержи 13 таблиц 'и 32 рисунка. Основной текст диссертации занимает 104 страниц . Библиографический список включает 169 наименований.
СОдЕКШИЕ РАБОТЫ
Во введеннп дана краткая характеристика актуальности работы, место настоящего исследования среди других в области создания систем интерпретации масс-спектральных данных, обобщена основные результаты.
Первая глава представляет собой литературный обзор, посвященный методам идентификации веществ с помощью масс-спектро-котрни с ионизацией электронами и возникающим при этом проблемам. Детально рассмотрен характер получаемой спектро-струк-турнон информации, причины, вызывающие искажения спектральных параметров в зависимости от условий регистрации спектров. Рассмотрены наиболее известные приемы, применяемые с целью учета искажений спектров в' поисковых алгоритмах машинных информационно-поисковых систем. На основе проведенного анализа литературных данных делается вывод о том, что до настоящего времени, несмотря на значительные успехи, не достигнута требуемая распознающая способность ИПС как при идентификации соединений по их масс-спектрам, так и при распознавании особенностей строения.
Основная причина этого кроется, как следует из обзора, с одной стороны в недостаточном учете систематических и случайных погрешностей спектров, а с другой - в несовершенстве алгоритмов анализа.
Во второй главе рассматриваются вопросы разработки эффективных ИПС по масс-спектрометрии, опирающихся на базу данных суще ственным образом сокращенных масс-спектров. Рассматривается алгоритм одной из версий созданных ИПС, позволяющей учитывать систематические и случайные погрешности в интенсивностях пиков с целью улучшения результатов поиска.
Машинный каталог созданной на первом этапе исследования поисковой системы, содержал—17000 спектров, представленных 0 наиболее интенсивными пиками. Молекулярные массы этих соединений лежали в диапазоне от 16 до 1580 а.е.м., а их обобщенная брутто-формула может быть описана следующим видом:
С0-94Н0-19000-19%-8СЬ0-15ВН£^12рО-45^8Р0-6В0-1010-123:1:0-6
Реализованный на ЭВМ "Минск-32" достаточно простой алгоритм поиска позволил убедится в том, что в случае использования спектров, описанных ограниченным числом наиболее интенсивных пиков, возможно создание эффективной ИПС для идентификации соединений. Так, например, проведенные эксперименты по распознаванию 85 соединений по их масс-спектрам (молекулярные массы: 100-174 а.с.м., брутто-фэрмула: С2-12112-24°0-б''0-2?0-СС1'0-$30-2) показали, что распознавание соединений по первым трем из ранжированного списка соединений поискового ответа может быть от 87 до 98$ случаев в зависимости от указанной в поисковом задании информации об анализируемом соединении. Более глубокий анализ поисковых результатов, полученных на данном этапе исследования, показал необходимость учета при разработке ИПС систематических и случайных погрешностей, возникающих при регистрации изучаемого спектра и содержащийся в спектрах соединений базы данных.
Действительно, хорошо известно, что масс-спсктрн одного и того же соединения могут значительно отличаться друг от друга. Эти различия обусловлены конструктивными особенностями приборов,
условиями записей, температурой системы напуска и ионизационной камеры, настройкой прибора и т.п. Анализ основных источников спектральных неопределенностей» не связанных с грубыми Ехсперимеитальныш ошибками (например, тешература системы напуска приводит к разложению вещества), показал, что наиболее важное значение имеют следующие три вида искаяешй спектральных данных* Систематические ошибки„ вызванные влиянием метода развертки спектра на интенсивности линий. Возникающие при этом искажения спектров, как показали соответствующие эксперименты. жгут оыть в значительной степени нивелированы выбором спехщалшк проший, трансформирующих одно спектральное представление в другое. Например, оценка предельно возмогшее изыенешш в спектрах, записанных на приборах с разверткой по ускоряюще^' напряжению л магшташу полю, показала, что :.:о;шо воспользоваться зависимостями (I) к (2)
Л.^ 22.С6/(<«/£. ) + 0,265. (I)
+ Т, !<■;.!
где 1~? - лат0;1слш10с.?ь ллвяя з спектре, ¡записанном на приборе с разверткой по усксряшюду напряжению: 1.д - интенсивность ко в спектре, ¿¿писанном с разверткой по магнитному
Нзр^ся предложена К.Пруссейтсм в 1970 году, вторая ~
111 .гчиж., одсесЗкая зызиъатъ значите.и-ние рао;<о;.ш,енля слектроа одного я уого :яе соединении при их 1>оршдьно.'Л солоста-злваш, эолаочается а неполноге лредсгсшленних сзектралшос дашых, ограниченных зачастую нгашиш ьзличинаш ■ ■'•/" , до ко-тор.'ХХ сравниваемые слектрп записаны. Учет таких искакешШ ва-геа и достаточно прост, Наконец, обрати-: внимание на относительнее случайную погрешность в измерении интенсивностец пиков. Литературные з наши данные позволил: над допустить, что случайная погрешность (6 ) и относительная интенсивность шюс-епектральных пиков связаны соотношением £ ^/"З*«
С учетом высказанных гамечаний нами выбран следующий численный параметр а дая оценки меры различия двух сравниваемых сокрадеш:-:х (одним и тем же способом) спектров А и В, пики в которых.ранжированы в порядке уменьшения их интенсивностей:
_cl ° g + tf- --—, (3)
где и - случайные погрешности интенсивностей и ^при массовых числах м-с и d спектрах А (неизвестного соединения) и В (машинного каталога) соответственно; к. и t - число пиков содержащихся в спектрах А и В, из них \J пиков совпадает. обозначает, что из величин к и Ь берется минимальная; Я;* ^ ; оС -доля комбинаций из »V массовых чисел по £ , 'в которых число значений т/х , совпадшощих с соответствующими величинам в спектре А, больше или равно V. При отсутствии в спектре В (или А) пика с массовым числом, равным м- (или ), ему приписывается значение интенсивности, равное (или ) соот-ветствешо.
Моино убедиться, что ¿„¡^ 0 , а Для опреде-
ления величины и- использовалось дополнительное условие: «¿(ч>9??), где 11 ~ значе'ия ¿им, при которых обеспе-
чивается 9??^-ный предварительны!'! отбор по спектрам запрашиваемых соединений спектров тех же соединений из машинного каталога. С целью получения этих величин 150 спектров различных соединений, представленных 8-ю наиболее интенсивными пиками, было сопоставлено с другими спектрами тех же соединений (ЗБЗ спектра) из машинного каталога. В результате получено ¿д7д=0,35, "'ду^З. Подставляя в (5) ?=1<=8, =3 и ы. =0.35, получаем л«30, что соответствует — 5^-ному уровню значимости частот появления различных значений тД. в машинном каталоге.
На рис. I представлена апробированная наш схема опознания соединения по его экспериментальному масс-спектру с использованием машинного каталога сокращенных спектров. Из полного спектра исследуемого соединения реализованный алгоритм автоматически определяет четыре условия предварительного отбора, которым
!
Выдача результатов
0кончательн15Готбор спектров
'ъизуалыюс сравнение полных спектров
Рис. 1. ¡.¿ток-схема опознания соединения :ю спе;:тр£>л с пег.юдш
обязан удовлетворять спектр о того соедшешш, осла он имеется а г.^жном каталогс. С этой цель» кз продьлзу.огшою сяох-тра генерируется набор сокрацсшшх (15 юкокшыга: тиков) спектров, цскаг«ешав; допуоткшлц скоте;атпческш.и гозгргкнос-11231. Сопоставлением спектров этого набора с учете;.; 1юз;до;:;-н1 IX случайных погрешостей определяются шссоше числа ( пД ) лпппй 1С, присутствующее срс/ех С наиболее интенешшх лшай рассштрнваедах спектров, и интерзаш их шгхсцсйввоствй ^.¡щ* }изх). Далее из сравнения спектра исследуемого соединения* с каддам спектром набора определяется ышшяалыю возможное число совпадающих пиков в этих спектрах «, и рассчитывается величина максимально допустимого различия спектров по интенсивнос-тял ¿т> Величина 4 рассчитывается только дая тех спектров каталога, которые содержат общие линии ( ЬС) и интенсивности которых попадают в указанные в запросе интервалы ,а ч к ¿г удовлетворяют требования:,! ?<| и £?г.
Отметит.! некоторые досто1шства НПО, реализующей пзлохсеншй
к Наряду со спектром исследуе;лого соединения в качестве спект-■ ра запроса монет выступать его измененный с помощью уравнений (I) и (2) "аналог".
шше подход. Бо-пердах, резко сокращается число спектров, релевантных условиям поиска. Во-вторых, заметно возросла "иденти-"Тлщируищая" способность алгоритма, что продемонстрировано на примерах распознания по спектрам объектов сложного для анализа методом масс-слектрометрии класса - углеводородов, имеющих важное прикладное значение.
Наконец, несмотря на то, что спектры могут быть представлены ограниченным числом пиков, хорош прослеживается возможность надежного распознания, если не самого соединения, то химического класса соединений, к которым принадлежит исследуемое. Отличительная особенность разработанного алгоритма и информационно-поисковой системы на ого основе состоит в том, что получаемые результаты не уступают таковш для системы РВМ (РгоЪг.-biiuy Hat chins System), базирующейся на более информативном каталоге спектров.
В третьей и четвертой главах проанализированы требования, предъявляемые к ШС индивидуального пользования широкого назначения, заключаемых, в том числе, в составы измерительно-вычислительных комплексов типа масс-спектрометр-ЭВМ. Показано, что подобного типа современше ИПС должны опираться на базы полных и сокращенных спектров, причем машинный анализ сопоставляемых спектров должен вестись как в абсолютных, так и относительных шкалах массовых чисел. Непременным условием эффективного функционирования ШС индивидуального назначешхя является наличие, наряду со спектральной базой, банка структур соответствующих соединений, графических средств вывода спектральной и структурной информации. Упрощенная блок-схема разработанной с учетом указанных требований системы анализа масс-спектрометрических данных приведена на рис. 2. Высокая скорость выполнения простых поисковых задач в этой системе обеспечена, с одной стороны, наличием банка данных сокращенных спектров, а с другой, специальной организацией ссылочных файлов. В ходе разработки системы предложен и используется компактный способ упаковки информации, учитывающий кластерный характер ионов, проявляемый в реальных масс-спектрах.
Как видно из рисунка, сопоставление предъявленного спектра
д
о
Масс-спектр неизвестного соединения
Режим I
Вычисление условий отбора
Резким 2
Условия отбора ча-4; ¿¿0,3
Способы сравне!шя спектров
Ш ТС сд МЧ
Молекулярная
масса ?-
Отбор спектров
Детальное сопоставление спектров выбранным способом
I
Ранжирование отобранных спектров
нет
Поиск структур по номерам
\
Результат\.
Поиск структур по структурам и структурным Фрагментам
Рис. 2. Блок-схема системы "ИПС МС-СМ".
со спекрагли базы данных* может проводиться четырьмя различными способами:
Ш - массовые числа и интенсивности пиков спектра исследуемого соединения и спектров базы данных сопоставляются в абсолютной шкале масс;
Ш, СД и ТС - сопоставление спектров в абсолютных и относительных шкалах. МП - сравнивает массовые числа, массы "первичных нейтральных потерь" и интенсивности соответствующих пиков. СД и ТС - сопоставляют спектры в относительных шкалах масс путем выбора оптимальной величины смещения шкал сравниваемых спектров, при которой различия спектров минимальны, детальное описание выбранных и реализованных алгоритмов сравнения приводится в тексте диссертационной работы. Здесь же мы ограничимся лишь рисунком (см. рис. 3), иллюстрирующим, как с переходом от способа сравнения Ш до ТС увеличивается близость спектров двух структурно-родственных соединений, а следовательно, растет вероятность отбора не совпадающего в абсолютной шкале масс-спектра (и соответствующего соединения) в окончательный машинный ответ.
Эффективность использования разработанной системы для целей идентификации (режим Ш) соединений оценена с помощью ЭВМ путем анализа спектров контрольной выборки соединений (спектры 96 соединений различных классов представлялись ИПС для поиска 258 спектров "дубликатов" в базе данных) по двум параметрам: полнота (П) и точность (Г) информационного поиска:
д_ _Количество отобранных искомых спектров_ . юо^
Общее количество искомых спектров в машинном каталоге
т_ _Количество отобранных искомых спектров_ . ^^
Количество отобранных в поисковый ответ спектров
к Основная база данных системы включает ~26500 спектров и структур органических соединений. Спектры представлены всеми пиками с интенсивностями более 1%, интенсивности пиков - целочисленными значениями корней квадратных из интенсивностей в спектре, нормированном к максимальному пику (100$).
I > 100'.
а , к.. ., , 1
4 и 1 12 1 ьо ¿с и 240 2 о
б 1 1 1,
4и 80 I, 1004 13 60 2с ю 240 0
в 1 (
I. 1004
г 1 1 1 к
[> 1004
д 1 1 1 1 .. . . 1
Рис. 3. Пример сопоставления спектров да(пара-метилфенил)тио-суль'Тоната (а) и дифенилтиосулкионата (б-д) в режимах МЧ (б), Ш (в), ОД (г) и ТС! (д).
При это?.; анализ проведен для случаев идантп^ккации соединений по еоираценнш и -полши спектрам. Зависимость полноты i) точности выдачи ошсиваошй ИПС от уровня ограничения поискового ответа по мере различия <1 представлена на рис. 4. Взаимосвязь полноты и точности выдачи при сравнении сокращениях и псшшх спектров наглядно прослеживается на рис. 5. Очевидно, что с немощью разработанной ИПС может Сыть достигнута точность выда-
более 50%' при полноте, близкой к kü%.
Результаты работы в рзззвлпх ОТ, а ТС шкястппрупгся кон-:;!>;гнымп примерами, см. табл. I. Iis рассмотрения структур со-лчннеплн. отбираемых в соответствую; ию машинные ответы, :;о::з;о, ■ ..топоны. выявить общ;;е структурные блоки отобранных
; и на стой основе сделать загслкче-пие о строении 'пс-
... ГН..ГГ, <;-\>-;лнеш!я. С другой, проследить как различия в
::.; ссаз^вагтсл на спектра:-; соедпиенлй, отСкраекик в ма-.пигый ответ после процедур сопоставления сне-.тров в относительных жалах масс.
Роаигэовсцише в ЛПС алгоритш, как нохзю было заметить, ш-/.•линуют смещения шкал массовых чисел ионов в спектрах с блнз---З.И по характеру распадами структурно-родственных молекул, iinen-::о о го обстоятельство и открывает дополнительные возмогло стп применения ШС при установлении строения новых ";yifi ЭВГ.Г соединений.
В пятой главе предложено цришдшаально новое ревение одной ::з вагнеИшос задач аналитической химии - опознание .молекулярной массы содержащего примеси соединения по его масс-спектру. .Хорошо известно насколько сложен в ряде случаев поиск ответа на этот вопрос д&'ке с использованием всего экспериментального набора современных средств масс-спектрометркк (понижение ионизирующего излучения, обращение к "мягким" способам ионизации, химическая модификация образца и т.п.). В настоящем исследовании предложен метод машинного анализа спектров, успешно решающий поставленную задачу и в случаях отсутствия в спектре изучаемого вещества пиков молекулярных ионов.
Важнейшая предпосылка данной разработки - создание описанной выше ШС, поисковые результаты которой, как показала прак-
1 ооз
30
20
о-"° 1
Р ,0-о--О 3
О / О'
х /а
--о
/ I?
\
\
Чо..с
I_I
•О.
'•О л
I
О
л_
_1_
0,10 0,20 Рис. 4
0,30
ю зо Полкота выдачи, % Рис. 5
Рис. Рис.
Зависимость полнота (I, 3) и'точности выдачи (2, 4) от уровня ограничения поискового ответа по параметру эо в режимах I (3, 4) и 2 (I, 2)
Взаимосвязь полноты и точности выдачи при сравнении сокращенных спектров контрольной выборки с-сокращенными спектрами базы данных (а) и при сравнении полных спектров контрольной выборки со спектрами основного поискового аайла (б) I, 3 - ре;:сим I; 2, 4 - режим 2
о
О
о
4
о.
Режим мера отобранные соединения
Ш 0,23
ш 0,17 0,24
сд 0,23 0,2/1 0,27 ^~^-со-дп-сн2-соодн3 <0>.СО-1Г1-ОН2-СООСНз
тс 0,17 0 , Р'1 0,'" 0,2? 0-ад-о-очо-сп3
Реим|,„ера| отоЗраиш
МЧ
МП
о,17 о, 22 0,2°
0,?А
J
„СЧ,
CF., »Г
%J %J '
il..
un
; ; , ;
„3 ,-он,
11"--' ! !
'i î'.i
0,2^
<
Таблица I
!í.. CH0-OH0-Î1U-, - cootie: x-Jj - - -
тика, слабо зависят от наличия в изучаемом спектре фоновых (до 20$ от общего ионного тока) компонент примеси.
В основу генерирования списка МЛ положена оценка относительных частот встречаемости ($ ). разностей д?.Е|ЫЛМ0-лЩ2, где ММ и ММ2 - молекулярные массы соединений поисковых ответов и соединений запросов соответственно, для двух "случайно выбрашшх" групп по 1000 соединений (спектров). Охсазалось, что в 45$ случаев среди »V (л-£5) первых отобранных при поиске соединений присутствуют соединения с величинами ММ^ММф. Величины дММ в 70$ случаев кратны величинам ¿-14, где ¿- целое число (04 6).
Выявленные закономерности позволяют генерировать список кандидатов в молекулярные массы (Ш^) неизвестного соединения простым суммированием МЛ соединений машинного ответа (ЬЫ^, ¿=1-5) с наиболее значимыми в статистическом отношении величинами дММ ЦММ^, к =1+11 при
+ дМЬ^. (6)
ЕЛок-схема разработанного и реализованного алгоритма определения молекулярной массы соединения представлена на рис. 6. На первом этапе по предъявленному в запросе спектру реализуется поиск в базе данных сокращенных, а затем полных спектров. Сопоставление спектров проводится в абсолютной идеале масс, а ранжирование осуществляется согласно величине параметра Т):
где Хт и Ут - значения интенсивностей пиков при массовом числе « полных масс-спектров неизвестного и библиотеки соответственно (0^15^1). Ответ ИПС содержит а соединений (0*^¿5) с мерами различия спектров 0£"Ъ^0,4.
На втором этапе с учетом величин д ММ и ММ соединений поискового ответа генерируется список возможных значений ММ-канди-датов, сопровождаемых соответствующими им статистически ожидаемыми для данного ответа ЭВМ суммами частот встречаемости.
На третьем этапе для каждого 1-кандидата проводится сопоставление предъявленного спектра со всеми ^-спектрами отобран-них соединений в относительных шкалах масс, формируемых путем
,--:_
I Сопоставление спектров ! лдя расчета ¿й-У
Результат \ [ММ, Я1.Я2.!\.у
Блок-схема программы предсказания молекулярной массы.
полного сдвига спектров до совпадения масс их молекулярных лонов с массой ММ -кандидата. При этом рассчитывается величина О по шраяешт, аналогичному (7), в котором индексов спектрах библиотеки заменяется на т'= т Далее на этой этапе вычисляется первая компонента параметра панжирования Ш-кандидатов:
Я1:» А (8)
V У\.
На заключительных этапах спектры машинного ответа еще раз сопоставляются со спектром неизвестного. При этом на разность молекулярных масс I -кандидата и ^-соединения поискового ответа могут сдвигаться не все пики соответствующего ^-спектра, а лишь часть из них. Из серии комбинаций сдвигов пиков выбирается та, которая приводит к наибольшему сближению сравниваемых
19
"спектров". После сопоставления всех спектров малинного ответа со спектром неизвестного соединения вычисляется 21 очевидно, что Выполнение этой процедуры завершается расчетом еще одной компоненты параметра ранжирования Ш-кавдида-
(9)
Окончательное ранжирование списка МЛ производится по параметру-
(ю)
Проверка изложенного подхода, проведенная путем анализа масс-спектров 319 "неизвестных" соединений (диапазон Ш от 44 до 536 а.ем.), из которых 225 содержали пики молекулярных ионов, а в 94 они отсутствовали, показала следующее. В 61 случае ЭВМ "отказалась" решать задачу, т.к. машинный ответ ИПС не содержал соединений, спектры которых удовлетворяли бы условйю "Ь£0,4. Из них 52 случая относились к спектрам соединений, содержащих, а 9 - не содержащих пик молекулярного иона. Для оставшихся 258 соединений искомая ММ находилась в списке генерируемых масс в 94,6% случаев.
Распределение искомых масс "неизвестных" соединений среди к-первых ММ-кандидатов для случаев анализа спектров с присутствующими и отсутствующими пиками молекулярных ионов, отражено в табл. 2.
Таблица 2
Относительные частоты обнаружения молекулярной массы исследуемого соединения среди к-первых ММ-кандидатов
к Нет пика М+ (85 спектров) Есть пик М* (173 спектра)
<и Я. Й.1 Я.2 Я.
I 57,5 37,6 64,7 77,5 30,1 85,0
3 74,7 45,9 81,2 90,2 41,6 90,8
5 84,7 56,5 87,1 91,3 53,5 91,9
10 92,9 82,9 92,9 92,5 87,0 91,9
юой
80 60
40
20
и
иа
[_1
1 ПГ)
1 <0
РПО
I |1
К),, 0,2
Н2
0,2
240 'РО т/г
Рис, 7. Пример анализа молекулярной массы основной компоненты (1-(1-метоксиэтокси)гептан) по масс-спектру. Пики примесей отмечены черточками.
У.охно видеть, что параметр 52 для обеих групп рассматриваемых спектров дает заметно худоие результаты по сравнению с параметром К1. Наиболее удовлетворительные данные получены с использованием параметра Е. В этих случаях в среднем в 30% решаемых ЭВЫ задач искомая ММ оказывается в списке первых пяти кандидатов. Отметим такие, что описанный алгоритм, по сравнению с реализованным ранее ( С.А.Нехорслез, 1985 г.) заметно лучше (на 10% по первому ответу ЭВМ) предсказывает МЛ соединений, молекулярные ионы в спектрах которых не проявляются.
На рис. 6 приведен пример предсказания молекулярной массы 1-(1-метоксиэтокси)гептана по спектру, содержащему пики примеси (часть из них отмечена черточкой). Видно, что искомой Ш соответствуют максимальные значения параметров КГ, В2, а следовательно, и К.
3 У В О Д Ы
I. На основе опыта разработки и использования ШС по масс-спектрометрии, базирующейся на каталоге сокращенных спектров, сформулирован новый алгоритм сопоставления предъявленного спектра и спектров базы данных, учитывающий экспериментальные по-
грешности в интенсивностях пиков. На базе мини-ЭВМ создана высокоэффективная ИПС, обеспечивающая при решении задач идентификации соединений по их масс-спектрам точность выдачи более 50% при полноте выдачи искомой информации близкой к 85%.
2. Разработан новый алгоритм автоматизированного сопоставления спектров в относительных шкалах массовых чисел. Продемонстрирована возможность эффективного отбора из базы данных спектров соединений, родственных по строению исследуемому. Это существенно расширяет возможность информационного поиска и позволяет на основе анализа структур отобранных соединений выносить суждения о химическом классе анализируемых соединений и особенностях его, строения в тех случаях, когда спектр изучаемого соединения отсутствует в базе данных.
3. Исследован и реализован принципиально новый алгоритм предсказания молекулярных масс изучаемых соединений по масс-спсктрам, осложненным влиянием примесей. Впервые показано, что задача автоматизированного опознания молекулярной массы по подобным спектрам может быть решена как в случае наличия, так и в случае отсутствия пиков молекулярных ионов в масс-спектрах низкого разрешения при ионизации молекул электронным пучком.
4. Создшшая в ходе выполнения работы информационно-поисковая система по масс-спектрометрии на базе ЭВМ СМ-4 (ШС МС-СМ) вйедрена в практику ряда организаций и вошла в состав матештического обеспечения отечественной системы обработки данных масс-спектрометрического эксперимента ИВК ЛП-03, выпускаемой Чсрноголовским опытно-эксиорименталышм заводом ЛИ СССР.
Основное содержание диссертации опубликовано в следующих работах:
1. Дсрендяев Б.Г., Иокровйкий Д.М., Пехорошев С.Л., Сшрнов В.И., Коптюг В.А. Машинная информационно-поисковая система для масс-спектрометрга. //Изв.СО ЛН СССР^ Сер.хим.наук -1977. -М. - Вып.2. - С. 109-115.
2. Покровский JI.M., Пехорошев С.Л., Соколов С.П. 0 возможности учета искажений интенсивностей линий при решении
структурных задач методом масс-спектрометрии. // Изв. СО АН СССР. Сер.хим.наук - 1982. -¿22. - Вып.1. - С.98-105.
3. Покровский Л.М., Дерендяев Б.Г. Информационно-поисковая система по масс-спектрометрии дая мини-ЭВМ. /Д. аналит. химии - I98S. - Т.43. - Вып.5. - С.786-792.
4. Покровский Ü.M., Дерендяев Б.Г. Отбор масс-спектров структурно-родственных соединений с помощью ЭВМ. // Изв. СО АН СССР. Сер.хим.наук - 1989. - Вып.4. - С.88-97.
5. Покровский Л.М., Строков И.И. Решение спектро-структурных задач масс-спектрометрии с помощью ШС МС-СМ. //Тез. докл. С-й международной конференции стран-членов СЭВ. ПВТРОЫАСС 88, 1С—21 сент. I9Gßr., Таллинн, 1988. -С.41-42.
6. Дерендяев Б.Г., Покровский Л.М., Номероцкая Е.М. Распознание молекулярной массы основной компоненты простых смесей с помощью ыасс-спектрометрической ИПС. //Тез. докл. УШ Всесоюз. кону. Использование вычислительных машин в спектроскопии молекул и химических исследованиях, 26-28 сент. 1989 г., Новосибирск, 1989. -С.106-107.
уормат бумаги 60x84 I/I6 Объем I п/л Заказ ю Тира?. 100 окз.
Отпечатано на ротапринте Новосибирского института органической хкши СО АН СССР, 63009Ü, Новосибирск, проспект акад. Лаврентьева, 9