Хемометрика в анализе многокомпонентных объектов на основе данных ИК, ЯМР и рентгенофлуоресцентной спектроскопии, отличающихся большим значением взаимной информации тема автореферата и диссертации по химии, 02.00.02 ВАК РФ

Цикин, Алексей Максимович АВТОР
кандидата химических наук УЧЕНАЯ СТЕПЕНЬ
Саратов МЕСТО ЗАЩИТЫ
2014 ГОД ЗАЩИТЫ
   
02.00.02 КОД ВАК РФ
Диссертация по химии на тему «Хемометрика в анализе многокомпонентных объектов на основе данных ИК, ЯМР и рентгенофлуоресцентной спектроскопии, отличающихся большим значением взаимной информации»
 
Автореферат диссертации на тему "Хемометрика в анализе многокомпонентных объектов на основе данных ИК, ЯМР и рентгенофлуоресцентной спектроскопии, отличающихся большим значением взаимной информации"

На правах рукописи

ЦИКИН АЛЕКСЕЙ МАКСИМОВИЧ

ХЕМОМЕТРИКА В АНАЛИЗЕ МНОГОКОМПОНЕНТНЫХ ОБЪЕКТОВ НА ОСНОВЕ ДАННЫХ ИК, ЯМР И РЕНТГЕНОФЛУОРЕСЦЕНТНОЙ СПЕКТРОСКОПИИ, ОТЛИЧАЮЩИХСЯ БОЛЬШИМ ЗНАЧЕНИЕМ ВЗАИМНОЙ ИНФОРМАЦИИ

02.00.02 - аналитическая химия

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата химических наук

7 АВГ 2014

Саратов - 2014

005551675

Работа выполнена в ФГБОУ ВПО «Саратовский государственный университет имени Н.Г. Чернышевского»

Научный руководитель: доктор химических наук, профессор

Муштакова Светлана Петровна

Официальные оппоненты: Амелии Василий Григорьевич

доктор химических наук, профессор, профессор кафедры химии ФГБОУ ВПО «Владимирский государственный университет имени А.Г. и Н.Г. Столетовых»

Рубцова Екатерина Михайловна

кандидат химических наук, ассистент кафедры общей и биоорганической химии ФГБОУ ВПО «Саратовский государственный медицинский университет имени В.И. Разумовского»

Ведущая организация: Институт геохимии и аналитической химии

имени В.И. Вернадского РАН (ГЕОХИ РАН)

Защита состоится 25 сентября 2014 г. в 1400 часов на заседании диссертационного совета Д 212.243.07 по химическим наукам при ФГБОУ ВПО «Саратовский государственный университет имени Н.Г. Чернышевского» по адресу: 410012, г. Саратов, ул. Астраханская, 83, корпус 1, Институт химии СГУ.

С диссертацией можно ознакомиться в Зональной научной библиотеке имени В.А. Артисевич ФГБОУ ВПО «Саратовский государственный университет имени Н.Г. Чернышевского» (410601, Саратов, ул.Университетская, 42) и на сайте http://www.sgu.ru/sites/default/files/dissertation/2014/06/20/dissertaciya.pdf.

Автореферат разослан июля 2014 г.

Ученый секретарь диссертационного совета Т\1 ТЛО. Русанова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Аналитическая спектроскопия способна предоставить необходимую информацию относительно состава и свойств различных объектов, таких как промышленные, сельскохозяйственные образцы и продукты питания. Тренд современной спектроскопии выражается в выполнении меньшего числа измерений, но получении большего объема данных из каждого из них. Быстрое совершенствование приложений спектроскопии для исследований и рутинного анализа было бы невозможно без параллельного развития хемометрических методов.

Спектр предлагаемых хемометрикой методов и алгоритмов обширен. Однако следует отметить, что подавляющее большинство работ посвящено апробации различных хемометрических подходов для анализа данных электронной спектроскопии. Несмотря на очевидную перспективность, число работ, посвященных анализу данных инфракрасной (ИК), рентгепофлуоресцентной (РФ) спектроскопии и спектроскопии ядерного магнитного резонанса (ЯМР), единично. Данные, получаемые с использованием этих спектроскопических методов анализа, характеризуются большим значением взаимной информации, а значит одновременно и трудны для хемометрической обработки, и перспективны для разработки методов анализа новых систем и товарных продуктов. Очевидна необходимость дополнительных исследований по практическому приме-пению хемометрических методов для обработки спектральных данных, отличающихся большим значением взаимной информации, выявлению факторов, влияющих на качество декомпозиции, сравнительному анализу различных подходов и апробации на спектрах реальных объектов сложного состава.

Необходимо также отметить, что все спектральные методы качественного и количественного анализа основаны на использовании эталонов (образцов стандартного состава). Необходимость применения эталонов представляет большое ограничение в применении спектроскопии как таковой. Использование многомерных спектров открывает возможность перевести анализ на полностью безэталонную основу, тем самым исключив необходимость привлечения методов расчета спектров. Исследования в этой области, выполненные Грибовым Л.А., показывают несомненную перспективность этого направления.

Цель работы. Повышение эффективности ИК, ЯМР и рептгенофлуорес-центного спектрометрического анализа на основе методов хемометрики.

Для достижения поставленной цели решали следующие задачи:

- априорное определение числа независимых компонент в спектральных данных;

- апробация методов предварительной обработки спектров: ИК - сглаживание и шкалирование, ЯМР - бакетинг;

- качественный и количественный Ж, ЯМР и РФ анализ смоделированных и искусственных смесей хемометрическими методами;

- идентификация и количественное определение компонентов товарных продуктов (клейких лент, лакокрасочных покрытий, безалкогольных напитков, электронных сигарет-, морских донных отложений) по данным ИК, ЯМР и РФ спектроскопии с использованием хемометрических методов;

- применение новых хемометрических подходов к классификации сложных объектов: ICA и ComDim, позволяющий значительно улучшить результаты определений за счет использования совмещенных наборов данных разных инструментальных методов, а иногда стать единственно возможным методом анализа.

Научная новизна. Решена важная и перспективная задача использования методов ЯМР 'Н, ИК, РФ спектроскопии в сочетании с хемометрическими алгоритмами для идентификации и надежного экспрессного совместного количественного определения компонентов в смесях сложного состава.

Оценено влияние различных факторов на результаты математического разделения спектров смесей: число значимых компонентов в спектрах, агрегатное состояние системы, предварительная математическая обработка спектральных данных.

Апробирована работа разработанной на платформе MATLAB программы, позволяющей априори определять число независимых компонент в спектральных данных простых и сложных смесей.

Предложены новые методики анализа объектов окружающей среды и продуктов питания по данным ИК и ЯМР спектроскопии.

Показано превосходство новых хемометрических методов (ICA и ComDim) в классификации сложных объекгов.

Практическая значимость. Выработаны практические рекомендации по применению хемометрических алгоритмов в ИК, РФ и ЯМР спектроскопических анализах. На их основе разработаны эффективные методики определения веществ в смесях, апробированные в анализе объектов сложного состава.

Решены важные задачи экспертизы клейких лент, лакокрасочных покрытий автомобилей, установления компонентного состава товарных бензинов. С помощью хемометрических подходов изучены процессы формирования морских донных отложений и установлен их компонентный состав.

Предложены новые методики идентификащш и количественного определения компонентов меда, молока, электронных сигарет, энергетических и без-

4

алкогольных напитков. С использованием нового хемометрического метода ComDirn решены задачи классификации сложных объектов анализа: соков и вин.

Па защиту выносятся:

- результаты качественного и количественного анализа смесей соединений различными алгоритмами метода независимых компонент по данным ИК, ЯМР и РФ спектроскопии, оценка и сравнение производительности используемых хемометрических алгоритмов;

- влияние различных факторов (количество компонентов в объекте, агрегатное состояние системы, предварительная математическая обработка) на декомпозицию спектров с применением хемометрических методов обработки;

- результаты применения новых классификационных методов (ICA и ComDim);UM повышения производительности и качества классификации сложных объектов: лакокрасочных покрытий, соков и вин;

- методики совместного определения веществ в реальных объектах на основе ИК, ЯМР и РФ спектров и хемометрики.

Личный вклад соискателя заключается в постановке цели и задач исследования, выборе объектов, подходов к анализу и количественному описанию экспериментальных данных, непосредственном проведении эксперимента и математической обработки данных, обобщении полученных результатов, формулировании научных положешга и выводов.

Публикации. По теме диссертации опубликовано 11 печатных работ: 4 статьи в журналах, рекомендованных ВАК, 7 тезисов докладов, из них 5 - па международных конференциях.

Апробация работы. Основные результаты диссертационной работы доложены на VIII Международном симпозиуме по хемометрике (Дракино, 2012), VI и VII Всероссийских конференциях молодых ученых, аспирантов и студентов Mendeleev-2012 и Mendeleev-2013 (Санкт-Петербург, 2012-2013), IV Европейском конгрессе по химии (Чехия, Прага, 2012), Всероссийской школе-конференции «Химия биологически активных веществ» молодых учёных, ас-тгрантов и студентов с международным участием «ХимБиоАктив-2012» (Саратов, 2012), II Съезде аналитиков России (Москва, 2013).

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, выводов и списка использованной литературы. Библиография включает 292 источника. Диссертационная работа изложена на 181 странице машинописного текста, содержит 42 рнсунка и 22 таблицы.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, сформулированы цель и задачи исследования, изложены новизна, практическая значимость работы и основные результаты, выносимые на защиту.

В первой главе представлен обзор литературы, в котором рассмотрены примеры использования хемометрики в анализе спектральных данных, характеризующихся большим значением взаимной информации, кратко рассмотрены используемые в работе хемометрические методы, их классификация и основные характеристики.

Немногочисленные примеры использования новых хемометрических методов (в основном на смоделированных системах): метода анализа независимых компонент (ICA) и анализа общих направлений и специфических весов (ComDim) - демонстрируют несомненное превосходство этих подходов над традиционными. Рассмотрен математический аппарат этих методов, а также конкретных алгоритмов, реализующих ICA: MILCA, SNICA, JADE, RADICAL и FaslICA. Анализ данных литературы показал, что ICA алгоритмы и ComDim широко не апробированы на реальных объектах. В связи с этим хемометриче-ская обработка данных PIK, РФ и ЯМР спектроскопии сложных объектов с использованием ICA и ComDim и их сравнение с классическими хемометриче-скими подходами является актуальной и практически значимой задачей для исследователя.

Во второй главе содержатся сведения об используемых веществах, методах исследования и обработки экспериментальных результатов.

Для работы хемометрических алгоритмов важным является возможно малое значение взаимной информации спектральных данных. Согласно теоретическим представлениям и экспериментальным данным, взаимная информация тем больше, чем меньше полуширина сигналов анализируемых компонентов и больше коэффициент их корреляции. На основе критерия большого значения взаимной информации в качестве методов исследования выбраны ЯМР !Н, IIK и РФ спектроскопия. Несмотря на очевидные сложности, применение хемомет-рической обработки для ИК, ЯМР и РФ спектров, несомненно, актуально, т.к. позволяет значительно расширить крут анализируемых соединений.

Программы, реализующие алгоритмы MILCA, SNICA, а также алгоритм вычисления взаимной информации свободно доступны в виде независимых исполняемых модулей для платформ Windows и Linux и с MATLAB интерфейсами. Необходимые пакеты с примерами использования и исходными текстами

6

данных программ, а также других ICA алгоритмов доступны на соответствующих веб-сайтах.

Метод расчета коэффициента корреляции (R, интервал [-1,1]), использованный для оценки идентичности выделенных и экспериментальных спектров, реализован в виде алгоритма в программе MATLAB, позволяющего проводить расчет этого параметра автоматически и идентифицировать выделенные сигналы. Для расчета сходства экспериментальной и расчетной матриц концентраций использовали Амари индекс. Амари индекс равен нулю только в том случае, если расчетная матрица отличается от истинной только перестановкой столбцов или на постоянный множитель и увеличивается, если качество декомпозиции ухудшается. При практическом использовании данного индекса считается, что декомпозиция прошла успепшо, если численное значение индекса Амари меньше 0.05, в то время как значение индекса больше 0.2 характеризует неприемлемое качество декомпозиции. Все измерения проводили трижды. Данные обрабатывали методами математической статистики для малого числа измерений при доверительной вероятностир-0.95.

Также во второй главе описана разработанная на платформе MATLAB программа, базирующаяся на методе "ICA-by-Blocks" и позволяющая априорно находить число независимых компонент в спектральных данных. К преимуществам используемого метода можно отнести возможность определения числа независимых компонент в системе без априорных сведений о ней, к недостаткам - уменьшение выборки минимум в два раза и необходимость наличия уверенности в высоком качестве работы алгоритма декомпозиции в заданных условиях.

В третьей главе показано, что новые алгоритмы метода независимых компонент успешно использованы для многокомпонентного ИК спектроскопического анализа смесей. Для иллюстрации широких возможностей алгоритмов проведена серия анализов в инфракрасном диапазоне смесей, различных по составу, числу и спектральным характеристикам их составляющих. Представлены данные по количественной характеристике результатов декомпозиции (идентификация и количественный анализ). Рассмотрено влияние количества компонентов в системе и агрегатного состояния смеси на качество декомпозиции.

Главными преимуществами ICA алгоритмов является высокая эффективность, точность, а также возможность идентификации и количественного определения соединешш в смесях без использования образцов стандартного состава. Относительная погрешность определения компонентов не превышает 10%, идентификация проводится с высокой степенью вероятности (R>0.90).

Важной задачей аналитика является увеличение отношения сигнал/шум. Одним из способов увеличения этого отношения являются математические методы обработки сигналов. Математические методы сглаживания экспериментальных данных нечасто применяются при решении практических задач, хотя в определенных условиях они могут значительно улучшить качество декомпозиции спектров многокомпонентных систем. Мы анализировали работу встроенных в программу MATLAB сглаживающих фильтров: Spline, Moving, Lowess, Loess, Sgolay, Rlowess, Rloess. Предварительный анализ работы данных фильтров показал, что лучшие результаты в случае обрабатываемых спектроскопических данных получаются с использованием метода скользящей средней. Их характеризует хорошее качество и большая стабильность (рис. 1). Именно этот метод применяли в дальнейшем для обработки зашумяенных данных.

б......."

щшш

V

Я

¡ИИ!

Бензол-изооктаи

Рис. 1. Влияние сглаживания методом скользящей средней на эффективность хемометрической обработки (алгоритм М1ЬСА): а - качественный анализ, б - количественный анализ.

Шкалирование данных, при условии правильного использования, стано- • вится производительным методом улучшения качества ИК спектров. Существует несколько способов шкалирования данных, направленных на достижение специфических целей. Возможно, наиболее известным способом шкалирования является автошкалирование. Этот подход находит достаточно ограниченное применение ввиду нескольких ограничений, включая увеличение вклада шума в результирующий шкалированный спектр. В работе мы использовали шкалирование Парето, которое отличает большая производительность (рис. 2).

я 0,99 В

5 0,98 а, 0,97

5 0,95

к

я 0,94 ■е-

-§•0,93

0,91

а

шм Ш||1

■ 'Щ ■

Т

riff?': к*

■Ж ; : .. ___________

- Я Ш: | 'ifi'

0,06 0,05

Я

§-0,04

1 <

а 0,03 И й> И

Я 0,02 5

0,01 о

Бензол

Изооктан

°'35 ]—...........б--------------

0,3 -1------------

0,25 40,2 • Щ-------

0,15 {----------------------- "Исх

0,1 -[—--------- ()СГ

0,05 |

Антрацен-пирен-феиантрен

Рис. 2. Парето шкалирование ИК спектральных данных системы антра-цен-пирен-фенантрен (алгоритм М1ЬСА использован для декомпозиции): а - качественный анализ; б - количественный анализ.

Аналогичную обработку применяли и для спектров других искусственных смесей ароматических и полиароматических углеводородов, а также для спектральных данных органического вещества морской среды. Применение подобного подхода позволило получить хорошие результаты анализа искусственных смесей и выделить сигналы специфических молекулярных структур в морских отложениях.

Два алгоритма хемометрического метода независимых компонент М1ЬСА и БМСА применены для качественного и количественного анализа смоделированных смесей углеводородов в различных агрегатных состояниях: твердом, жидком и газообразном. Выбор объектов исследования был продиктован с одной стороны необходимостью разработки методики анализа загрязнителей окружающей среды, а с другой - задачей оценки применимости вышеназванных алгоритмов для анализа смесей в различных агрегатных состояниях, а также сравнения качества декомпозиции для спектров веществ, различных по ахре-гатному состоянию. Объектами исследования выбраны смеси 2-метилфенантрена, 3-метил фенантрена, дифенилацетилена, стилъбена и фенан-трена, содержащие до 5 компонентов одновременно.

Количественные характеристики качества разложения смоделированных систем в различных агрегатных состояниях сведены в таблицу \. Результаты свидетельствуют о высоком качестве декомпозиции: коэффициент корреляции выделенных и экспериментальных спектров не ниже 0.95, относительная погрешность количественного определения не превышает 5%. Это позволяет заключить, что алгоритмы М1ЬСА и БМСА пригодны для анализа сложных смесей углеводородов в различных агрегатных состояниях. Сравнивая результаты

9

декомпозиции, полученные для разных по агрегатному состоянию систем (табл. 1), также можно сделать вывод о независимости качества разложения от агрегатного состояния системы.

Таблица 1

Разложение смоделированных систем углеводородов в различных агрегатных состояниях.

Алгоритм Характеристики \ декомпозиции Твердые Жидкие Газообразные

MILCA SNICA MILCA SNICA MILCA SNICA

Коэффициент корреляции 2-метилфенантрен 1.0 1.0 1.0 1.0 1.0 | 1.0

3 -метилфенантрен 1.0 1.0 1.0 | 0.97 0.99 1 0.99

цифенилацетилен 1.0 0.99 1.0 ; 1.0 1.0 | 0.99

стильбен 0.99 0.97 1.0 | 1.0 0.98 ! 0.98

фенантрен 1.0 1.0 1.0 | 1.0 1.0 1 1.0

Индекс Амари 0.01 0.02 0.01 0.02 0.01 | 0.02

Получив хорошие результаты декомпозиции смоделированных смесей углеводородов алгоритмами MILCA и SNICA, мы расширили перечень применяемых алгоритмов метода независимых компонент и апробировали их работу на приготовленных смесях углеводородов в различных агрегатных состояниях. В качестве объектов исследования выбраны приоритетные природные токсиканты алифатические (изооктан) и ароматические углеводороды (бензол, толуол), а также нолиароматические углеводороды (антрацен, пирен, фенантрен, флуорантен), содержащие до четырех компонентов в смеси в различных агрегатных состояниях.

В таблицу 2 сведены результаты декомпозиции вышеназванных систем с применением алгоритмов MILCA, SNICA, SIMPLISMA, JADE, RADICAL и FastICA. Полученные данные свидетельствуют, что хорошие результаты разложения могут быть получены для трехкомпонентных систем различных углеводородов в твердом и жидком состоянии при анализе спектроскопических данных алгоритмами MILCA и SNICA.

Таблица 2

Разложение многокомпонентных систем углеводородов хемометрически-ми алгоритмами 1С А.

Смесь Агрегатное состояние Xapai терис дею» ^Алгоритм С- \ тики \ [ПОЗИЦИИ \ MILCA SNICA SIMPLISMA JADE RADICAL FastICA

бензол-толуол-изооктан жидкое Коэффициент корреляции бензол 0.96 0.99 0.48 0.90 0.98 0.90

толуол 0.97 0.99 0.88 0.81 0.55 0.75

изооктан 0.99 1.0 1.0 0.84 1.0 0.83

Индекс Амари 0.1 0.04 0.1 0.3 0.6 0.2

антрацен-иирен-фенатрен твердое Коэффициент корреляции антрацен 1.0 0.99 0.98 0.84 0.92 0.93

пирен 1.0 0.99 0.98 0.43 0.25 0.29

фенантрен 0.98 0.99 0.96 0.48 0.61 0.56

Индекс Амари 0.07 0.05 0.2 0.3 0.2 0.3

антрацен-пирен-фенантрен-флуорантен жидкое Коэффициент корреляции антрацен 0.87 1.0 0.79 0.71 0.81 0.70

пирен 0.98 0.96 0.96 0.91 0.87 0.85

фенантрен 0.95 0.95 0.45 0.50 0.39 0.56

флуорантен 0.68 0.56 0.02 0.01 0.93 0.42

Индекс Амари 0.2 0.2 0.3 0.5 0.4 0.3

С практической точки зрения весьма важной и актуальной задачей является апробация хемомегрических алгоритмов для анализа реальных объектов -различных образцов товарных продуктов.

ICA использовали для выделения спектров бензиновых фракций установок вторичной переработки нефти. Затем с помощью алгоритма Mean Centering Ratio решена задача нахождения содержания каждой фракции (каталитического крекинга, риформинга, алкилирования, димеризации, изомеризации) в товарном бензине. Для каждой установки переработки нефти построены градуиро-

11

вочные графики определения содержания фракции в товарном продукте, базирующиеся на измерении коэффициента четвертого отношения на характеристической длине волны. В таблице 3 представлены параметры линейной регрессии для калибровочных данных одновременного определения содержания фракций в пятикомпонентных смесях.

Таблица 3

Аналитические характеристики определения содержания бензиновых фракций различных установок вторичной переработки нефти в товарном бензине

Фракция А, ст"1 Уравнение градуировочной прямой Я2

Каталитический крекинг 672 у = -5.363х-3.253 1.0

Риформинг 764 у = -396.8х -28.53 1.0

Алкилирование 848 у = -53.36х- 19.45 1.0

Димеризация 992 у= 1561х-216.5 1.0

Изомеризация 872 у = -457.7х + 691.8 1.0

Для проверки правильности градуировочных графиков исследованы смо-делировашше смеси бензиновых фракций (50 смесей). Полученные данные свидетельствуют о хороших характеристиках разработанных моделей (относительная погрешность определения соотношения компонентов в товарном бензине не превышает 7%), что позволяет применить их для обработки спектров реальных образцов бензина.

Обработке подверглись 27 образцов бензинов нефтеперерабатывающих заводов Греции, в состав которых входили только компоненты указанных выше установок вторичной переработки нефти. Результаты анализа этих объектов хорошо согласуются с теоретическими представлениями.

Другим весьма интересным объектом приложения хемометрики являются клейкие ленты, экспертиза которых представляет значительные трудности для криминалистов. Цель анализа клейких лент состояла в решении классификационной и идентификационной задач при анализе состава полипропилена клейких лент и в построении адекватной модели определения значений углов между проекцией осей эллипсоида показателей преломления полипропилена на плоскость пленки и геометрическим краем ленты.

Хемомегрическим методом главных компонент и ИК спектроскопическим методом решена классификационная задача анализа клейких лент. Построена плоскость в координатах ПС1-ГК2, на которой отчетливо различимы

кластеры различных производителей клейких лент (рис. 3). При анализе нового образца попадание его спектра в отдельный кластер свидетельствует о принадлежности этого образца производителю, аналогичному другим образцам этого кластера.

I МО Атою Аяр.

ТреОашшп * • "

ТЧ'сСспЬшп

1 »¿оККГвУ«

Г> Ж**»*™

• К1спа>лп<1<г 1ц0ц ^Аиоире

• (йудаП'яр«!

» Оунлгг^с

Рис. 3. График счетов в МГК модели клейких

лент

Благодаря этому появляется возможность быстрого определения, например, идентичности остатков клейкой ленты на месте преступления и у предполагаемых преступников. Следует отметить, что прямое сравнение спектров клейких лент не позволяет визуально выполнить сравнительный анализ, т.к. получаемые спекгры практически идентичны.

Методом проекции на латентные структуры построена модель определения углов между проекцией оси эллипсоида показателей преломления на плоскость пленки и геометрическим краем ленты полипропилена у различных образцов скотча (табл. 4). Этот параметр является уникальным, варьируется в диапазоне 0-16° и не зависит от производителя клейкой ленты.

Таблица 4

Хемометрические модели определения углов по данным ПК спектроско-

^ООП-^ПП ,,„аг,,,„„ ,„„„„.„„-,______А , .-оч

Метод Способ валидации модели Число МГК факторов Размер выборки Среднеквадратичная ошибка Р2

плс Кросс-валидация 5 34 1.1 0.93

Независимый тестовый набор 5 7 1.5 0.91

РГК Кросс-валидация 6 34 2.3 0.65

Совпадение у двух образцов производителя, выявленного при помощи метода главных компонент и угла у между проекцией оптических осей на плоскость ленты и геометрическим краем ленты позволяет практически со 100% вероятностью говорить об идентичности образцов, о принадлежности их к одной партии и даже одному рулону.

Объектом анализа было также органическое вещество морской среды (МС), которое представляет собой сложную смесь углеводов, белков и жиров, подвергнутую полимеризационным и надмолекулярным взаимодействиям. Из-за этого изучение химических и структурных характеристик МС чрезвычайно важно для описания биогеохимических циклов МС, изучения специфических аспектов химических механизмов, вовлеченных в агрегацию МС и для сравнения образцов МС, полученных из различных зон.

Результаты, полученные для морского органического вещества, позволяют заключить, что хемометрические алгоритмы применимы для многомерного моделирования наборов ИК спектральных данных сложных систем. MILCA и MCR-ALS превосходят алгоритмы FastICA и JADE по качеству получаемой спектральной информации. Также, принимая во внимание, что ИК спектры требуют стандартизации, в любом случае следует применять предварительное шкалирование или центрирование данных. Также следует отметить, что исследователь должен внимательно анализировать получаемые независимые компоненты, так как иногда даже лучшие методы MILCA и MCR-ALS даЮт ложные результаты.

В четвертой главе рассмотрены хемометрические алгоритмы метода независимых компонент в приложении к анализу спектральных данных рентге-нофлуоресцентного анализа. Показано, что ICA является производительным инструментом анализа РФ спектральных- данных: коэффициенты корреляции больше 0.95 для рассматриваемых соединений, относительная погрешность количественного определения меньше 10%.

Для определения хемометрических алгоритмов, применимых для анализа данных рентгенофлуоресцентной спектроскопии, были проанализированы спектры смоделированных систем. Объектами исследования выбраны смеси кобальта и никеля, серебра и кадмия. Получив хорошие результаты декомпозиции смоделированных смесей металлов (R=1.0, AmariO.l во всех случаях), апробировали отобранные алгоритмы на приготовленных растворах солей вышеназванных металлов.

Количественные характеристики разложения спектров никель-кобальтовых и серебро-кадмиевых растворов представлены в таблицах 5-6. Обобщая полученные в результате анализа смоделированных и реальных си-

14

стем результаты, можно рекомендовать метод ЗМРПБМА как алгоритм, показавший лучшие и, главное, стабильные результаты при его апробации на различных смесях.

Таблица 5

Результаты анализа растворов кобальтовых и никелевых солей с применением методов MILCA, SIMPLISMA и JADE

Система Показатели MILCA SIMPLISMA JADE

I (10'2 г/мл СоС12, 10'2 г/мл NiS04) R(Co) 0.99 1.0 1.0

R(Ni) 1.0 1.0 1.0

с (СоС12), 10"2 г/мл 1.1±0.1 1.0±0.1 1.0±0.1

с (NiS04), 10"2 г/мл 0.95±0.10 0.99±0.05 0.97±0.07

II (6.7-10"3 г/мл СоС12, 1.33-10"2 г/мл NiSQi) R(Co) 1.0 1.0 1.0

R(Ni) 1.0 1.0 1.0

с (СоС12), 10"2 г/'мл 0.64±0.08 0.67±0.03 0.66±0.05

с (NiS04), Ю-2 г/мл 1.4=0.1 j 1.3±0.1 1.4±0.1

Таблица 6

Результаты анализа растворов кадмиевых и серебряных солей с применением методов М1ЬСА и 81МРШМА.

Система Показатели SIMPLISMA MILCA

I (10'2 г/мл CdCl2, 10"2 г/мл AgN03) R(Cd) 1.0 1.0

R(Ag) 1.0 0.99

c(CdCl2), 10"2 г/мл 1.0±0.1 1.1±0.1

с (AgN03), К) 2 г/мл 0.98±0.04 0.95±0.09

II (6.7-10"3 г/мл CdCl2, 1.33-10"2 г/мл AgN03) R(Cd) 1.0 1.0

R(Ag) 1.0 1.0

с (CdCl2), 10"2 г/мл 0.65±0.05 0.64±0.05

с (AgN03), 10"2 г/мл 1.4±0.1 1.4±0.1

Кроме того, предложены методики анализа объекта экспертизы (лакокрасочного покрытия) с помощью метода главных компонент и метода независимых компонент. Ранее практически не применявшийся для классификации ICA позволил значительно улучшить параметры хемометрических моделей.

Современные автомобильные лакокрасочные покрытия (ЛКП) - многослойная система функциональных слоев: грунтовки, шпатлевки, эмали, лаки. Традиционными, и в то же время наиболее сложными задачами в криминалистической экспертизе лакокрасочных материалов и покрытий (ЛКМ и П) являются идентификационные задачи. Решение их предполагает ответ на вопрос об отнесении отдельно представленных фрагментов ЛКП или наслоений ЛКМ, соответственно, к ЛКП или ЛКМ устанавливаемого объекта, например, конкретного легкового автомобиля, или о приближении к конкретному ЛКП на уровне групповой или родовой принадлежности.

В предыдущих работах метод главных компонент и проекции на латентные структуры использовались для анализа объектов на основе данных ИК или РФ спектроскопии. В работе для комплексного анализа лакокрасочного покрытия из данного многокомпонентного объекта выделены составляющие части, а именно лак и базисная эмаль. Каждый из компонентов по отдельности подвергнут спектроскопическому анализу, полученные данные обработаны хемометри-ческим методом главных компонент, и затем полученные данные оценивались совместно (рис. 4). Применение подобного комплексного подхода к анализу сложного аналитического объекта позволило значительно увеличить достоверность анализа, что является новым в практике применения хемометрики для экспертизы. Также апробировано использование метода независимых компонент для классификации, который показал значительно лучшую производительность, чем традиционный МГК.

О 0,01 0,02 0,03 0,04 0,05 ICI

ICI

Рис. 4. График счетов в ICA модели лаков (а) и эмалей (б)

В пятой главе рассмотрен хемометрический анализ данных ЯМР спектроскопии. Новые алгоритмы анализа независимых компонент MILCA и SNICA во многих случаях превосходят другие хемометрические методы (SIM-PLISMA, MCR-ALS, JADE, RADICAL, FastICA) и, таким образом, представляет арсенал высокоэффективных, производительных и доступных алгоритмов для анализа разнообразных объектов, где другие аналитические приемы малопроизводительны или в принципе неприменимы.

Рассмотрено применение совмещенных наборов данных ЯМР спектроскопии и изотопного анализа для улучшения качества классификационных моделей. ComDim анализ соков и вин способствовал значительному улучшению производительности (проценту правильных классификаций), позволив увеличить этот параметр на 10%, по сравнению с анализом, выполненном на счетах ICA и МГК.

Несмотря на то, что ЯМР спектроскопия является мощным аналитическим инструментом, одним из аспектов, препятствующих точности анализа, является сдвиг резонансных частот сигналов. Простым и популярным решением этой проблемы является применение бакетинга. Бакетинг заключается в разделении спектров на небольшие бакеты, которые в точности соответствуют вариации сдвигов сигналов.

Очевидно, что существует проблема выбора оптимальной ширины бакета. В случае если ширина бакета будет слишком мала, она не охватит всей вариации сдвигов сигналов. Напротив, если ширина бакета будет слишком велика, будет потеряна информация о тонкой структуре спектров, множественные сигналы аппроксимируются одним графиком функции.

В настоящей работе для каждой из анализируемых систем мы рассчитывали оптимальную ширину бакета, основываясь на минимизации индекса Ама-ри и максимизации коэффициентов корреляции выделенных и экспериментальных сигналов. Также в расчет принимали время хемометрической обработки, т.к. она находится в обратной зависимости от ширины бакета: чем больше число бакетов, тем меньше точек в спектре и тем быстрее осуществляется хемо-метрическая обработка. Пример подобного анализа представлен в таблице 7. Очевидно, что индекс Амари и коэффициенты корреляции имеют соответ-ствешго минимум и максимум в рассматриваемом интервале при ширине бакета 0.04 ррт. Однако при увеличении ширины бакета в 2 раза, время обработки уменьшилось в 2 раза, а ухудшение результатов качественного и количественного анализов практически не наблюдается, что свидетельствует об оптимальности выбранного бакета. Для каждой ЯМР системы оптимальная ширина бакета подбиралась аналогичным образом.

Таблица 7

Определение оптимальной ширины бакета в ЯМР спектрах

Число точек в спектре

Параметр 2000 492 246 164 123 98 82

OJJJO (0.01) (0.04) (0.08) (0.12) (0.16) (0.20) (0.25)

Индекс Амари 0.5 0.1 0.08 0.1 0.1 0.2 0.2 0.2

н я я о S сахароза 0.81 0.98 0.99 1.0 0.99 1.0 0.99 1.0

я rï я й Я Ч глюкоза 0.78 0.92 0.99 0.99 0.98 0.97 0.98 0.94

•в* ÊL ж Л фруктоза 0.76 0.95 1.0 0.99 0.97 0.96 0.97 0.91

s s сахарин 0.68 0.97 0.99 0.98 1.0 0.99 0.98 0.97

Время обработки, с 5320 320 120 60 40 30 25: 20

Апробация различных алгоритмов ICA для декомпозиции искусственных смесей компонентов молока, меда, электронных сигарет и энергетических напитков позволила установить несомненную пригодность и производительность ICA в анализе подобных систем по их ЯМР спектрам: коэффициенты корреляции во всех случаях были больше 0.95, а индексы Амари меньше 0.10. Это позволило расширить круг анализируемых систем и включить в него реальные объекты.

Хемометрические алгоритмы применены для анализа фруктозы, сахарозы и глюкозы в образцах напитков кока-кола, приобретенных в супермаркетах Германии. При помощи алгоритма MILCA выделены спектры, характеризующиеся хорошими значениями коэффициентов корреляции, и получены концентрации анализируемых компонентов в объектах (таблица 8). Следует отметить, что сравнимые результаты дал и метод MCR-ALS. Данные таблицы 8 демонстрируют высокое качество разложения и свидетельствуют о применимости ICA для анализа углеводов в безалкогольных напитках, что невозможно без применения хемометрических методов обработки данных.

Таблица 8

Количественный анализ образцов кока-колы ([г/л], п=3, р-0.95)

Компонент Образец 1 Образец 2 Образец 3 Образец 4

Сахароза MILCA 0.38±0.05 0.36±0.04 0.38±0.05 -0.35±0.05

MCR-ALS 0.42±0.02 0.40±0.05 0.30±0.03 0.40±0.01

Глюкоза MILCA 3.4±0.3 3.9±0.3 3.8±0.3 3.6±0.2

MCR-ALS 3.1±0.2 4.2±0.3 4.1±0.6 3.8±0.2

Фруктоза MILCA 6.2±0.4 7.2±0.5 6.7±0.4 7.7±0.5

MCR-ALS 7.0±0.5 6.8±0.4 6.9±0.5 7.4±0.4

Хемометрика использована для анализа электронных сигарет. Объектами анализа стали электронные никотинпродуциругощие системы, которые переводят никотин в аэрозоль и производят пар, имитирующий дым традиционных сигарет, но содержащий значительно меньшее число вредных компонентов. Выбраны растворители из нашей базы данных, для которых классический анализ не может быть выполнен ввиду высокой степени перекрывания спектров индивидуальных компонентов. Спектры индивидуальных компонентов (1,2-пропандиол, этиленгликоль, глицерол и 1,3-пропандиол) выделены со значениями коэффициентов корреляции не ниже 0.95. Концентрации компонентов электронных сигарет получены и подвергнуты сравнению с данными газовой хроматографии (таблица 9). Другие возможные компоненты электронных сигарет (1,3-бутандиол и диэтиленгликоль) не обнаружены ни одним из рассматриваемых методов. Результаты двух рассматриваемых экспериментальных методов хорошо коррелируют друг с другом.

Таблица 9

Количественный анализ электронных сигарет ([г/100г], п=3, р=0.95)

№ 1,2-пропандиол ЭТИЛС1ГГЛИКОДЬ глицерол 1,3-бугандиол 1,3- пропандиол диэтиленгликоль

п/п -ЯМР-ICA' ГХ ЯМР-ICA га ЯМР-ICA гх ЯМР-ICA гх ЯМР-ICA гх ЯМР-ICA гх

1 j 0.40 0.33 74 70 20 16 ; н.о. н.о. и.о. н.о. н.о. Н.О.

2 1.1 1.1 73 77 S.6 9.5 : н.о. h. О. н.о. н.о. н.о. н.о.

3 0.59 0.33 70 72 15 16 ! Н.О. Н.О. н.о. н.о. н.о. н.о.

4 2.1 1.9 70 76 12 9.1 ! Н.О. Н.О. н.о. н.о. н.о. и.о.

5 52 68 и.о. н.о. 23 26 j Н.О. Н.О. Н.О. и.о. и.о. н.о.

6 47 7.8 - 62 - I н.о. - 10 - н.о. .

7 47 - 6.0 - 48 - j н.о. - 4.8 н.о.

8 50 - 5.6 - 45 - j н.о. - 4.2 - н.о. -

Алгоритм MILCA использован для декомпозиции ЯМР спектров 2ГХ анализ ire выполняли для этих образцов

Несмотря на большой объем информации, получаемый при использовании современных методов анализа, использование набора данных только одного аналитического метода может быть недостаточно для получения полной картины изучаемого явления. Мы использовали как классический МГК, так и новый ICA. Однако полученные результаты не отличала большая точность (таблица 10). Применение метода анализа совмещенных наборов данных CoiriDim позволило увеличить процент правильных классификаций как в калибровочном, так и в тестовом наборах данных (табл. 10). В качестве данных, дополняющих ЯМР спектры, выбраны данные по содержанию стабильных изотопов 180, полученные методом масс-спектрометрии.

Таблица 10

Классификационный анализ соков по геофафическим регионам

Показатель Сок (п=29). Тестовый набор: п=9

LDA FDA

РСА ComDim 1С А1 РСА ComDim

% правильных классификаций 79 90 86 86 93

% правильных классификаций (тестовый набор) 67 78 67 67 89

1 — алгоритм MILCA использован для получения счетов.

Анализ данных содержания информации в полученных при расчете СотОйп измерениях (рис. 5) позволил еще раз подтвердить, что выбор совмещенных наборов данных в нашем случае предпочтителен, т.к. первое измерение содержит данные в основном по стабильным изотопам, а второе - по ЯМР спектрам.

Аналогичные исследования проведены для 51 образца вин (таблица 11) регионов Pfalz, Nahe, Mosel и Rheinhessen. В данном случае ComDim метод также подтвердил свою высокую производительность и способность улучшить результаты хемометрической обработки данных одного инструментального метода (МГК и алгоритм MILCA 1СА).

Таблица 11

Классификационный анализ вин по географическим регионам

■ ЯМР

" Стабильные изотопы

ГК1

ГК2

Рис. 5. Распределение информации по измерениям.

Показатель Вино (п=51). . Тестовый набор: п=17

LDA ! FDA

РСА ComDim | ICA РСА ComDim

% правильных классификаций 84 86 I 88 90 92

% правильных классификаций (тестовый набор) 82 82 88 88 88

выводы

1. Показана перспективность качественного и количественного анализа объектов сложного состава на основе хемометрических методов обработки данных ИК, ЯМР и РФ спектроскопии, отличающихся большим значением взаимной информации. Для смоделированных и искусственных систем получены удовлетворительные значения параметров декомпозиции (коэффициенты корреляции больше 0.90, индексы Амари меньше 0.1).

2. На основе алгоритма "ICA-by-BIocks" разработана компьютерная программа априорного определения числа независимых компонент в спектральных данных, использованная для нахождения этого параметра в анализируемых объектах.

3. Проведена математическая обработка спектров смоделированных и искусственных смесей сложного состава и показано, что применение шкалирования и сглаживания спектральных кривых (ИК спектры), бакетинга (ЯМР спектры) приводит к улучшению результатов качественного и количественного анализа: индекс Амари при шкалировании уменьшен до 3 раз, при бакетинге -до 4 раз, при сглаживании - до 5 раз.

4. На примере определения географического региона происхождения соков и вин апробирован метод ComDim, позволяющий обрабатывать совмещенные наборы данных, и установлено, что его применение приводит к значительному улучшению результатов анализа: существенному увеличению числа правильных классификаций (с 79% до 90% для соков, с 84% до 86% для вин).

5. Предложены и апробированы методики качественного и количественного анализа различных товарных продуктов: клейких лент, бензинов, безалкогольных напитков, электронных сигарет, лакокрасочных покрытий - по данным ИК, РФ и ЯМР спектроскопии, обработанным хемометрическими методами, с неопределенностью не более 10%.

Автор выражает искреннюю благодарность и признательность k.x.ii. Юлии Борисовне Монаховой за помощь в работе и полезные дискуссии.

Основные публикации по теме диссертации

1. Monakhova Y. В., Tsikin A.M., Kuballa Т., Lachenmeier D.W., Mushtako-va S.P. Independent component analysis (ICA) algorithms for improved spectral de-convolution of overlapped signals in 'H NMR analysis: application to foods and related products // Magnetic Resonance in Chemistry. 2014. V.52, №5. P. 231-240.

2. Цикин A.M., Монахова Ю.Б., Курчаткин СЛ., Муштакова С.П. Хемо-метрический и ИК спектроскопический анализ клейких лент // Аналитика и контроль. 2013. Т. 17, №3. С. 339-344.

3. Цикин Л.М., Монахова Ю.Б., Бурашникова М.М., Муштакова С.ГГ. Рентгенофлуоресцентный анализ систем серебро-кадмий и никель-кобальт хе-мометрическими алгоритмами метода независимых компонент // Известия Саратовского университета. Новая серия. Серия Химия. Биология. Экология. 2014. Т.14, Вып. 1.С. 16-21.

4. Монахова Ю.Б., Цикин А.М., Исакова Ф.М., Муштакова С.П. Совместное определение кофеина, аспартама и сахарина в газированных напитках методами ЯМР Н и УФ-спектроскопии с автомодельным разделением кривых // Известия Саратовского университета. Новая серия. Серия Химия. Биология. Экология. 2013. Т.13, Вып. 4. С. 30-36.

5. Tsikin А.М., Monakhova Y.B., Mushtakova S.P. ICA algorithms in.IR spectroscopic analysis of complex mixtures // Тезисы докладов VIII международного симпозиума по хемометрике "Modern Methods of Data Analysis". Дракино, Россия, 2012. Р. 63-65.

6. Kubaila Т., Mushtakova S., Tsikin A., Lachenmeier D. Chemoraetrics as а tool to increase efficiency of spectroscopic analysis of food and environmental matrices // Тезисы докладов 4 Европейского конгресса по химии. Прага, Чехия, 2012. Р. 617.

7. Монахова Ю.Б., Лахенмайер Д.В., Кубалла Т., Цикин А.М., Муштакова С.П. Хемометрика в спектроскопическом анализе: возможности и применение // Тезисы докладов Второго съезда аналитиков России. Москва, 2013. С. 36.

8. Цикин А.М., Монахова Ю.Б., Муштакова С.П. Методология многокомпонентного анализа по ИК и ЯМР спектрам методом независимых компонент // Тезисы докладов Второго съезда аналитиков России. Москва, 2013. С. 97.

9. Цикин А.М., Монахова Ю.Б. Метод главных компонент в ИК-спектроскопическом анализе клейких лент // Менделеев-2012. Аналитическая химия. Шестая Всероссийская конференция молодых учёных, аспирантов и студентов с международным участием. Тезисы докладов. СПб.: Издательство Соло, 2012. С. 296-298.

10. Цикин А. М., Монахова Ю.Б. Хемометрические методы в ЯМР спектроскопическом анализе безалкогольных напитков // Менделеев-2013. Аналитическая химия. Седьмая всероссийская конференция молодых учёных, аспирантов и студентов с международным участием. Тезисы докладов. СПб.: Издательство Соло, 2013. С. 168-170.

11. Цикин А.М., Монахова Ю.Б., Муштакова С.П. ИК-спектроскопические и хемометрические методы в анализе // Химия биологически активных веществ: Межвузовский сборник научных трудов Всероссийской школы-конференции молодых учёных, аспирантов и студентов с международным участием. Саратов: Изд-во «КУБиК», 2012. С. 218-219.

22

Цикин Алексей Максимович

ХЕМОМЕТРИКЛ В АНАЛИЗЕ МНОГОКОМПОНЕНТНЫХ ОБЪЕКТОВ НА ОСНОВЕ ДАННЫХ ИК, ЯМР И РЕНТГЕНОФЛУОРЕСЦЕНТНОЙ СПЕКТРОСКОПИИ, ОТЛИЧАЮЩИХСЯ БОЛЬШИМ ЗНАЧЕНИЕМ ВЗАИМНОЙ ИНФОРМАЦИИ

02.00.02 - аналитическая химия

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата химических наук

Подписано в печать 03.07.2014 г. Формат 60x84 1/16 Бумага офсетная.Гарнитура «Итеэ».Печать офсетная Усл. Печ.л. 1.44. Тираж120 Заказ156. Отпечатано в ООО «Типография ТИСАР» 410044, г. Саратов, пр-т Строителей, 1, оф. 346

 
Текст научной работы диссертации и автореферата по химии, кандидата химических наук, Цикин, Алексей Максимович, Саратов

САРАТОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ Н.Г. ЧЕРНЫШЕВСКОГО

На правах рукописи

Цикин Алексей Максимович

ХЕМОМЕТРИКА В АНАЛИЗЕ МНОГОКОМПОНЕНТНЫХ ОБЪЕКТОВ НА ОСНОВЕ ДАННЫХ НК, ЯМР И РЕНТГЕНОФЛУОРЕСЦЕНТНОЙ СПЕКТРОСКОПИИ, ОТЛИЧАЮЩИХСЯ БОЛЬШИМ ЗНАЧЕНИЕМ

ВЗАИМНОЙ ИНФОРМАЦИИ

02.00.02 - аналитическая химия

ДИССЕРТАЦИЯ на соискание ученой степени кандидата химических наук

Научный руководитель:

доктор химических наук, профессор,

Муштакова Светлана Петровна

Саратов -2014

Оглавление

Список условных обозначений и сокращений 4

ВВЕДЕНИЕ 5

1. ОБЗОР ЛИТЕРАТУРЫ 11

1.1. Хемометрика в анализе спектральных данных, характеризующихся большой взаимной информацией........................................................................11

1.1.1. Инфракрасная спектроскопия.......................................................12

1.1.2. Спектроскопия ядерного магнитного резонанса.........................20

1.1.3. Рентгенофлуоресцсптная спектроскопия.....................................25

1.1.4. Совмещенные наборы данных......................................................31

1.2.Характеристика хемометрических методов..........................................32

1.2.1. Качественный анализ.....................................................................32

1.2.1.1.Метод главных компонент 32

1.2.1.2. Линейный дискриминантный анализ 34

1.2.1.3. Анализ общих направлений и специфических весов 34

1.2.2. Количественный анализ.................................................................37

1.2.2.1 .Регрессия на главные компоненты 37

1.2.2.2.Проекции на латентные структуры 39

1.2.2.3.Метод чередующихся наименьших квадратов 40

1.2.2.4.Метод независимых компонент 42 Заключение к 1 главе......................................................................................48

2. ОБЪЕКТЫ И МЕТОДЫ ИССЛЕДОВАНИЯ 49

2.1. Обоснование выбора спектроскопических методов.............................49

2.2. Реактивы и аппаратура.............................................................................52

2.3. Обработка сигналов..................................................................................55

2.3.1. Определение числа независимых компонент..............................55

2.3.2. Хемометрический анализ...............................................................57

3. ХЕМОМЕТРИЧЕСКАЯ ОБРАБОТКА ИК СПЕКТРОВ 5 9

3.1.Сглаживание спектральных кривых.......................................................60

3.2.Шкалирование спектров..........................................................................62

2

3.2.1. Автошкалирование.........................................................................62

3.2.2. Парето шкалирование.....................................................................63

3.3.Смоделированные смеси..........................................................................65

3.4.Искусственные смеси...............................................................................69

3.5.Реальные объекты.....................................................................................74

3.5.1. Товарные бензины..........................................................................74

3.5.2. Клейкие ленты.................................................................................84

3.5.3. Органическое вещество морской среды.......................................90

Заключение к 3 главе....................................................................................107

4. ХЕМОМЕТРИЧЕСКИЕ МЕТОДЫ В РЕНТГЕНОФЛУОРЕСЦЕНТНОЙ СПЕКТРОСКОПИИ 108

4.1. Смоделированные смеси........................................................................109

4.2.Искусственные смеси.............................................................................112

4.3.Реальные объекты...................................................................................115

Заключение к 4 главе....................................................................................124

5. ХЕМОМЕТРИЧЕСКИЙ АНАЛИЗ ДАННЫХ ЯМР СПЕКТРОСКОПИИ 125

5.1.Бакетин г...................................................................................................127

5.2.Искусственные смеси.............................................................................129

5.2.1. Смеси кофеина и бензоата натрия..............................................129

5.2.2. Компоненты меда..........................................................................131

5.2.3. Компоненты электронных сигарет.............................................134

5.2.4. Компоненты энергетических напитков......................................135

5.2.5. Компоненты молока.....................................................................136

5.3.Реальные объекты...................................................................................137

5.3.1. Безалкогольные напитки..............................................................137

5.3.2. Электронные сигареты.................................................................138

5.3.3. ComDim обработка соков и вин..................................................139

Заключение к 5 главе....................................................................................143

ВЫВОДЫ 144

Список использованной литературы 145

3

СПИСОК УСЛОВНЫХ ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ

Сокращение Расшифровка Перевод

MILCA Mutual Information Least Dependent Component Analysis Анализ наименее зависимых компонент, основанный на взаимной информации

SNICA Stochastic Non-negative Independent Component Analysis Стохастический анализ неотрицательных независимых компонент

SIMPLISMA Simple-To-Use Interactive Self-Modeling Mixture Analysis Простой интерактивный автомодельный анализ смесей

JADE Joint Approximate Diagonalization of Eigenmatrices Совместная приблизительная диа-гонализация собственных матриц

RADICAL The Robust Accurate, Direct ICA aLgorithm Надежный, точный, прямой МНК алгоритм

FastICA Fast Independent Component Analysis Быстрый анализ независимых компонент

MCR-ALS Multivariate Curve Resolution - Alternating Least Squares Многомерное разрешение кривых - Чередующиеся наименьшие квадраты

ICA, MI-IK Independent Component Analysis Метод независимых компонент

PCA, МГК Principal Component Analysis Метод главных компонент

PLS, ПЛС Projections on Latent Structures Проекции на латентные структуры

MLR, МЛР Multiple linear regression Множественная линейная регрессия

ComDim Analysis of Common Dimensions and Specific Weights Анализ общих направлений и специфических весов

FDA, ФДА Factorial discriminant analysis Факторный дискриминантный анализ

LDA, ЛДА Linear discriminant analysis Линейный дискриминантный анализ

ВВЕДЕНИЕ

Аналитическая спектроскопия способна предоставить необходимую информацию относительно состава и свойств различных объектов, таких как промышленные, сельскохозяйственные образцы и продукты питания. Эта информация может быть использована для контроля качества продуктов и оптимизации их состава. В связи с этим спектроскопия в мониторинге технологических процессов - это область, которая в настоящее время привлекает все большее внимание [1].

Эффективность затрат - еще одна тенденция, которая способствует появлению новых, быстрых и недорогих методов исследования. Тренд современной спектроскопии выражается в выполнении меньшего числа измерений, но получении большего объема данных из каждого из них. Так клинические анализы и медицинская диагностика сейчас осуществляются с помощью многомерных спектроскопических измерений, например, для классификации различных болезней или физиологического состояния пациента [2]. Быстрое совершенствование приложений спектроскопии для исследований и рутинного анализа было бы невозможно без параллельного развития хемометриче-ских методов.

Спектр предлагаемых хемометрикой методов и алгоритмов обширен. Однако следует отметить, что подавляющее большинство работ посвящено апробации различных хемометрических подходов для анализа данных электронной спектроскопии. Несмотря на очевидную перспективность, число работ, посвященных анализу данных инфракрасной (ИК), рентгенофлуорес-центной (РФ) спектроскопии и спектроскопии ядерного магнитного резонанса (ЯМР), единично. Данные, получаемые с использованием этих спектроскопических методов анализа, характеризуются большим значением взаимной информации, а, значит, одновременно и трудны для хемометрической обработки, и перспективны для разработки методов анализа товарных продуктов.

Примеры использования хемометрики для анализа данных ИК, РФ и ЯМР спектроскопии рассмотрены в обзоре литературы. Однако ввиду очень малого количества и перспективности направления работ необходимы исследования по практическому использованию рассматриваемых методов, выявлению факторов, влияющих на качество анализа, сравнительному анализу различных подходов и апробации алгоритмов на смесях сложного состава (в том числе товарных продуктах).

Необходимо также отметить, что все спектральные методы качественного и количественного анализа основаны на использовании эталонов (образцов стандартного состава). Необходимость применения эталонов представляет большое ограничение в применении спектроскопии как таковой. Вопрос о том, как этот важнейший момент можно обойти, возник сравнительно недавно, и оказалось, что проблема безэталонного анализа, то есть получение качественного и количественного ответов без использования натурных образцов стандартного состава, вполне может быть разрешена, если воспользоваться теоретическими расчётами спектров [3]. Впоследствии использование многомерных спектров открывает возможность перевести анализ на полностью безэталонную основу, тем самым исключив необходимость привлечения методов расчета спектров [4]. Исследования в этой области, выполненные Грибовым Л.А. и соавторами, показывают несомненную перспективность этого направления [5-7].

Цель работы: повышение эффективности ИК, ЯМР и рентгенофлуорес-центного спектрометрического анализа на основе методов хемометрики.

Достижение поставленной цели включало решение следующих задач:

- априорное определение числа независимых компонент в спектральных данных;

- апробация методов предварительной обработки спектров: ИК -сглаживание и шкалирование, ЯМР - бакетинг;

- качественный и количественный ИК, ЯМР и РФ анализ смоделированных и искусственных смесей хемометрическими методами;

- идентификация и количественное определение компонентов товарных продуктов (клейких лент, лакокрасочных покрытий, безалкогольных напитков, электронных сигарет, морских донных отложений) по данным ИК, ЯМР и РФ спектроскопии на основе хемометри-ческих методов;

- применение новых хемометрических подходов к классификации сложных объектов: МНК и СотБт, позволяющий значительно улучшить результаты определений за счет использования совмещенных наборов данных разных инструментальных методов, а иногда стать единственно возможным методом анализа.

На защиту выносятся:

- результаты качественного и количественного анализа смесей соединений различными алгоритмами метода независимых компонент по данным ИК, ЯМР и РФ спектроскопии, оценка и сравнение производительности используемых хемометрических алгоритмов;

- влияние различных факторов (количество компонентов в объекте, агрегатное состояние системы, предварительная математическая обработка) на декомпозицию спектров с применением хемометрических методов обработки;

- результаты применения новых классификационных методов: МНК и СошВ1ш - для повышения производительности и качества классификации сложных объектов: лакокрасочных покрытий, соков и вин;

- методики совместного определения веществ в реальных объектах на основе ИК, ЯМР и РФ спектров и хемометрики.

Научная новизна

Решена важная и перспективная задача использования методов ЯМР }Н, ИК, РФ спектроскопии в сочетании с хемометрическими алгоритмами

для идентификации и надежного экспрессного совместного количественного определения компонентов в смесях сложного состава.

Оценено влияние различных факторов на результаты математического разделения спектров смесей: число значимых компонентов в спектрах, агрегатное состояние системы, предварительная математическая обработка спектральных данных.

Апробирована работа разработанной в среде МАТЬАВ программы, позволяющей априори определять число независимых компонент в спектральных данных простых и сложных смесей.

Предложены новые методики анализа объектов окружающей среды и продуктов питания по данным ПК и ЯМР спектроскопии.

Показано превосходство новых хемометрических методов (МНК и Сот01т) в классификации сложных объектов.

Практическая значимость

Выработаны практические рекомендации по применению хемометрических алгоритмов в ИК, РФ и ЯМР спектроскопических анализах. На их основе разработаны эффективные методики определения веществ в смесях, апробированные в анализе объектов сложного состава.

Решены важные задачи экспертизы клейких лент, лакокрасочных покрытий автомобилей, установления компонентного состава товарных бензинов. С помощью хемометрических подходов изучены процессы формирования морских донных отложений и установлен их компонентный состав.

Предложены новые методики идентификации и количественного определения компонентов меда, молока, электронных сигарет, энергетических и безалкогольных напитков. С использованием нового хемометрического метода Соп^т решены задачи классификации сложных объектов анализа: соков и вин.

Результаты диссертационной работы представляют интерес для специалистов, работающих в области аналитической химии, математических методов обработки данных.

Апробация работы

Основные результаты диссертационной работы доложены на VIII Международном симпозиуме по хемометрике (Дракино, 2012), VI и VII Всероссийских конференциях молодых ученых, аспирантов и студентов Mendeleev-2012 и Mendeleev-2013 (Санкт-Петербург, 2012-2013), IV Европейском конгрессе по химии (Чехия, Прага, 2012), Всероссийской школе-конференции «Химия биологически активных веществ» молодых учёных, аспирантов и студентов с международным участием «ХимБиоАктив-2012» (Саратов, 2012), II Съезде аналитиков России (Москва, 2013).

Публикации

По теме диссертации опубликовано 11 печатных работ: 4 статьи в журналах, рекомендованных ВАК, 7 тезисов докладов, из них 5 - на международных конференциях.

Структура и объем работы

Диссертация состоит из введения, пяти глав, выводов и списка использованной литературы. Библиография включает 292 источника. Диссертационная работа изложена на 181 странице машинописного текста, содержит 42 рисунка и 22 таблицы.

В первой главе представлен обзор литературы, в котором кратко рассмотрены основные методы хемометрики, используемые для обработки данных ИК, ЯМР и РФ спектроскопии, их классификация, основные характеристики и примеры использования.

Вторая глава содержит сведения об используемых веществах, методах исследования и обработки экспериментальных результатов.

Третья глава включает изложение результатов декомпозиции инфракрасных спектров многокомпонентных систем различной природы различными алгоритмами метода независимых компонент, способов идентификации и количественного определения веществ в смесях сложного состава на их основе, а также сравнительный анализ используемых алгоритмов. Также в третьей главе представлены методики ИК спектроскопического анализа ре-

альных объектов с привлечением хемометрических методов обработки спектральных данных.

В четвертой главе приведены результаты рентгенофлуоресцентного анализа смоделированных и искусственных смесей с последующей обработкой различными алгоритмами МНК. Кроме того для реальных объектов предложены новые методики классификационного анализа с помощью МНК, которые значительно превосходят классические приемы (МГК моделирование).

Пятая глава содержит результаты хемометрической обработки ЯМР спектроскопических данных анализа смесей компонентов меда, энергетических и безалкогольных напитков, молока и электронных сигарет. Хемомет-рические методы апробированы также и для реальных объектов: безалкогольных напитков и электронных сигарет. Кроме того, в пятой главе представлены результаты анализа с применением нового метода обработки совмещенных наборов данных СопШт, который позволил значительно увеличить достоверность анализа.

Далее следуют выводы и список использованной литературы.

Личный вклад автора в опубликованные в соавторстве работах заключается в постановке цели и задач исследования, выборе объектов, подходов к анализу и количественному описанию экспериментальных данных, непосредственном проведении эксперимента и математической обработки данных, обобщении полученных результатов, формулировании научных положений и выводов. В обсуждении работы участвовали: проф. д.х.н. С.П. Муштакова, к.х.н. Ю.Б. Монахова. Вклад автора является решающим во всех разделах работы.

¡Г ГШ «Я НИ !И1 Ш! I В Ш II С II К [ П!" НЩ!1П В

1. ОБЗОР ЛИТЕРАТУРЫ

Хемометрика, ставшая в последнее время широко используемым и производительным инструментом, позволяющим значительно повысить эффективность качественного и количественного анализа, предъявляет определенные требования к наборам исходных спектроскопических данных. Для работы хемометрических методов важным является малое значение взаимной информации, которая характеризует количество информации, содержащейся в одном наборе спектроскопических данных относительно другого.

Известно, что взаимная информация спектральных данных находится в прямой зависимости от степени перекрывания спектров индивидуальных компонентов и в обратной зависимости от полуширины их сигналов: чем больше степень перекрывания и чем меньше полуширина сигналов, тем больше взаимная информация [8]. Это обстоятельство создает трудности для хемометрической обработки подобных спектральных данных и требует проведения дополнительных исследований в этой области, т.к. число работ, посвященных применению хемометрики в анализе спектральных данных, которые отличает большое значение взаимной информации невелико. Немногочисленные примеры подобных работ рассмотрены далее в обзоре литературы.

1.1. Хемометрика в анализе спектральных данных, хар