Интервальный метод обработки результатов многоканальных экспериментов тема автореферата и диссертации по физике, 01.04.01 ВАК РФ
Родионова, Оксана Евгеньевна
АВТОР
|
||||
доктора физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Санкт-Петербург
МЕСТО ЗАЩИТЫ
|
||||
2009
ГОД ЗАЩИТЫ
|
|
01.04.01
КОД ВАК РФ
|
||
|
На правах рукописи
РОДИОНОВА ОКСАНА ЕВГЕНЬЕВНА
ИНТЕРВАЛЬНЫМ МЕТОД ОБРАБОТКИ РЕЗУЛЬТАТОВ ^ МНОГОКАНАЛЬНЫХ ЭКСПЕРИМЕНТОВ
01.04.01 - Приборы и методы экспериментальной физики
АВТОРЕФЕРАТ диссертации на соискание ученой степени
доктора физико-математических наук
003460123
Москва 2008
003460123
Работа выполнена в Институте химической физики им H.H. Семенова Российской Академии Наук
Официальные оппоненты:
доктор физико-математических наук Новиков Лев Васильевич
доктор физико-математических наук профессор Спивак Семен Израилевич
доктор технических наук профессор Русинов Леон Абрамович
Ведущая организация
Учреждение Российской академии наук Институт геохимии и аналитической химии им. В.И. Вернадского РАН
Защита состоится « ио » ф&Л^эси^ 2009 г. в « » часов на заседании диссертационного совета Д 002.034.01 при Институте аналитического приборостроения Российской Академии наук по адресу: 190103 С.-Петербург, Рижский пр. 26.
С диссертацией можно ознакомиться в научно-технической библиотеке Института аналитического приборостроения РАН по тому же адресу
Автореферат разослан « ^ » с2009 г.
Ученый секретарь диссертационного совета кандидат физико-математических наук ([(, ¡г» ~ 'А.П. Щербаков
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. По мере совершенствования приборной базы, экспериментальная физика начинает оперировать с большими массивами данных, которые содержат измерения сотен и тысяч объектов, при учете большого числа действующих факторов. Математическая обработка становится неотъемлемой составляющей сложного физического эксперимента. В некоторых случаях, именно методы извлечения полезной информации из экспериментальных результатов способствуют распространению той или иной техники эксперимента. Начиная с 70-х годов прошлого века, для анализа подобных данных используется хемометрический подход, суть которого состоит в двух принципах. Во-первых, это понижение размерности задачи с помощью проекционных методов, и, во-вторых, это использование формальных, линейных моделей для объяснения связей в данных. Ярким примером может служить инфракрасная спектроскопия в ближней области, которая до появления хемометрического подхода почти не применялась и считалась малоперспективной. Однако, использование такого подхода связано с двумя проблемами, которые не нашли еще своего окончательного решения. Во-первых, - это оценка неопределенности получаемых результатов, а во-вторых, - ограничение области применимости методов. На решение этих двух важных задач и направлено это исследование.
Главной идеей работы является интервальный подход, т.е. последовательное использование принципа ограниченности погрешностей. Этот принцип был впервые предложен Л. Канторовичем еще в 1962 г, однако до сих пор эта идея не получила должного признания и развития. В представленной работе главное внимание уделяется классической проблеме количественного анализа - решению задачи калибровки. При этом интервальный подход сочетается с проекционными методами, что дает в результате интервальный прогноз искомого физико-химического показателя. Этот метод назван простым интервальным оцениванием (ПИО). При его применении удается решить две задачи: установить область неопределенности прогноза и построить классификацию объектов, которая позволяет очертить область применения построенной ПИО модели.
Цель работы состоит:
- в разработке теоретических и прикладных аспектов интервального анализа результатов экспериментов. В том числе: построение интервальных моделей линейной калибровки, оценка индивидуальной неопределенности прогноза, создание системы классификации объектов, определение области применения построенных моделей;
- в написании алгоритмов обработки многоканальных сигналов и создании компьютерной системы анализа результатов эксперимента, позволяющей реализовать потенциальные возможности измерительных систем и приборов;
- в построении методологии совместного применения проекционных методов и ПИО при решении важных теоретических и практических задач интерпретации больших наборов данных многоканальных экспериментов.
Научная новизна работы определяется следующими результатами:
1) Предложен новый метод построения линейных калибровочных зависимостей - простое интервальное оценивание, сочетающий в себе проекционный подход с интервальным анализом погрешностей. Показано, что этим методом можно обрабатывать большие массивы мультиколлинеарных данных физических экспериментов, причем результаты прогноза представляются в интервальной форме.
2) Разработаны теоретические основы метода ПИО. Исследованы его основные свойства. Разработан новый подход к оцениванию индивидуальной неопределенности прогноза для каждого объекта. Показано, что этот метод можно считать свободным от вида распределения погрешности.
3) Разработан новый подход к классификации объектов, позволяющий естественным объектом очертить рамки, в которых может использоваться построенная модель. Это достигается с помощью определения статуса объекта различающего: надежные «внутренние объекты», существенные «граничные объекты», подозрительные «внешние объекты», выпадающие «абсолютно-внешние объекты» и разрушительные «выбросы».
Научная и практическая значимость работы состоит в том, что с помощью разработанного метода и с применением компьютерной программы SIC были решены несколько важных теоретических и практических задач интерпретации данных различных многоканальных экспериментов. В том числе:
- на примере обработки сигналов дифференциальной сканирующей калориметрии проведено сопоставление результатов, полученных методом ПИО, с традиционными регрессионными доверительными оценками;
- на примере анализа ИК-спектров в ближней области представлен новый метод выбора представительного поднабора исследуемых объектов;
- в области многомерного контроля процессов, представлен новый метод многомерной статистической оптимизации процессов, проиллюстрированный практическим примером;
- на примере распознавания фальсифицированных лекарств с помощью ИК-спектроскопии в ближней области построен новый подхода к решению задачи дискриминации - интервальный вариант метода ПЛС дискриминации;
- на примере определения следовых концентраций нефти в воде с помощью акустических измерений, проведено сопоставление предложенной в работе классификации объектов с известным методом замкнутых оболочек.
Достоверность результатов обеспечена высокой точностью используемых теоретических и численных методов, согласованностью аналитических и численных методов решения задач, сопоставлением теоретических и экспериментальных результатов, а также сравнением с результатами, полученными другими авторами.
Автором выносится на защиту:
интервальный подход, предназначенный для анализа больших массивов данных физических экспериментов, решения линейных задач калибровки и прогнозирования. Основу подхода составляет метод простого интервального оценивания
(ПИО), который позволяет:
• вычислять оценки неизвестных параметров модели в виде области в пространстве параметров;
• вычислять результаты прогноза отклика в интервальном виде;
• создать метод классификации статуса объектов и интерпретации прогнозных интервалов;
• построить процедуру распознавания исследуемых объектов;
• разработать метод формирования представительной выборки.
Компьютерная программа SIC для решения задач линейной калибровки.
Методология применения интервального подхода для решения задач интерпретации физико-химических данных, раскрытая на следующих примерах:
• анализ кинетических данных на примере оценки активности антиоксидан-тов;
• построение калибровки и классификации объектов в задаче определения следовых концентраций нефти в воде с помощью акустических измерений;
• распознавание фальсифицированных лекарств с помощью инфракрасной спектроскопии в ближней области;
• построения моделей пассивной и активной оптимизации при многомерном контроле процессов;
• формирование представительной выборки на примере определение влажности зерна с помощью инфракрасной спектроскопии в ближней области.
Апробация работы. Основные результаты диссертации докладывались и обсуждались на следующих конференциях и симпозиумах: Всероссийской конференции «Математические методы в химии» (Санкт-Петербург 2003), Gordon Research Conference (Williamston 2001), XVI Менделеевском съезде (Ст.-Петербург 1998), Scandinavian Symposiums on Chemometrics (Lahti 1997, Porsgrunn 1999, Copenhagen 2001, Lappeenranta 2007), II международной конференции «Экспериментальные методы в физике» (Барнаул 2001), CONFERENTIA CHEMOMETRICA (Budapest 1997; Tata 2002), Международной школе-конференции «Современные методы анализа многомерных данных» (Кострома 2002, Барнаул 2003, Пушкинские Горы 2004, Черноголовка 2005, Самара 2006, Казань 2008), Chemometrics in Analytical Chemistry (Лиссабон 2004, Монпелье 2008), Symposium on Computer Applications and Chemometrics in Analytical Chemistry (Балатон 2004), международной конференции "Идентификация систем и задачи управления" (Москва 2005), всероссийском совещании по интервальному анализу (Петергоф 2006), международном конгрессе по аналитическим наукам (Москва 2006).
Публикации. Основные результаты работы опубликованы в 33 статьях (рецензируемых журналах, книгах и сборниках) и 40 тезисах докладов на международных и всероссийских конференциях (Общее число публикации автора 73).
Структура и объем работы. Диссертационная работа изложена на 272 страницах, содержит 85 рисунков и 22 таблицы. Диссертация состоит из введения, двенадцати глав с описание теоретических и прикладных исследований, выводов,
приложения с описанием основных алгоритмов и списка литературы из 297 наименований.
СОДЕРЖАНИЕ РАБОТЫ Введение
Обосновывается актуальность работы, и формулируются основные цели исследования. Учитывая, что проекционные методы, называемые хемометриче-скими, малоизвестны в России, в первой части представлены основные принципы и методы хемометрики.
Описание основных понятий многомерной калибровки, изложение метода простого интервального оценивания и его применение к задачам анализа результатов различных физических экспериментов рассматриваются в трех частях диссертационной работы.
ЧАСТЬ I. МНОГОМЕРНЫЕ ДАННЫЕ И ФОРМАЛЬНЫЕ МОДЕЛИ
Главы 1-3
В этой части вводятся основные понятия и объекты, с которыми работает исследователь при математической обработке результатов физического эксперимента. Приводится краткое описание базовых методов, которые используются в работе совместно с новым интервальным подходом.
Данные. Результаты физических экспериментов, т.е. наборы данных - это основной предмет, рассматриваемый в работе. Простейший случай - это одномерные данные, например, значение оптической плотности на одной длине волны. Наиболее часто встречающиеся, это двухмодальные данные. Типичный пример - набор спектров, снятых для I объектов на J длинах волн, представленных матрицей X размерности (1x1). Строка представляет объект (образец или наблюдение), а столбец - переменную (длину волны). В последнее время большое внимание уделяется и более сложным, т.н. многомодальным (п-\уау) наборам данных. Пример таких данных рассматривается в главе 9.
Результаты физических экспериментов могут объединяться в блоки. Простейший случай - это один блок X. В регрессионном анализе используются данные, состоящие из двух и более блоков. Блок независимых переменных представляется матрицей X размерности (1x1) (например, матрица спектров). Блок откликов представляется матрицей У размерности (/х£) (например, матрица концентраций).
Методы качественного анализа. В задачах качественного анализа участвует один блок данных. При анализе многоканальных данных используются методы их сжатия. Идея этих методов состоит в том, чтобы представить исходные данные физического эксперимента, используя новые скрытые переменные. При этом должны выполняться два условия. Во-первых, число новых переменных должно быть существенно меньше числа исходных переменных, и, во-вторых, потери от такого сжатия должны быть сопоставимы с шумом в данных. Эти методы можно интерпретировать как проекцию исходных данных на пространство меньшей размерности, образованное скрытыми (латентными) переменными.
Метод главных компонент (МГК, К. Pearson, 1901) состоит в декомпозиции исходной матрицы X(IxJ)
X = TP'+E = £tkp'+E. (3.1)
t-i
Т (/x/Q называется матрицей счетов, столбцы tk ортогональны, т.е. T^diag^) - диагональная матрица, причем являются собственными значениями матрицы Х'Х. Р(JxK) называется матрицей нагрузок, столбцы которой ортонормиро-ванны, т.е. P'P=I. Е(JxK) - это матрица остатков. Величина К называется числом главных компонент (ГК). Выбор К, проводится с использованием критериев, показывающих точность достигнутой декомпозиции. Величины
1-1 / ..I у. I V j-i / "I j-l 1
называются нормированным собственным значением и объясненной вариацией.
Важнейшим преимуществом проекционных методов является возможность представление сложных данных физического эксперимента в более простом виде, допускающем простую графическую интерпретацию.
Классификация и дискриминация. Это широкий класс задач качественного анализа, в которых требуется установить принадлежность объекта к некоторому классу. Эффективным подходом является метод формального независимого моделирования аналогий классов -SIMCA, (S. Wold, 1976). В этом методе каждый класс из обучающего набора независимо моделируется с помощью МГК с разным числом главных компонент К. После этого вычисляются расстояния между классами, а также расстояния от каждого класса до нового объекта. Используются расстояние d от объекта до класса, которое сравнивается с величиной dQ,
d = J—2У . d0 = I-1 Ye2, (33)
а также расстояние от объекта до центра класса, называемое размахом
(3-4)
Vk
Здесь тк - это проекция нового объекта (счет) на главную компоненту k, a tk - это вектор, содержащий счета всех калибровочных объектов в классе.
Методы количественного анализа: калибровка. В задачах количественного анализа участвуют два блока данных: X - это матрица предикторов, a Y-это матрица откликов. Задача многомерной калибровки (ММК) состоит в построении математической модели, связывающей блоки X и Y, с помощью которой можно предсказывать значения показателей у по новой строке значений х.
По виду математических моделей, а, следовательно, и по методам отыскания неизвестных параметров, различают линейную и нелинейную калибровку. В третьей главе подробно рассмотрены линейные методы, кратко представлена нелинейная калибровка, рассмотрены методы многомодальной калибровки.
Линейная калибровка. Для решения задачи многомерной калибровки
Y=XA+E (3.5)
используются проекционные методы, которые решают проблему вырожденности матрицы Х'Х и дают устойчивые оценки для неизвестных коэффициентов А. При использовании регрессии на главные компоненты - РГК, калибровка осуществляется в два этапа: на первом этапе к матрице X применяется МГК (3.1); на втором этапе к матрице счетов Т применяется множественная регрессия:
я = Р(Т'Т)"'Р'Х'у. (3.6)
В настоящее время наиболее популярен метод проещий на латентные структуры (ПЛС, Н. Wold, 1973). В ПЛС методе, декомпозиция X и Y производится одновременно
Х=ТР'+Е и X=TW'+E, Y=UQ'+F, (3.7)
Столбцы матрицы W образуют ортонормированную систему. Оценки регрессионных коэффициентов имеют вид
Ä = W(P'W)'Q1. (3.8)
Точность калибровки и предсказания принято характеризовать величинами
RMSEC = ^±{y:-yl)2 jF ,RMSEP = ^{y\-№ fo (3.9)
где у\ и у| соответственно, измеренные и предсказанные значения физического показателя (индекс с определяет калибровочные объекты, t - объекты из проверочного набора). I - это число объектов в калибровочном наборе, М - в проверочном, а F - это число степеней свободы.
Существенным недостатком таких методов является то, что все они дают результат предсказания в виде точечной оценки, тогда как на практике часто нужна интервальная оценка, учитывающая неопределенность прогноза. Для преодоления этого недостатка предлагается использовать метод простого интервального оценивания.
ЧАСТЬ II. МЕТОД ПРОСТОГО ИНТЕРВАЛЬНОГО ОЦЕНИВАНИЯ
4. Объяснение ПИО метода
Интервальный подход основывается на следующей идее - заменить минимизацию суммы квадратов отклонений (метод наименьших квадратов) на систему неравенств, которая решается с помощью линейного программирования. Ранее был выполнен ряд важных прикладных работ, в частности получены интересные результаты по анализу информационной ценности кинетических измерений (С. Спивак, 1984). Кроме того, проводились исследования, направлены на построение интервальной оценки параметров моделей (метод центра неопределенностей), что оказалось малоплодотворным.
Р1спользование такого подхода может дать интересные результаты, если рассматривать многомерную калибровку (ММК) как задачу построение интервального прогноза отклика. В этом случае результат прогноза сразу имеет вид интервала, поэтому этот метод называется «простым интервальным оцениванием» (ПИО). ПИО метод значительно отличается от привычного регрессионного подхода. Поэтому, перед строгим изложением математических аспектов ПИО,
приведено его элементарное объяснение, основанное на простейших примерах.
4.1. Почему погрешности ограничены
Исходным предположением ПИО является ограниченность погрешностей измерений, что принципиально отличается от стандартного допущения о нормальности погрешностей. Характерно, что большинство исследователей не связывают с принципом нормальности факт неограниченности погрешностей. Практика показывает, что на стадии предварительной обработки исследователи удаляют величины, лежащие за порогом трех или четырех стандартных отклонений. В то же время, объем данных, с которым работают экспериментаторы, часто превышает Ю^6, так что в них уверенно можно было бы ожидать 20-30 «нормальных» значений, выходящих за 4а.
Еще один довод в пользу ограниченности погрешностей появляется при применении проекционных подходов. Так как эти методы используют формальные линейные модели, которые приближают исследуемые зависимости лишь на ограниченном участке, то, при построении таких моделей, периферийные объекты, которые могут нарушить линейность, обычно удаляют.
4.2. Модельный пример
Рассматривается простейшая одномерная регрессия
у = ха + е. (4.1)
Основным предположением метода ПИО является постулат об ограниченности погрешности измерения е,. утверждающий, что никакая погрешность е не может превосходить по абсолютной величине некоторую константу Д
РгоЬ(| е\ >/?) = 0 (4.2)
Исследуем выводы, непосредственно вытекающие из этого постулата.
Метод наименьших квадратов. — МНК про- Метод ПИО: I - интервалы ошибок, — гра-гноз, — границы доверительных интервалов ницы интервалов предсказания
Рис. 4.1 Одномерный модельный пример: О- калибровочные и ■- проверочные объекты
На Рис. 4.1 приведены модельные данные, построенные для регрессии (4.1)
при а= 1. Погрешность измерения моделировалась с использованием равномерного распределения шириной 1.4, (/?=0.7): Объекты С1-С4, используются как калибровочные, объекты Т1-ТЗ - проверочные. Не смотря на примитивность примера, с его помощью можно объяснить все основные свойства метода ПИО.
МНК калибровка. Используя калибровочные данные (хь. у,), г-1-4 и стандартную методику обработки, можно найти МНК оценку параметра а
5=^ = 1.004, гдехЛ£х„ у = (4.3)
х 4 1 47
и предсказать значения отклика у во всех точках х, как калибровочных, так и новых, оценить дисперсию погрешности е и построить доверительный интервал:
у = (4.4)
3 I 2х
Ь(Р) — это квантиль распределения Стьюдента с 3 степенями свободы для вероятности Р. Границы доверительных интервалов приведены на Рис. 4.1а (Р=0.95).
ПИО калибровка. Предположим, значение /? известно. Из (4.1) и (4.2) следует, что для каждой пары (хь. у,) из калибровочного набора выполняется условие
| у1 - ах,. | < р, или в эквивалентной форме а,тш < а < а"ш\ (4.5)
где
тт
а.,пп=>^_£ (4.6)
Неравенства (4.5) должны выполняться для всех калибровочных объектов. Так может быть только тогда, когда значений параметра а лежат в интервале й™" <а<а™\
(4-7)
а""" = шаха,"™, ат" = шшГ; а""" = 0.92, а'"" =1.19
Интервал (4.7) определяет область допустимых значений (ОДЗ) параметра а, т.е. такие значения, которые не противоречат экспериментальным данным. Когда параметр а меняется в интервале (4.7), то соответствующая величина отклика у=ах в произвольной точке х ограничена значениями:
у-=ат'тх, V* =аттх (4.8)
Таким образом построена интервальная оценка параметра а (4.7), которая является аналогом точечной МНК-оценки а. Кроме того, найдены и прогнозные интервалы (4.8) для отклика^, справедливые, как для калибровочных, так и для любых других (новых) объектов (Рис. 4.1 Ь).
Отметим очевидный факт, что построение калибровки методом ПИО в нашем примере «держится» только на двух объектах: С2 и С4. Они задают границы (4.7) возможных значений параметра а, поэтому мы вправе назвать эти объекты граничными. Прочие калибровочные объекты С1 и СЗ несущественны; их можно удалить из калибровочного набора, и результат останется прежним. Это очень важное свойство метода ПИО, которое находит применение в задаче вы-
бора представительного набора объектов.
4.3. Сходимость интервальных оценок
На другом простом примере проведено сравнение интервальной ПИО-оценки с обычной оценкой метода максимума правдоподобия. Рассматривается выборка х=(.х1,..., х„) из нормального распределения М(ог,сг2), усеченного на интервале [аг-Д а+/3\, р=ксг. Требуется построить оценку среднего значения от при известных значениях /?и к, и исследовать ее сходимость, т.е. зависимость точности от объема выборки п.
Оценка а по методу максимума правдоподобия или моментов строится как 1 "
среднее по выборке аМ1= — Xх/> и ее точность можно охарактеризовать при-
П
ближенным доверительным интервалом РгоЬ(] аМ1 - а | < РЬ.Ш) = Р, где
(4.9)
л/И
это нормированная полуширина доверительного интервала (МЬ размах), а х( -это квантиль нормального распределения.
С другой стороны, интервальная оценка имеет вид аж = [тт(х; + /?), тах(х/ - /?)]. Нормированную полуширину (ПИО размах) этого интервала, соответствующую доверительной вероятности Р, можно записать в виде:
Л5,с(Р) = -М1=р-2у(к). (4Л0)
Функции у{к) и чАк) зависят от параметра к, который определяет, как проводится отсечение (к=0.2, 1, 2, 3,4). При к= 0.2 распределение близко к равномерному, а при Д.-4 практически неотличимо от не усеченного нормального распределения.
Показано, что, в рассматриваемой задаче, ПИО-оценка эффективней оценки ММП, начиная с некоторого объема выборки щ, которая зависит от параметра к. Чем ближе усеченный закон распределения к нормальному (большие значения к), тем больше должен быть объем выборки.
Результат главы 4. Показано, что главное (и единственное) предположение об ограниченности погрешности, является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно выглядит более обоснованным, чем традиционное допущение о нормальности, а, следовательно, и неограниченности погрешностей. Метод ПИО не использует никаких исходных предположений о виде распределения погрешности, кроме ее ограниченности. Тем самым его можно считать методом, свободным от вида распределения.
5. Описание метода ПИО
Эта глава представляет систематическое описание метода ПИО, вводятся основные определения, приводятся доказательства в общем виде.
5.1. Область допустимых значений
Рассмотрим модель линейной многомерной калибровки
у = Xa+s , (5Л)
где у (/х 1)— это вектор откликов; а (Jx 1)- это вектор параметров; X (IxJ)- это матрица предикторов, е (7x1) - это вектор погрешностей. Ограниченность погрешности е означает, что существует такая величина />0, что
РгоЬ{|е| > р} = 0, и что для любых О<Ъ<Р РгоЬ{|е| > Ь] > 0 (5.2)
Для любого объекта (х^) из калибровочного набора, /=1,..., / можно записать
у;<х]а<у;, у~ = у,-р, у1=у, + Р- (5.3)
Значения а, удовлетворяющие (5.3) для данного объекта i, образуют полосу S(\u у\) в пространстве параметров R1. Вектор параметров а удовлетворяет всем неравенствам (5.3) одновременно тогда и только тогда, когда он принадлежит всем полосам.
Определение 5.1 Область допустимых значений (ОДЗ) А для параметров а системы (5.1) - это множество в пространстве параметров:
А = Pl^Xj,^) или Л = {а е R/ : у ~ < Ха < у+} (5.4)
i=i
А - это замкнутый выпуклый многогранник. При этом А является случайным множеством, поскольку оно построено с использованием случайных величин у.
5.2. Свойства ОДЗ
Показано, что для любой модели, заданной уравнением (5.1), ОДЗ А обладает следующими свойствами.
Свойство 1. Область А является несмещенной оценкой параметра а. Непосредственно из определения ОДЗ следует, что истинное значение а всегда принадлежит A: Prob{ae^}=l.
Свойство 2. Область А ограничена тогда и только тогда, когда матрица X имеет полный ранг, т.е. rank Х= J.
Это означает, что если система (5.1) мультиколлинеарна, т.е. rank X < J, то до использования ПИО метода, необходимо применить какую-либо процедуру регуляризации. Например, спроецировать исходные данные (5.1) на подпространство меньшей размерности
у = ТР'а + f = Tq + f, (5.5)
где матрица Т имеет полный ранг K<J, а затем применить метод ПИО к (5.5). Свойство 3. Область А является состоятельной оценкой параметра а,
РгоЬ{Лпа} = 1 при /->оо (5.6)
при тех же «слабых» условиях, что и в МНК, т.е. Л. -»со при / -> сю.
Это свойство означает, что при увеличении количества калибровочных объектов, область А стягивается к истинному значению а.
Свойство 4 Область А образована не всеми объектами из калибровочного набо-
ра, а только некоторыми, называемыми граничными.
Это означает, что из калибровочного набора можно исключить все объекты, кроме граничных, и ОДЗ при этом не изменится.
5.3. Предсказание отклика
Используя ОДЗ А, построенную для модели (5.1) или (5.5), можно предсказать значение отклика у для любого вектора х. Если параметр а меняется внутри ОДЗ А, то значение у=х1а принадлежит интервалу
K = [v",v+] где v" = шш(л:1а), v+= шах(лг,а) С5 7)
ае,4 аеЛ v ' '
Интервал V является результатом прогноза методом ПИО. Для его вычисления не требуется строить область А в явном виде, т.к. значения v~ и v+ могут быть найдены с помощью стандартных методов линейного программирования.
Кроме того, имеется еще интервал калибровки U, который характеризует меру неопределенности в модели
U=[y-ß,y+ß], (5.8)
Величина прогнозного интервал V индивидуальна для каждого объекта, а величина интервала калибровки U - общая для всех объектов. Взаимное расположение этих интервалов (Рис. 6.2а) характеризует "качество" прогноза.
5.4. Оценка ß
Как правило, величина ß неизвестна и, вместо нее, используется некоторая оценка Ь. Согласно определению (5.4), ОДЗ А зависит от Ь, и А(Ь) монотонно расширяется с увеличением b -
6,>b2 => A(bt)=>A(b2). А(О) = 0, Л(оо)*0 (5.9)
Из (5.9) следует, что существует минимальное значение Ъ, при котором А(6)* 0. Это значение может быть принято в качестве оценки величины ß
bm]n = mrn{b, A(b)*0}. (5.10)
Предложенная оценка (5.10) является состоятельной, но смещенной, т.к. bm\n<ß. Она задает нижний предел всех возможных значений ß. Поэтому необходимо оценить и верхнюю границу максимальной погрешности.
Очевидно, что любая разумная оценка b должна зависеть от двух показателей: (1) числа объектов в калибровочном наборе; чем больше объектов, тем ближе величина b к ß; (2) тяжести крыльев функции распределения погрешностей; чем крылья легче, тем хуже эта оценка. Применяя традиционный статистический подход к регрессионным остаткам е = у - у, можно построить такую оценку Ъ, что Prob{b>ß}>P и, при этом, оценка b максимально близка к ß. Имитационное моделирование, проведенное для различного числа объектов с использованием различных ограниченных распределений ошибки, показывает, что оценка
Ъ%\с=Ък% С(/, s2, Р), где Ъ = шах
л
е.
l^Mh
/7,=х:(Х'Х)-'х, (5.11)
может быть принята за искомый верхний предел /? с вероятностью Р. Здесь
С(/, s2, Р) - эмпирическая функция, которая зависит от числа объектов в калибровочном наборе I и от оценки дисперсии остатков s2.
Значение èsic в качестве оценки Р в дальнейшем используется в ПИО методе для определения прогнозных интервалов и для классификации объектов.
Точность ПИО моделирования. Значения 6min и ¿sic
Ьтт<р<Ьж (5.12)
полностью характеризуют точность ПИО моделирования, т.е.
• Любое априорное значение /? допустимо только в том случае, если оно больше или равно Ьт¡„.
• Моделирование с помощью ПИО методов с параметром ¿sic гарантирует, что для объектов из калибровочного набора, 'истинное' значение отклика расположено внутри соответствующего прогнозного интервала.
• Даже в 'наихудшем' случае, полуширина прогнозного интервала для объектов из калибровочного набора меньше или равна ¿sic-
• Обе оценки p. bmin (5.10) и ¿sic (5-11) - являются состоятельными. Это означает, что для любого значения /? из интервала (5.12) выполняются свойства 2 и 4 из раздела 5.2, а свойства 1 и 3 выполняется асимптотически.
Результат главы 5. В этой главе приведены основные понятия и доказаны основные свойства ПИО метода.
1. Дано определение и доказаны основные свойства области допустимых значений параметров А. Показано, то область А является множественным аналогом точечной оценки неизвестных параметров в регрессионном анализе.
2. Показано, что оценка максимальной погрешности р определяет точность калибровки и задает границу воспроизводимости для всех объектов, которые подобны объектам из калибровочного набора.
3. Показано, что прогнозные ПИО-интервалы, устанавливают индивидуальную неопределенность прогноза отклика для каждого нового объекта.
6. Классификация статуса объектов 6.1. Характеристики статуса объектов
Для характеристики качества прогноза и формализации понятий «похожих» и «непохожих» объектов в рамках метода ПИО вводятся следующие определения.
Пусть имеется ПИО модель, построенная с помощью набора калибровочных объектов (Xj, >'j), /= 1, ...,/, которая характеризуется своей ОДЗ А, (5.4). Рассмотрим новый объект, т.е. пару (х,_у), с которым связана своя полоса S(x,y), определенная неравенствами у-р<\1я<у + р. Тогда взаимное положение полосы S(x, у) и области А характеризует статус объекта (см. Рис. 6.1 ).
Определение 6.1 Объект (х, у) называется внутренним, если он не изменяет ОДЗ, т.е. А п S(x, у) = А, иначе, jx'a — у\ < fi для V аеА.
Любой объект из калибровочного набора, по построению, является внутренним (Рис. 6.1 а,Ь).
Определение 6.2 Объект (Xj, у) из калибровочного набора называется граничным, если существует такой параметр аеА , что |х'а—= 0 ■
Граничные объекты формируют ОДЗ, и, поэтому, являются наиболее важными среди объектов калибровочного набора (Рис. 6.1 а).
Определение 6.3 Объект (х, у) называется внешним, если он уменьшает
ОДЗ, т.е. A n S{\, у) фА, иначе, За еА что|х'а-_у|>/?.
Согласно определениям 6.1 и 6.3 все объекты делятся на внутренние и внешние. Однако среди внешних объектов можно провести более детальное различие. Определение 6.4 Объект (х, у) называется -выбросом, если он уничтожает ОДЗ, т.е. А r\S(x,y) =0 , иначе, |х'а - у\ > /? для V а еА. (Рис. б.Id)
Определение 6.5 Объект (х, у) называется абсолютно внешним, если для любого значения yAn S(x, у)* А.
В работе показано, что при добавлении в калибровочный набор дополнительного 1+1 -го объекта, в зависимости от его статуса, происходят следующие изменения с ОДЗ А. Если объект является внутренним, то ОДЗ не изменится, т.е. Ам=А\. Если объект является внешним, но не выбросом, то ОДЗ уменьшится, т.е. Ai+\cA\, а добавленный объект станет граничным. Если объект является выбросом, то ОДЗ исчезает, т.е. Ац. |=0. Классификация объектов проявляется не только во взаимном расположении полос и ОДЗ в пространстве параметров, но и во взаимном положении калибровочного, U (5.8) и прогнозного, V (5.7) интервалов. Это подтверждается следующими утверждениями, доказанными в работе.
Утверждение 6.1 Для всех калибровочных объектов выполняется условие VinU^Vf, M...J.
Утверждение 6.2 Объект является внутренним тогда и только тогда, когда F; пЦ =К,.
Утверждение 6.3 Калибровочный объект (F, с.Щ является граничным тогда и только тогда, когда
max(Fi)=max(£/i) либо min(Fj)=min((/i).
Утверждение 6.4 Объект является выбросом тогда и только тогда, когда VnU =0.
Утверждение 6.5 Объект является абсолютно-внешшт тогда и только тогда, когда для любого значения у
а) b)
^RPV/7
Рис. 6.1 Возможные положения полосы нового объекта по отношению к данной ОДЗ в пространстве параметров
6.2. Диаграмма статуса объектов (ДСО)
Для того чтобы процедуру классификации объектов сделать максимально простой и наглядной, в работе введены следующие величины. Определение 6.6. ПИО-остатком называется величина -
у-
v+(x) + v-(x)
которая характеризует /^-нормализованное смещение.
Определение 6.7. ПИО-размахом называется величина -
й(х) = -
Р
v+(x)-v"(x)
(6.1)
(6.2)
которая характеризует /^-нормализованную воспроизводимость. Целесообразность этих определений раскрывается следующими утверждениями.
о <л с о а. и о СИ
а)
Samples
Интерват качибровки (черный), интервал предсказания (серый), (о) - опорное значение,
(•) - предсказанное значение
Диаграмма статуса объектов. \ - внутренние, ¡¡-внешние, па- абсолютно внешние, Ш- выбросы
Рис. 6.2. Результаты ПИО прогноза
Утверждение 6.6 Все калибровочные объекты удовлетворяют неравенству
Утверждение 6.7 Объект (х, у) является внутренним тогда и только тогда, когда |г(х,у)|<1-/г(х).
Утверждение 6.8 Калибровочный объект (х,, у-) является граничным, тогда и только тогда, когда |/-(хь^)| = 1 -й(х;).
Утверждение 6.9 Объект (х, у) является выбросом тогда и только тогда, когда |г(х,^)|>1 + /г(х)
Утверждение 6.10 Объект (х, у) является абсолютно-внешним тогда и только тогда, когда /г(х) > 1.
Используя Определения 6.6-6.7 и Утверждения 6.6-6.10, можно построить диаграмму статуса объектов (ДСО), прототип которой показан на Рис. 6.2Ь.
6.3. Классификация новых объектов
Когда модель ММК применяется к новым объектам, соответствующие значения у неизвестны. Поэтому нельзя вычислить ПИО-остаток, г (6.1), но всегда можно определить величину ПИО-размаха, h (6.2). Если для нового объекта А>1 (область На на Рис. 6.2Ь), то этот объект является абсолютно-внешним. Для любого калибровочного набора можно сконструировать область в пространстве предикторов (счетов), за пределами которой располагаются абсолютно внешние объекты. Следующее утверждение определяет эту область. Утверждение 6.11. Пусть D - это область в пространстве предикторов, образованная всеми возможными линейными комбинациями взвешенных векторов
предикторов (или счетов) Xj из калибровочного набора, такими что / I
Х = У ' X:, УШ<1 . (63)
Тогда все абсолютно внешние объекты будут расположены вне этой области.
Результаты главы 6. Показано, что для решения задач многомерной калибровки, ПИО подход позволяет ввести новый метод классификации объектов. Он базируется на определениях 6.1-6.5 и утверждениях 6.1-6.5. При этом нет необходимости в явном виде строить ОДЗ в пространстве параметров.
Для ПИО классификации достаточно построить диаграмму статуса объектов, которая, независимо от исходной размерности задачи, представляется в двумерном пространстве. Позиция каждого объекта на ДСО определяет, подобен ли изучаемый объект объектам из калибровочного набора, и тем самым, задает разумные границы применимости построенной калибровки.
7. Программная реализация ПИО метода
Разработанные аспекты ПИО метода были реализованы в программе SIC (Simple Interval Calculations), которая работает под управлением системы Excel, входящей в стандартный пакет Microsoft Office. Приведено описание структуры программы, которая состоит из целого набора процедур: (1) предварительной подготовки данных; (2) проекционных регрессионных методов (МГК, РГК, ПЛС 1, ПЛС 2); (3) процедуры приведения исходной задачи к стандартной форме линейной оптимизационной модели; (4) стандартной процедуры Симплекс-метода для решения линейной оптимизационной задачи; (5) вычисления результатов, построения ДСО.
Вся входная информации представляется в виде таблиц рабочих листов Excel. С помощью программы SIC можно получить следующую информацию:
• результаты интервального прогноза отклика [v~, v+];
• точечную регрессионную оценку откликов (РГК, ПЛС);
• оценки параметра ß. bmin и ASjci
• ПИО-остаток и ПИО-размах;
• диаграмму статуса объектов.
Информация выводится как в числовом, так и в графическом виде. Устройство программы SIC соответствует современным требованиям. Все действия выполняются либо с помощью диалогового окна, либо осуществляются с помо-
щью VBA процедур. Программа SIC - это инструмент, созданный для интервального и регрессионного анализа результатов сложных многофакторных физических экспериментов. Программа систематически используется в работе.
ЧАСТЬ III. ТЕОРЕТИЧЕСКИЕ И ПРАКТИЧЕСКИЕ АСПЕКТЫ ПРИМЕНЕНИЯ МЕТОДА ПРОСТОГО ИНТЕРВАЛЬНОГО ОЦЕНИВАНИЯ
Эта часть работы посвящена методология применения интервального подхода для интерпретации результатов различных многоканальных экспериментов.
8. Применение проекционных методов совместно с методом ПИО на примере анализа многоканальных акустических измерений.
Наглядное представление многофакторных данных
В этой главе излагаются общие принципы, применяемые при совместном использовании проекционных регрессионных методов и метода ПИО. Проекционный подход базируется на концепции «скрытых (латентных) переменных», на которых строится проекционное подпространство. Возможность наглядного представления сложных многофакторных данных физического эксперимента в проекционном пространстве позволяет исследователю лучше понять и объяснить изучаемые явления. При этом возникает необходимость (1) охарактеризовать свойства каждого отдельного объекта относительно всей группы объектов и построенной модели; (2) очертить область действия модели, а, следовательно, и надежность прогноза. Метод ПИО представляет систему классификации объектов, а так же набор однозначных правил для определения статуса (роли) каждого объекта.
8.1. Эксперимент. Измерение следовых концентраций нефти в воде с помощью акустических измерений
Результаты ПИО классификации демонстрируются на примере применения акустических измерений с последующей математической обработкой экспериментальных данных для количественного определения следовых концентраций нефти в промышленных сточных водах в режиме реального времени.
Матрица предикторов X состоит из акустических спектров (преобразованные с помощью быстрого преобразования Фурье) на 1024 частотах; вектор откликов у - это известные стандартные концентрации нефти (0, 2.5, 5, 10, 20, 50, 100, 300 ррш.). С помощью ПЛС метода построена модель, основанная на двух ГК, при этом RMSEC= 0.12, и RMSEP=0.24.
8.2. Исследование калибровочного набора
Сравнение графиков на Рис. 8.1 а) и Ь) показывает, какую новую информацию предоставляет ПИО метод, по сравнению с обычным ПЛС методом. Сравнивая ДСО (Рис. 8.1 а) с графиком влиятельности Рис. 8.1 b видно, что все наиболее влиятельные объекты (NN 37, 38 и 40), а так же объект, имеющий максимальное значения остатка моделирования (N5), являются граничными по ПИО классификации.
• 5 Ь)
0.03 -
ra з
P
4 0.01- 0
C© • 40
0 f 38 , »37
O 0.05 0.1 0.15 0.2 0.25 PLS-Leverage
График влиятельности объектов по у Рис. 8.1 Определение следовых концентраций нефти в воде.
Калибровочный набор, объекты: О- внутренние, • - граничные.
Проверочный набор, объекты: □ - внутренние, В - внешние, А - абсолютно внешние
ПИО классификация позволяет однозначно определять все наиболее влиятельные объекты среди калибровочного набора (Утв.6.8). Концепция граничных объектов имеет смысл не только внутри самого метода ПИО, она объективно характеризует изучаемую структуру данных физического эксперимента.
8.3. Исследование проверочного набора
Важным аспектом ПИО классификации является определение статуса объектов проверочного набора. В проверочном наборе обнаружено 32 внутренних и 8 внешних объектов (Рис. 8.1 а). Внешними объекты могут быть по двум причинам: (!) большая ошибка в измерениях откликов; (2) погрешность моделирования. Прогноз на такие объекты, например Т7, является ненадежным. Объект Т39 является абсолютно внешним. Такие объекты по структуре данных в предикторах отличается от калибровочных объектов. Величина прогнозных интервалов для них всегда больше, чем Д
Таким образом, ПИО метод не только позволяет выявить граничные объекты в калибровочном наборе, но и представляет подробную информацию для индивидуальной классификации объектов проверочного набора.
8.4. Исследование выбросов
Калибровочная модель используется для предсказания откликов новых объектов. Если новый объект плохо согласуется с моделью, результат предсказания будет плохим (большая неопределенность), или даже неверным (предсказанное значение и прогнозный интервал далеки от истинного значения). В работе предлагается новый метод определения выпадающих объектов, основанный на методе ПИО. Этот метод сравнивается с известным методом выпуклых оболочек (Fernandez, 2002).
Для обнаружения выпадающих объектов, предлагается построить в пространстве предикторов область, которая определяет абсолютно внешние объекты (Утв. 6.11). Для каждого объекта x¡ из калибровочного набора вычисляются координаты точек x¡\ образующих границу области по формуле
-1.5
SIC-Leverage
ПИО диаграмма статуса объектов.
хь{ =х12(3{у*{\1)-у (х()). Существенным отличием является то, что метод выпуклых оболочек учитывает только значения предикторов, в то время как метод ПИО принимает во внимание еще и результаты моделирования отклика.
Результаты главы 8. На примере анализа результатов многоканальных акустических измерений, показано, что при объединении метода ПИО с известными методами билинейного моделирования (РГК, ПЛС) появляется новый инструмент для анализа сложных многофакторных данных. Визуализация многоканальных экспериментальных данных помогает проследить имеющиеся физические зависимрсти, оценить качество проведенного эксперимента.
Основой для такой визуализации служит классификация статуса объектов, основанная на следующих правилах.
1. Калибровочные объекты делятся на два класса: граничные, наиболее важные объекты, и внутренние объекты, являющиеся избыточными. (Утв. 6.6-6.7).
2. Проверочные объекты можно разделить (Утв. 6.7-6.10) на два основных класса: внутренние (типичные) и внешние объекты. Среди внешних объектов дополнительно выделяются абсолютно внешние объекты и выбросы.
3. Для новых объектов, имеется правило (Утв. 6.10), выделяющее абсолютно внешние объекты. Это является существенным достижением ПИО метода, так как гарантирует, что, применяя модель для новых измерений, мы не выйдем за область действия модели.
9. Сравнение содержательного и формального подходов к интерпретации кинетических данных на примере анализа данных ДСК эксперимента и длительного термостарения
Традиционно для задач анализа кинетических данных применяется содержательное физико-химическое моделирование, базирующееся на основных кинетических принципах. Оно позволяет получать оценки параметров с высокой точностью, но применимо только тогда, когда модель процесса известна априори. Альтернативой является формальный подход, в котором кинетическая модель явно не используется. При этом экспериментальные данные описываются линейной многофакторной моделью, справедливой в ограниченном диапазоне условий. Использование одного и того же набора данных, позволяет сравнить оба подхода и сделать выводы о том, в каком случае какой подход предпочтительнее.
9.1. Эксперимент. Оценка активности антиоксидантов
Антиоксиданты (АО) - это специальные добавки, которые замедляют термоокислительное старение полимеров. Основной характеристикой эффективности АО является период индукции, измеряемый в процессе длительного термостарения. Альтернативой является подход, использующий метод дифференциальной сканирующей калориметрии (ДСК), с последующей математической обработкой полученных данных. В эксперименте исследовались 25 образцов АО. Были изготовлены пленки полипропилена (ПП) с АО в концентрациях 0.05% , 0.07%, и 0.1%. ДСК измерения проводились в температурном диапазоне от 150°С до 350°С, где наблюдается экзотермический максимум, связанный с окислением полимера. При этом использовались пять различных скоростей нагрева
2, 5, 10, 15, 20 (град/мин). Были получены данные, в которых матрица X состоит из температур начала окисления (ТНО), определенных в ДСЬС эксперименте. Они образуют трех модальный блок. Данные У - это значения периодов индукции (ИП), полученные с помощью длительного термического старения.
9.2. Формальное моделирование
Экспериментальные данные обрабатывались с помощью метода ПЛС - для калибровки, и метода ПИО - для построения прогнозных интервалов. Исходные X данные раскладывались в плоскую матрицу (25 х 15). Для каждой концентрации строилась отдельная модель. Ввиду гетероскедастичности, из значения У извлекался квадратный корень. Результаты приведены в Таб. 9.1, а на Рис. 9.1
Таб. 9.1 Прогноз содержательным (НЛР) и формальным (ПЛС/ПИО) методами
Начальная НЛР (/=1, CI) ПЛС/ПИО (z=2, PI)
концентрация АО 0.05 0.07 0.10 0.05 0.07 0.10
1. ЯМБЕР 0.242 0.246 0.272 0.239 0.251 0.336
2. Смещение 0.087 0.058 0.040 0.011 0.004 0.002
3. Корреляция (у,,у,) 0.953 0.934 0.916 0.953 0.934 0.916
4. Среднее (Х-Х)" 0.224 0.286 0.286 0.286
5. Среднее (ч^) 1.038 1.151 1.397 0.934 1.204 1.476
6. Корреляция («], \у2) 0.202 0.007 0.028 0.202 0.007 0.028
7. Корреляция (у, 0.815 0.846 0.836 -0.184 -0.161 -0.113
9.3. Содержательное моделирование
В этом подходе для каждого АО строится своя кинетическая модель - всего 25 нелинейных регрессионных (НЛР) моделей. Для каждой модели матрица X -это 5 скоростей нагрева х 3 концентрации АО, векторы у - это 3 значения ИП. Процедура калибровки состоит из двух шагов. На первом шаге строится модель, описывающая расход антиоксиданта в ходе ДСК - это калибровка X данных. На втором шаге, строится модель для описания расхода АО в ходе длительного термического старения - калибровка У
1 (Е-ехр
У =
—+ 1п(Л)"
RT, 0
RT - <9Л>
В этой функции участвуют те же кинетические параметры а, Еа, с и Ес, что и в первой модели. Их оценки находятся на первом шаге, а на втором применяется процедура переноса ошибок для того, чтобы оценить неопределенность в прогнозе. В качестве инструмента для вычислений использовалась программа Fitter. Сводные результаты НЛР прогноза приведены в Таб. 9.1 и на Рис. 9.1
9.4. Сравнение методов
Из Таб. 9.1 и Рис. 9.1, можно сделать следующие выводы. Оба метода имеют близкую точность (ряд 1 в Таб. 9.1) и смещение (ряд 2). Неопределенность прогноза становится больше, когда начальная концентрация АО увеличивается. В целом, ПЛС/ПИО метод дает лучшие результаты для малых начальных кон-
центраций АО, а НЛР лучше для больших концентраций. Однако точечные оценки (уя, т= I - это НЛР оценка, т~2 - это ПЛС/ПИО оценка) в среднем близки (см. ряд 3).
образцы АО
Рис. 9.1. Результаты прогноза ИП для различных образцов АО с начальной концентрацией 0.05. Точки (•) и серые прямоугольники представляют содержательное (НЛР) предсказание. Квадраты (□) и черные прямоугольники изображают формальное (ПЛС/ПИО) моделирование. Точки (о) соответствуют измеренным значениям с вертикальными отрезками, которые показывают погрешность измерения (калибровки) /?. Из всех величин извлечен квадратный корень
Оба метода хорошо моделируют значения X, но содержательный метод (НЛР) делает это немного лучше (ряд 4). Видно (ряд 5), что ширина прогнозных интервалов растет с начальной концентрацией АО. Это следует из формулы для содержательной модели (9.1), представляющую зависимость ИП от начальной концентрации АО. В тоже время, в формальной ПЛС/ПИО модели это никак нельзя было предвидеть. По-видимому, этот факт является фундаментальным свойством исследуемой полимерной системы, а именно, чем больше добавлено АО в образец, тем хуже мы можем предсказать его период индукции. Важно, что и содержательный, и формальный методы в этом смысле дают сходные результаты. Интервальные оценки близки в среднем (ряд 5), хотя доверительные интервалы (и^) могут сильно отличаться от прогнозных интервалов (уу2) для отдельных объектов (см. ряд 6 и Рис. 9.1). Последний ряд Таб. 9.1 показывает, что ширина \У] растет с увеличением значения периода индукции для всех начальных концентраций АО, тогда как ширина \у2 не зависит от у. Это свидетельствует о том, что преобразование откликов, действительно дало ожидаемый эффект в ПЛС/ПИО моделировании, но не смогло исправить результаты НЛР моделирования.
Для любого метода важно ограничить область его применимости. Содержательное моделирование (НЛР) может использоваться для предсказания ИП для различных концентраций АО и при разных температурах экспозиции. Однако мы не можем указать границы допустимой экстраполяции. При формальном моделировании экстраполяция исключается, а область применимости модели дает ДСО (Рис. 9.2). Все объекты, расположенные внутри треугольника (АО-20, 21,..., 24) - внутренние, прогноз на них надежен. Объекты АО-19 и АО-25 внешние. Они не противоречат модели, но прогноз на них менее надежен. Тому могут быть две причины: большой размах (АО-25) и смещение (АО-19).
Результаты главы 9. Продемонстрированы два подхода к решению одной и той же задачи - проверки активности АО. Предлагается заменить длительное термостарение на быстрые измерения с помощью ДСК. Отмечено принципиальное различие между областями применимости математических моделей и различная тактика планирования эксперимента. Показано, что в случае, когда целью исследования является предсказание поведения некоторой полимерной системы, содержательный подход предпочтителен. В случае, когда исследователь желает сравнить активность различных АО, формальная модель лучше отвечает такой постановке.
10. Применение метода ПИО к задачам классификации на примере распознавания фальсифицированных лекарств с помощью ИК-спектроскопии в ближней области
Многомерный подход эффективно используется в задачах классификации. В этой главе проводится сравнение известных методов: МГК и БШСА и нового подхода, объединяющего известный метод ПЛС дискриминации (М. Б^йот, 1986) с методом ПИО. Сравнение проводится на примере распознавания фальшивых лекарственных средств с помощью БИК-спектроскопии.
10.1. Комбинированный метод: ПЛС дискриминация и метод ПИО
Для разделения объектов на Q различных классов используется калибровочный набор, включающий объекты из всех 0 классов. В качестве предикторов используется X (1x1) - матрица признаков (например, БИК-спектры). В качестве откликов У вводится матрица искусственных переменных, т.н. матрица принадлежности классу. Число столбцов в У равно числу классов Q. Для всех объектов из класса д (д=1,..., О), уч равно 1, а для остальных -1. Затем строится ПЛС2 модель, и для нового объекта вычисляется прогноз, по которому определяют при-
надлежность объекта к классу. Предлагается дополнить метод ПЛС дискриминации методом ПИО. Для калибровочного набора ПИО метод позволяет очертить границы классов, а для новых объектов - оценить их близость к классу.
10.2. Эксперимент 1. Исследование таблеток - БИК спектры диффузного рассеяния
Исследовались образцы пищеварительного фермента в виде таблеток, всего 75 объектов: 11 серий подлинных (G1 - G11) и 4 серии фальсифицированных таблеток (Fl - F4), по 5 таблеток в серии. В качестве матрицы X использовались БИК спектры диффузного рассеяния R(Á) на участке 4000-7500 см"1. (1750 волновых чисел), преобразованные как -log/f. МГК и SIMCA не дают надежного разделения на классы. Для того чтобы повысить надежность, основное внимание при моделировании должно уделяться различию между классами, а не индивидуальным особенностям объектов внутри класса.
Для этого использовался метод ПЛС дискриминации совместно с ПИО методом. Калибровочный набор формировался как из подлинных (G1-G3, по 5 таблеток), так и из фальшивых (Fl, F2 по 4 таблетки) образцов. Построенная модель, надежно различает фальшивые и настоящие таблетки, а так же дает дополнительную информацию о различных сериях образцов. Результаты предсказания на проверочном наборе представлены на Рис. 10.1. Образцы серий G надежно распознаются как подлинные, а серий F - как фальшивые.
Рис. 10.1 БИК-спектроскопия, определение фальсифицированных лекарств (таблетки), проверочный набор. ПЛС модель с 2 ГК, ¿„¡„=0.23 и 651с=0.46. Черный интервал -ПИО калибровка, серый - ПИО предсказанный , (о) - опорные значения, (•) -ПЛС предсказанные значения
Для образцов серии Р4 можно заключить следующее: (1) их нельзя отнести к классу подлинных образцов; (2) они существенно отличаются от серий Р1-Г3. Для фальсифицированных образцов характерен больший разброс внутри серии, а также между сериями, по сравнению с подлинными образцами.
10.3. Эксперимент 2. Исследование ампул - БИК спектры пропускания
Исследовался глюкокортикостеройдный препарат в ампулах с 4% водным раствором активного вещества; две серии подлинных образцов, 01 и 02, и одна
серия поддельных, F1, по 15 ампул в каждой серии. Измерялись БИК спектры пропускания, ампулы не вскрывались. Использовались две спектральные области: 5500 - 6400 см"1 и 7200 - 9000 см"1, всего 702 волновых числа. Так же, как и в предыдущем примере, результаты применения МГК и SIMCA не дают надежного разделения на классы, часть образцов подлинных лекарств из проверочного набора классифицируется как не входящие в этот класс.
ПИО моделирование показывает, что величина интервала калибровки достаточно велика, т.е. построенная модель несет в себе существенную неопределенность. Сходными являются и результаты распознавания для проверочного набора.
Результаты главы 10. Математическая обработка результатов БИК-спектроскопии позволяет разработать быструю и не требующую специальной пробоподготовки процедуру распознавания фальшивых лекарств.
Проведено сравнение различных методов классификации. Показано, что точечных оценок, получаемых методом ПЛС дискриминации, не достаточно для надежного разделения классов и распознавания новых объектов, т.к. понятие "близости" к классу должно иметь численное выражение. Дополнение ПЛС дискриминации методом ПИО дает следующие преимущества: (1) интервал калибровки позволяет очертить точную границу каждого класса; (2) интервал предсказания позволяет численно охарактеризовать близость объекта к тому или иному классу; (3) ПИО классификация статуса объектов позволяет охарактеризовать однородность объектов внутри класса, а так же выявить группы объектов с особыми свойствами, отличающими их от объектов предопределенных классов.
11. Методы анализа процессов
Современный многомерный контроль процессов заслуживает особого внимания, поскольку в нем наиболее ярко проявились тенденции и перспективы развития общего подхода, объединяющего физико-химические эксперименты, проводимые в режиме реального времени, с математическими методами многомерного анализа данных. Для осуществления многомерного статистического контроля процессов - МСКП (MacGregor, 1995), собирается информация об изучаемом процессе: инструментальные показатели X и выходные переменные, Y. На основе набора (X, Y) строится линейная модель калибровки, с помощью которой проверяется, находится ли процесс внутри допустимых границ. Эта глава посвящена расширению метода МСКП. Предлагается подход, определяющий действия по оптимизации процесса в режиме in-line, названный многомерной статистической оптимизацией процессов (МСОП). Для его реализации используется сочетание ПЛС регрессии и метода ПИО.
11.1. Описание исследуемого процесса
Теоретические разработки иллюстрируются примером многостадийного технологического процесса, представленного 25 инструментальными переменными X (J= 25), и одной выходной переменной у, характеризующей "качество" результата. Данные (X, у), состоят из /= 154 объектов (наблюдений). Весь процесс разделен на 7 стадий (L=7), каждую из которых можно описать входными,
текущими и выходными переменными. Набор данных (X, у) разделен (по столбцам) на Ь блоков, соответствующих стадиям процесса: Х=(Х|, Хц,..., Х^). Последний блок 1+1 состоит из переменной У=у. Данные преобразованы так, что каждая переменная, включая у, изменяется в интервале (-1, +1). Значения вне этого интервала считаются недопустимыми. Предполагается, что наивысшее качество характеризуется у=+1, а наихудшее соответствует у=-1. Данные также разделены на калибровочный набор (102 объекта), и проверочный набор (52 объекта).
11.2. Контроль процесса
Исследуется пассивная оптимизация новым методом расширяющегося МСКП, опирающимся на мульти-блоковую регрессию (А. НбзкиШзБОп, 2001).
1.0
0.5
ё 0.0
3
О -0.5
-1.0
I I
Sample 52 | |
I I
I I
I I
trt.b ¥
I I I I I I I I I I I I I I I -1-и
I» «¿S «I 1
0} т в . Ц. ' да Ф
Ш «* ** 7
, I III I
I I II I III I IV I V I VI I VII |
= C4MV «iOs.
ггЗЗи ssuoo
Process variables
Рис. 11.1 Предсказание показателя «качество» на каждой стадии процесса для объекта из проверочного набора, ПИО интервал (серый прямоугольник), ПЛС прогноз (черные кружки).
Ромб в правой части - измеренное значение^.
Используя весь набор данных, можно построить полную ПЛС модель
XY: X => у, (11.1)
в которой задействовано К главных компонент. На тех же данных можно построить серию из L-1 ПЛС регрессионных моделей
XYi: X(i) =>j, XYurXmrv, ...., ХУЫ: X(L.„ =>у. (11.2) Здесь каждая модель обозначается оператором ХУм, который представляет регрессию Х-блока, Х(М), на Y-блок, у. Все модели (11.2) используют одно и то же число ГК, которое выбирается при анализе полной модели (11.1).
Целью моделирования является предсказание выходной переменной у на каждой (М-ой) стадии процесса. Для оценки неопределенности применяется метод ПИО. Результат расширяющегося МСКП приведен на Рис. 11.1.
11.3. Оптимизация процесса
Рассматривается задача выбора значений инструментальных переменных по ходу процесса: определение переменных Х,М), которые являются входными для следующей (М-ой) стадии процесса. При этом необходимо придерживаться двух основных принципов. Новые величины переменных, во-первых, должны повышать значение у; и, во-вторых, значения этих переменных должны находиться внутри допустимых контролируемых границ. Предлагаемый подход базируется на концепции статуса объектов метода ПИО.
В общем случае рассматриваются два блока инструментальных переменных
- X и Z, и соответствующий им вектор у. Целью является предсказания величины у для набора переменных (х, г), в котором значения х известны, а г неизвестны. Требуется найти такие значения г, которые будут оптимизировать^, при условии, что геЬ7 - области допустимых значений г.
М = 0.24
М = -0.10 0.38
■1.0
М = 0.55 Б = 0.35
Рис. 11.2 Распределение объектов по переменной у. а) Контрольный набор (до оптимизации), Ь) Оптимизация, тип «внутренний» - 01(1), с) Оптимизация, тип «внешний» - С2(г), с1) Оптимизация, тип «выбросы» - ОЗ(г) Вычисление оптимальных значений г происходит в два этапа. На первом этапе, с использованием исторических данных (X, Т), строится ПЛС2 калибровка, и оцениваются значения г = ХХ(х). По построению, г является допустимым решением (принадлежит области Ьг). Вторым этапом является изменение каждого компонента вектора г до тех пор, пока новый вектор г остается в пределах области Ьг. Это действие можно представить с помощью оператора в: 0(£) = г",
который определяет стратегию оптимизации. ПИО классификации статуса объектов дает инструмент, с помощью которого можно выбрать различные стратегии оптимизации. На Рис. 11.2 представлены результаты применения трех различных стратегий к набору из 52 объектов процесса.
Результаты главы 11. Разработан новый метод многомерного контроля процессов, расширяющийся МСКП, основанный на построении серии ПЛС моделей, совместно с ПИО моделированием. ПЛС модели на каждой стадии процесса предсказывают точечные оценки выходного параметра, а ПИО метод добавляет к этой оценке интервал предсказания. Такой подход помогает осуществить пассивную оптимизацию.
Разработан новый метод многомерной оптимизации процессов, который основывается на блочном ПЛС и ПИО методе. Показано, что для улучшения выходного показателя у необходимы такие корректирующие действия, которые, с одной стороны, остаются в рамках изучаемого процесса, а, с другой, требуют вывода значений контролируемых переменных на границы возможных значе-
ний. Предложенный подход включает регулирование контролируемых инструментальных переменных на промежуточных стадиях, и предлагает набор стратегий.
12. Формирование представительной выборки объектов применительно к различным наборам многоканальных экспериментов
При решении задачи переноса калибровок с одного прибора на другой, при работе с большими наборами данных физических экспериментов, и в других случая, возникает потребность выбрать из общего набора (Х,У), короткий, но представительный набор. Этот набор должен отвечать двум требованиям: во-первых, он должен представлять вариабельность полного набора данных; во-вторых, число объектов в новой выборке должно быть существенно меньше, чем в исходной.
12.1. Теория
В этой главе рассматривается применение ПИО для формирования представительной выборки - метод граничных объектов. Проводится сравнение результатов с двумя наиболее известными методами отбора: методом Кеннарда-Стоуна и Б-оптимальным планированием.
Метод граничных объектов. В соответствии с методом ПИО, все калибровочные объекты являются внутренними (Опр. 6.1). Среди них выделяются граничные объекты (Опр. 6.2), которые формируют ОДЗ А. Поэтому набор граничных объектов составляет представительную выборку.
Метод Кеннарда-Стоуна осуществляет выбор объектов «равномерно» по всей области. В нем рассматривается только матрица X, значения у не учитываются. К достоинствам алгоритма надо отнести: (1) простоту реализации; (2) алгоритм может применяться к любой матрице X, независимо от ее ранга.
О-оптимальный план выбирает объекты так, чтобы максимизировать определитель информационной матрицы регрессии. Если число переменных в X превышает число объектов, Б-оптимальную процедуру можно применять только после регуляризации задачи.
Обозначения и схема исследования. Эффективность приведенных методов исследуется на трех различных наборах многоканальных экспериментальных данных. Для этого используется несколько показателей: КМБЕС, ЯМБЕР, ПИО остатки (6.1) и ПЛС остатки для У-переменных = у~у\ ПИО размах (6.2) и ПЛС размах (3.4). Применяется одна и та же схема построения моделей (12.1)
1. Строится ПЛС модель, Модель_(3> на основе набора, с фиксированным числом ГК, и соответствующая ПИО модель, с фиксированным значением Ь%¡с. Здесь О - это В, или К, или Б.
2. Модель_<3 проверяется с помощью проверочного Т набора.
3. Модель_С используется для предсказания объектов из избыточного набора 11(3-
4. Результаты калибровки и предсказания сравниваются с результатами, полученными для Модели_С.
и способы выбора и проверки поднаборов (Рис. 12.1).
12.2. Эксперименты
Для сравнения различных методов анализируются следующие экспериментальные данные. Первый - это БИК спектры, используемые для определения содержания влаги в зернах пшеницы для 139 объектов. Спектры пропускания -lgТ(Л) - были получены в диапазоне 908-1120 пш (118 длин волн). Второй пример - это определение следовых концентраций нефти в воде (раздел 8.1), третий пример - данные по многомерному контролю процесса (раздел 11.1).
12.3. Сравнение репрезентативности различных выборок
Для того чтобы сравнить подход, основанный на граничных объектах с уже известными методами, подробно изучался первый пример. Для этого, 10 раз повторялась следующая процедура. .
1. Набор исходных данных (G набор, 1а= 139) случайным образом делится на калибровочный (С набор, /с= 99) и проверочный (Т набор, 1Т= 40).
2. Для каждой такой пары С и Т наборов строится ПЛС модель с 4 ГК, и соответствующая ей ПИО модель с ASic=1-5 (Модель_С).
3. Для каждого С-набора вычисляются свои B-, К-, и D-наборы и к ним применяется процедура (12.1).
Результаты моделирования (Таб. 12.1) подтверждают эффективность ПИО подхода. Применение метода граничных объектов к двум другим примерам приводит к аналогичным результатам.
Рис. 12.1 Исследуемые наборы и соответствующие им модели
Показано, что предположение о граничных объектах, как наиболее влия-
тельных, подтверждается еще и тем фактом, что предсказание "избыточных" объектов, составленный из всех внутренних объектов калибровочного набора, осуществляется с наименьшей ошибкой предсказания, а все "избыточные" объекты классифицируются как внутренние.
Таб. 12.1 БИК-спектроскопия, определение влажности зерна ПЛС модели с 4 ГК. Средние
значения по 10 калибровочным/проверочным наборам
# /в Модель_С Модель _В Модель _К Модель _D
RMSEC RMSEP RMSEC RMSEP RMSEC RMSEP RMSEC RMSEP
Среднее 0.287 0.293 0.442 0.308 0.248 0.314 0.251 0.322
12.4. Зависимость точности предсказания от объема выборки
В некоторых случаях объем представительной выборки, определенной по методу граничных объектов, может показаться излишне большим. Так, например, для третьего набора данных, представляющих результаты многомерного контроля процессов, он составил 45% (46 из 102 объектов). Поэтому важно исследовать, как влияет объем выборки на предсказательные свойства модели. Согласно методу ПИО, минимальное число граничных объектов определяется при /}= èmin- В рассматриваемом примере этот набор состоит из 8 объектов(/в>8). Последовательно увеличивая Ъ с b= bmw до Ь= Ь$ю получаем расширяющийся В набор.
Параллельно, для сравнения, применяя метод Кеннарда-Стоуна и D оптимальное планирование, выбираются К - и D наборы, с таким же числом объектов. Для каждого из этих наборов строится ПЛС модель с 7 ГК, вычисляются значения RMSEC, а также значения RMSEP на одном и том же проверочном наборе Т.
Рис. 12.2. Многомерный контроль процесса. ПЛС модели с 7 ГК. Зависимость ЯМБЕ от объема выборки 1 - Модель_В, 2 - Модель _К, 3 - Модель 4 - Модель_С
Величины RMSEC и КМЗЕР можно рассматривать как функции, зависящие от объема выборки (Рис. 12.2), которые вычисляются для трех моделей (Мо-
дель_В, Модель_К, Модель_0). Из Рис. 12.2Ь, кривая 1, видно, что для В наборов функция ЛМ5£Р(/в) убывает быстрее, чем для наборов К и Б, и стремится к предельному значению, КМ5ЕР(1С). При этом отклонение в калибровке (Рис. 12.2а, кривая 1) ЯМБЕС(1ц) остается наибольшим по сравнению с аналогичными значениями, вычисленными для наборов К и О, т.е. В-набор аккумулирует в себе наиболее влиятельные калибровочные объекты.
Из Рис. 12.2 Ь также видно, что для формирования представительного короткого набора необходимо не менее 42 объектов. Это подтверждает, что объем выборки, предлагаемый методом ПИО близок к оптимальному.
Результаты главы 12. В этой главе подробно рассмотрен новый метод формирования представительной выборки. Метод граничных объектов основывается на методе ПИО (теория классификации статуса объектов), объединенным с проекционными методами (РГК,. ПЛС). Показано, что стратегия выбора граничных объектов является объективной, т.е. не требует никакой дополнительной информации. Метод граничных объектов имеет следующие преимущества. Во-первых, он однозначно определяет необходимое число объектов в представительной выборке. Во-вторых, при отборе объектов, учитывается информация, как о значениях приборных Х- переменных, так и У- переменных.
Три исследованных набора многоканальных данных были порождены различными практическими задачами, они отличаются друг от друга, как по внутреннему устройству, так и по сложности построенных ПЛС моделей. Это доказывает эффективность метода для анализа различных физических экспериментов.
Основные теоретические и прикладные результаты работы
В работе рассмотрены теоретические, алгоритмические и методологические аспекты метода простого интервального оценивания (ПИО) в применении к обработке больших массивов данных многоканальных экспериментов. Обобщая полученные результаты, можно сформулировать следующие выводы:
1. Объединение проекционных регрессионных методов с методом простого интервального оценивания порождает мощный инструмент для решения задач многомерной калибровки. Такой подход позволяет обрабатывать большие наборы данных физических экспериментов, пронизанных внутренними связями, разделять полезную информацию и шум, представлять результат прогноза в интервальной форме, учитывающей неопределенность в прогнозе индивидуально для каждого объекта/измерения.
2. Предположение об ограниченности погрешностей, лежащее в основе метода ПИО, является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно более обоснованно, чем традиционное допущение о нормальности, и, следовательно, неограниченности погрешностей.
3. Приведены аргументы в пользу того, что ПИО-оценки, построенные на основе экстремальных статистик, являются более эффективными, чем традиционные гладкие оценки.
4. На основе метода ПИО разработан новый подход к классификации статусов
объектов и интерпретации прогнозных интервалов. Введены новые понятия: ПИО-остаток и ПИО-размах, диаграмма статуса объектов (ДСО). Даны определения понятиям внутренние, внешние, граничные объекты. Дано определение выбросов и абсолютно внешних объектов. Показано, что разработанная классификация имеет практическое значение и в рамках классических регрессионных моделей. Диаграмма статусов объектов является удобным инструментом для визуального анализа сложных сигналов. Эффективность предложенного подхода продемонстрирована на ряде примеров, в том числе, на примере многоканальных акустических измерений для определения следовых концентраций нефти в воде.
5. Разработаны новые методы статистического контроля процессов. Метод, названный расширяющимся многомерном статистическим контролем, основан на построении серии ПЛС моделей, совместно с ПИО моделированием. Он позволяет вычислять как точечные, так и интервальные оценки выходного параметра на промежуточных стадиях процесса. Предложен метод активной оптимизации, разработаны различные стратегии оптимизации.
6. Предложен новый метод выбора представительных (влиятельных) объектов из экспериментального набора данных, названный методом граничных объеектов, который может применяться как для переноса калибровочных моделей с одного прибора на другой, так и для эффективного уменьшения объема калибровочного набора. На примере обработки результатов БИК-спектроскопии зерна показана эффективность формирования представительной выборки.
7. Проведено сравнение формального (ПИО) и содержательного (нелинейная регрессия) моделирования. Показано, что содержательный подход позволяет проводить экстраполяцию, однако не ограничивает ее область. Формальный метод имеет строгую область применимости, определенную с помощью диаграммы статуса объектов. Показана практическая значимость построенных моделей, позволяющих заменить длительное термостарение быстрым экспериментом с помощью дифференциальной сканирующей калориметрии.
8. Показано, что дополнение стандартного метода ПЛС дискриминации методом ПИО повышает информативность при решении задач классификации. Предложена методика экспресс-распознавания фальсифицированных лекарств на основе БИК-спектроскопии.
9. Компьютерная программа SIC позволяет на практике применить предложенную методику, объединяющую проекционные регрессионные методы и ПИО моделирование. С ее помощью можно проводить обработку наборов многоканальных сигналов, оценивать точность калибровки, проводить классификацию объектов.
Основное содержание диссертации опубликовано в работах:
1. Павлов Б.В., Родионова O.E. Математическое моделирование сложных самоускоряющихся реакций. Теор. основы хим. технологии, 28, 251-258 (1994).
2. Павлов Б.В., Родионова O.E. Численное решение систем линейных обыкно-
венных дифференциальных уравнений с постоянными коэффициентами. Ж. вычисл матем. иматем. физ., 34, 622-627 (1994).
3. Павлов Б.В., Родионова О.Е. Методика усреднения при дискретизации кинетического интегро-дифференциального уравнения. Ж. вычисл. матем. и матем. физ., 36, 143-161 (1996).
4. Павлов Б.В., Родионова О.Е. Проблемы математического моделирования в неравновесной теории химических процессов. Хим. физ., 17, 27-40 (1998).
5. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Prediction of the aging of polymer materials. Chemom. Intell. Lab. Syst. , 47, 175-179 (1999).
6. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Evolutionary Design of Experiment for Accelerated Aging Tests. Polymer Testing, 19, 221-229 (1999).
7. Pomerantsev A.L., Rodionova O.Ye. Chemometrics in Russia. Chemom. Intel!. Lab. Syst, 48, 121-129 (1999).
8. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Nonlinear Regression Analysis: New Approach to Traditional Implementations. J. Chemometrics, 14, 667-692 (2000).
9. Зобов B.E., Лундин А.А., Родионова О.Е. К теории формы спектров ядерного магнитного резонанса в гетероядерных спиновых системах. Хгш.физ. 19 (2), 39-43, (2000).
10. Зобов В.Е., Лундин А.А., Родионова О.Е. К теории форм спектров ЯМР в спиновых системах с двумя сортами яде. Хим. физ., 19 (12), 26-40 (2000).
11. Зобов В.Е., Лундин А.А., Родионова О.Е. О форме спектров поглощения ЯМР и кросс релаксации в гетероядерных спиновых системах. ЖЭТФ, 120, 619-636(2001).
12. Померанцев А.Л., Кротов А.С., Родионова О.Е. Компьютерная система FITTER для регрессионного анализа экспериментальных данных, Учебное пособие, Барнаул, Из -во АГУ, 2001.
13. Померанцев А.Л., Родионова О.Е. Надстройка FITTER (FITTER). Свидетельство об официальной регистрации Ns 2002611562 от 11.09.02.
14. Pomerantsev A.L., Rodionova O.Ye. Prediction of Antioxidants Activity Using DSC Measurements. A Feasibility Study. In Aging of polymers, polymer blends and polymer composites, Eds: .E. Zaikov, A.L. Buchachenko and V.B. Ivanov, 2, 19-29, Nova science Publishers, NY, 2002 (ISBN 1-59033-256-3).
15. Родионова O.E., Померанцев А.Л. Об одном методе решения обратной кинетической задачи по спектральным данным при неизвестных спектрах компонент. Кинетика и катализ, 45, 485-497 (2004).
16. Rodionova O.Ye., Pomerantsev A.L. Prediction of Rubber Stability by Accelerated Aging Test Modeling. In Leading Edge Research on Polymers and Composites, Eds: Monakov et al, cc. 105-124, Nova science Publishers, NY 2004, (ISBN: 1-59033-975-4).
17. Rodionova O. Ye., Esbensen К. H., Pomerantsev A.L. Application of SIC (Simple Interval Calculation) for object status classification and outlier detection -comparison with PLS/PCR. J. Chemometrics, 18,402-413 (2004).
18. Rodionova О.Ye., Pomerantsev A.L. Principles of Simple Interval Calculations. In: Progress In Chemometrics Research, Ed.: A.L. Pomerantsev, 43-64, NovaS-cience Publishers, NY, 2005, (ISBN: 1-59454-257-0.)
19. Pomerantsev A.L., Rodionova O.Ye. Multivariate Statistical Process Control and Optimization. Талt же, 209-227.
20. Semenchenko A.S., Semenchenko S.M., Rodionova O.Ye., Pomerantsev A.L. Explanatory data analysis of fish culture in Siberian lakes. Там же, 313-321.
21. Rodionova O.Ye., Pomerantsev A.L. Prediction of Rubber Stability by Accelerated Aging Test Modeling. JAppl Polym Sci, 95,1275-1284 (2005).
22. Померанцев А.Л., Родионова O.E. Содержательный и формальный подход к анализу кинетических данных. В сб. Химическая и биологическая кинетика. Новые горизонты. М. Химия, 1, 124-172, 2005 (ISBN: 5-98109-035-9).
23. Родионова О.Е., Померанцев А.Л. Оценивание параметров в уравнении Ар-рениуса. Кинетика и катализ, 46,329-332 (2005).
24. Pomerantsev A.L., Rodionova O.Ye. Hard and soft approaches to analysis of kinetic data. In: Chemical and Biochemical kinetics. New horizons, Eds, E.B. Bur-lakova, A.E. Shilov, S.D. Varfolomeev, G.E. Zaikov, Brill Academic Publishers, Leiden-Boston, 1, 80-107,2005.
25. Rodionova O.Ye., Hounwller L.P., Pomerantsev A.L., Geladi P., Burger J., Doro-feyev V.L, Arzamastsev A.P. N1R spectrometry for counterfeit drug detection. Anal Chim. Acta, 549, 151-158 (2005).
26. Pomerantsev A.L., Rodionova O.Ye. Hard and soft methods for prediction of antioxidants' activity based on the DSC measurements. Chemom. Intel!. Lab. Syst., 79,73-83 (2005).
27. Pomerantsev A.L., Rodionova O.Ye., Hoskuldsson A. Process Control and Optimization with Simple Interval Calculation Method. Chemom. Intell. Lab. Syst., 81, 165-179 (2006).
28. Родионова O.E. Хемометрический подход к исследованию больших массивов химических данных. Рос. хгш. ж. (Ж. Рос. хим. об-ва им. Д.И. Менделеева), 50, 128-144(2006).
29. Померанцев А.Л., Родионова О.Е. О двух подходах к анализу кинетических данных на примере предсказания активности антиоксидантов. Кинетика и катализ, 47, 553-565 (2006).
30. Померанцев А,Л., Родионова О.Е. Построение многомерной градуировки методом простого интервального оценивания. Ж. аналит. химии, 61, 1032-1047(2006).
31. Родионова О.Е., Померанцев А.Л. Хемометрика: достижения и перспективы. Успехи химии, 75, 302-317 (2006).
32. MikhailovE.V., Tupicina O.V., D.E. Bykov, Chertes K.L., Rodionova O.Ye., Pomerantsev A.L. Ecological assessment of landfills with multivariate analysis — A feasibility study. Chemom. Intell. Lab.Syst., 88 (1), 3-10 (2007)
33. Hoskuldsson A., Rodionova O. Ye., Pomerantsev A.L. Path modeling and process control. Chemom. Intell. Lab.Syst., 88, 84-99 (2007).
Отпечатано на ризографе в ОНТИ ГЕОХИ РАН Тираж 100 экз.
Оглавление
Введение
Многомерные данные и формальные модели
1. Модели, используемые при обработке экспериментальных результатов
1.1. Экспериментальные данные и информация
1.2. Модели и методы
1.3. Подготовка данных и обработка сигналов
1.4. Результат главы
2. Методы качественного анализа: исследование, классификация и дискриминация
2.1. Метод главных компонент
2.2. Классификация и дискриминация
2.3. Трехмодальные методы
2.4. Результаты главы
3. Методы количественного анализа: калибровка
3.1. Линейная калибровка
3.2. Многомодальная регрессия
3.3. Нелинейная калибровка
3.4. Результаты главы 3.
Метод простого интервального оценивания
4. Объяснение ПИО метода
4.1. Почему погрешности ограничены
4.2. Модельный пример
4.3. Сходимость интервальных оценок
4.4. Результат главы
5. Описание метода ПИО
5.1. Область допустимых значений
5.2. Свойства ОДЗ
5.3. Предсказание отклика
5.4. Оценка р
5.5. Результат главы 5.
6. Классификация статуса объектов
6.1. Характеристики статуса объектов
6.2. Диаграмма статуса объектов (ДСО)
6.3. Классификация объектов. Одномерный модельный пример
6.4. Классификация новых объектов
6.5. Результаты главы
7. Программная реализация ПИО метода
7.1. Задача линейного программирования. Основные понятия.
7.2. ПИО метод как задача линейного программирования
7.3. Основные свойства, возможности, требования и ограничения программы SIC
7.4. Входная информация для программы SIC
7.5. Результаты работы программы SIC
7.6. Автоматизация работы с программой SIC
7.7. Функции рабочего листа программы SIC
7.8. Результаты главы
Теоретические и практические аспекты применения метода простого интервального оценивания
8. Применение проекционных методов совместно с методом ПИО на примере анализа многоканальных акустических измерений. Наглядное представление многофакторных данных
8.1. Эксперимент. Измерение следовых концентраций нефти в воде с помощью акустических измерений
8.2. Исследование калибровочного набора
8.3. Исследование проверочного набора
8.4. Исследование выбросов
8.5. Результаты главы
9. Сравнение содержательного и формального подхода к интерпретации кинетических данных на примере анализа данных ДСК эксперимента и длительного термостарения
9.1. Оценка активности антиоксидантов
9.2. Эксперимент
9.3. Формальное моделирование
9.4. Содержательное моделирование
9.5. Сравнение методов
9.6. Результаты главы
10. Применение метода ПИО к задачам классификации на примере распознавания фальшивых лекарств с помощью ИК-спектроскопии в ближней области
10.1. Распознавание фальсифицированных лекарств с помощью инфракрасной спектроскопии в ближней области
10.2. Комбинированный метод: ПЛС дискриминация и метод ПИО
10.3. Эксперимент 1. Исследование таблеток. БИК спектры диффузного рассеяния
10.4. Математическая обработка результатов эксперимента
10.5. Эксперимент 2. Исследование ампул - БИК спектры пропускания
10.6. Математическая обработка результатов эксперимента.
10.7. Результаты главы
11. Методы анализа процессов
11.1. Описание многостадийного процесса
11.2. Контроль процесса. Теория
11.3. Контроль процесса. Пример применения
11.4. Оптимизация процесса. Теория •
11.5. Оптимизация процесса. Пример применения
11.6. Результаты главы
12. Формирование представительной выборки объектов применительно к различным наборам многоканальных экспериментов
12.1. Теория
12.2. Эксперимент 1. Определение влажности зерна с помощью инфракрасной спектроскопии в ближней области. ■
12.3. Анализ данных на основе калибровочного и проверочного наборов - Модель С
12.4. Граничная выборка, Модель В
12.5. Сравнение репрезентативности различных выборок
12.6. Различные калибровочные наборы
12.7. Эксперимент 2. Определение следовых концентраций нефти в воде
12.8. Эксперимент 3. Аналитический контроль процесса
12.9. Результаты главы
Работа посвящена разработке нового подхода, объединяющего современные проекционные методы и метод простого интервального оценивания, применяемого при решении важных теоретических и практических задач интерпретации результатов многоканальных экспериментов. Показано, что подобный подход позволяет обрабатывать сложные наборы экспериментальных данных, пронизанных внутренними связями.
Описание экспериментальных данных, построение модели и предсказание новых значений - это одна из старейших, но вечно актуальных задач, которая активно применяется при исследовании различных физических и химических явлений. Традиционно, математические модели строились так, чтобы в математической форме выразить те или иные законы химии и физики. Однако, с совершенствованием и усложнением эксперимента, появилась необходимость анализа очень больших массивов данных. В то же время всегда существовала необходимость моделирования, хотя бы в ограниченной области, таких процессов и зависимостей которые не поддаются содержательному математическому описанию из-за сложности происходящих процессов или их неизученности. Это привело к потребности применения формальных методов моделирования и породило новую область, называемую хемометрикой. Она появилась осенью 1974 года, в городе Сиэтле, США [1]. У ее истоков стояли два человека: американец Брюс Ковальски (В. Kowalski) и швед Сванте Волд (S. Wold) - внук Сванте Аррениуса (S. Arrhenius). Как это часто бывает с подобными дисциплинами, хемометрика до сих пор не имеет общепризнанного определения. Наиболее популярное определение принадлежит Д. Массарту (D. Massart), [2] который считал, что хемометрика - это дисциплина, применяющая математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных. С таким определением согласятся, наверное, многие практики. Однако область науки должна определятся не через методы и инструменты, которые она использует, а через цели и задачи, которые она преследует. Разумеется, задача извлечения информации из накопленных данных по-прежнему остается крайне важной, как с практической, так и с теоретической точки зрения, однако сейчас становится очевидным, что не менее важной является и задача конструирования таких экспериментов, которые могут предоставить данные, в которых содержится нужная информация. Эти два разнозначных аспекта -извлечение информации из данных и получение данных с нужной информацией - нашли свое отражение в современном определении хемометрики, данном С. Волдом [3]. Хемометрика решает следующие задачи: как получить физически/химически важную информацию из экспериментальных данных, как организовать и представить эту информацию, и как получить данные, содержащую такую информацию.
То, что формальные методы многомерного анализа больших массивов экспериментальных данных, или хемометрика, родилась и начала бурно развиваться именно в начале 70-х годов, явно связано с появлением в то же время быстродействующей вычислительной техники, которая стала повсеместно доступна ученым и инженерам. Это позволило практически воплотить многие сложные алгоритмы обработки данных, в особенности методы анализа мпогооткликовых и многофакторных экспериментов. В свою очередь, это побудило производителей приборов разрабатывать более сложное оборудование, способное производить многократно большее количество измерений. Однако вскоре оказалось, что большее количество данных еще пе означает большее количество информации, необходимой исследователю. Это подвигло их активно применять математические методы для извлечения такой информации и для подтверждения того, что сделанные при этом выводы достоверны. В результате такого взаимодействия был достигнут первый несомненный успех. Оказалось, что очень часто традиционные аналитические методы, требующие больших затрат труда, времени, уникального оборудования, дорогих реактивов, могут быть заменены на косвенные методы, которые гораздо быстрее и дешевле. Наиболее ярко эта тенденция проявилась при использовании инфракрасной (ИК) спектроскопии, особенно в ближней области (БИК), прежде считавшейся малополезной из-за высокого и трудно устранимого шума, обусловленного интенсивным поглощением воды и эффектом рассеяния в спектрах отражения [4]. Первые работы по хемометрике были посвящены методам анализа спектроскопических данных [5-7], построению для них калибровочных моделей с помощью метода главных компонент [8] и метода проекций на латентные структуры [9].
Говоря об истории развития методов многомерного анализа данных, нельзя не отметить ученых, которые еще задолго до 70-х заложили основы хемометрического подхода. Начать, очевидно, нужно с К. Гаусса (К. Gauss), который в 1795 году ввел метод наименьших квадратов. Первым практикующим хемометриком следует, по-видимому, считать У. Госсета (W. Gosset), известного под псевдонимом Стьюдент, который в конце 19 века применял методы анализа данных [11] на пивоварне Гиннеса, где он работал аналитиком. В начале 20 века появилась работа К. Пирсона (К. Pearson) [10], в которой был предложен метод главных компонент, несколько позднее работы Р. Фишера (R. Fisher) - автора многочисленных статистических методов, таких как метод максимума правдоподобия и факторного анализа [12], а также пионерских работ [13] по планированию эксперимента. Среди советских ученых следует отметить, прежде всего, В. Налимова, внесшего значительный вклад в теорию планирования эксперимента [14].
Хемометрика зародилась, и длительное время развивалась внутри аналитической химии. Однако со временем обнаружилась тенденция, которую некоторые исследователи расценили, как выход хемометрики из-под крыла аналитической химии и превращение ее в самостоятельную дисциплину. Два обстоятельства дали повод к такому выводу. Во-первых, это усложнение математического аппарата, используемого при анализе многофакторных экспериментов. Десять лет назад экспериментаторы смогли усвоить и принять многомерный подход к анализу данных, т.е. такие методы как проекция на латентные структуры (ПЛС) [15] или разложение по сингулярным значениям (SVD) [16]. Однако потом, в период повального увлечения новыми методами анализа данных: мультимодальным подходом (n-way) [17], вэйвлет-анализом (wavelet) [18], методом опорных векторов (SVM) [19] и т.п., наметился некоторый разрыв между экспериментаторами и теоретиками. Второе обстоятельство, приведшее к отдалению хемометрики от аналитической химии, связано с появлением многочисленных приложений, в которых хемометрический подход с успехом применялся в областях, далеких от аналитической химии. Достаточно вспомнить о гиперспектральном анализе и анализе изображений (MIA) [20], многомерном статистическом контроле процессов (MSPC) [21], а также о многочисленных биофизических и биологических приложениях [22].
Методы многомерного анализа данных тесно связаны с математикой и, в особенности, с математической статистикой, откуда они черпает свои идеи. Большинство экспериментаторов понимают необходимость применения статистики в физическом и химическом анализе и используют ее для вычисления средних, отклонений, пределов обнаружения, проверки гипотез и т.п. Часто именно эти простые приемы и называют хемометрическим подходом, и лишь немногие исследователи решаются пойти дальше и действительно использовать хемометрику для анализа своих данных. Большинство экспериментаторов не любят математику, и сложные уравнения пугают их. Однако для эффективного практического применения хемометрики совсем не обязательно знать статистическую теорию метода главных компонент, достаточно понимать основы, базовые идеи этого подхода. А вот что действительно необходимо знать - это методы подготовки данных, принципы отбора переменных, и, самое главное, надо уметь правильно интерпретировать проекции данных (нагрузки и счета) в пространстве главных компонент. Хотя этот навык, как показывает многолетняя практика обучения хемометрике «без уравнений», можно приобрести и без глубоких математических познаний.
Взаимоотношения хемометрики и математики заслуживают отдельного рассмотрения. Многие методы и алгоритмы, популярные в хемометрике, не вызывают восторга у математиков [24], которые справедливо считают их плохо обоснованными с формальной точки зрения. Хемометрики всегда рассматривали свою деятельность как компромисс между возможностью и необходимостью, полагая, что главное - это практический результат, а не теоретическое обоснование невозможности его достижения. Сталкиваясь с практическими задачами интерпретации очень больших и сложно организованных массивов экспериментальных данных [25], хемометрики изобретают все новые и новые методы их анализа. Делают они это так быстро, что математики, по словам американского статистика Д. Фридмана (J. Friedman), не успевают не только раскритиковать их за это, но и просто понять, что же происходит в этой области. Такой подход контрастирует с ситуацией, сложившейся в биометрике [26], которую можно считать, в каком-то смысле, старшей сестрой хемометрики. Со времен Фишера биометрики традиционно применяют только хорошо апробированные, классические методы математической статистики, такие как факторный анализ, или линейный дискриминантный анализ. С другой стороны, специалисты, работающие в другой близкой дисциплине - психометрике [27], традиционно активно разрабатывали новые подходы к анализу данных. Так, самый популярный в хемометрике метод ПЛС, был изобретен Г. Волдом (Н. Wold) [28] именно для применения в этой области. Забавно, что в начале 70-х годов господствовало мнение, что проекционные методы: «малоприемлемы в физических, технических и биологических науках. Они могут быть полезны иногда в общественных науках как методы отыскания эффективных комбинаций переменных» [29, т.2. стр.48].
Благодаря такому «агрессивному» подходу к анализу данных, хемометрика нашла многочисленные применения в самых разных — смежных и далеких от химии областях. Она применяется в физической химии для исследования кинетики [30], в органической химии для предсказания активности соединений по их структуре (QSAR) [31], в химии полимеров [32], в теоретической и квантовой химии [33]. Хемометрика используется в самых разнообразных областях - от пивоварения [34], до астрономии [35]. Она применяется для решения судебных споров о защите окружающей среды [36] и для контроля качества производства полупроводников [37]. Подробный анализ взаимодействий хемометрики с различными областями человеческой деятельности приведен в книге английского аналитика Р. Бреретона (R. Brereton) [38].
Некоторые направления хемометрики развивались и в СССР, и позднее в России. Так, например, еще в 50-е годы в Харьковском университете под руководством Н. Комаря проводились исследования по математическому описанию равновесий [39]. Позднее появились работы JI. Грибова [40] и М. Эляшберга по спектральным методам [41], Б. Марьянова по титраметрии [42], Б. Дерендяева и В. Вершинина по методам компьютерной идентификации органических соединений [43], И. Зенкевича по хроматографии [44]. Исследования в близкой к хемометрике области QSAR ведутся под руководством Н. Зефирова [45]. Метрологические аспекты и контроль качества химического анализа исследуются в работах В. Дворкина [46] и Ю. Карпова [47]. В С.-Петербургском университете группа ученых под руководством Ю. Власова работает над созданием сенсорных систем, известных под названием «электронный язык» [48], а в Воронеже разрабатываются аналогичные методы, известные как «электронный нос» [49]. Во всех этих областях интенсивно используются хсмомегрические методы. В. Разумов и его коллеги из Черноголовки применяют многомерные методы анализа данных при решении задач химической кинетики [50, 51]. За последние годы в России появились новые группы ученых, разрабатывающих и применяющих хемометрические подходы: в Москве [52-55], в Барнауле [56, 57], в Томске [58], в Иркутске [59].
Информационное н программное обеспечение. Единственная широко-известная в России книга по хемометрике была переведена и опубликована 20 лет назад [60]. Она ярко отражала положение дел в этой области, сложившееся в середине 80-х годов. На сегодняшний день наиболее полным изложением хемометрических методов является двухтомник, написанный группой авторов под руководством Д. Массарта [61, 62]. Он включает подробное описание основных методов и приемов, большое количество практических приложений, а так же обширный список литературы. Помимо этого, существует множество книг и учебников, ориентированных на очень разный круг читателей. Гак, для студентов и специалистов в области аналитической химии, начинающих осваивать хемометрику, проще начать с книги [38]; исследователям, занимающимся, в основном, спектральным анализом, будут понятнее книги [63, 64]. Для практического применения очень полезна книга [65]. Также нельзя не упомянуть знаменитую книгу Е. Малиновского (Е. Malinowski) [66], которую до сих пор многие экспериментаторы считают лучшим учебником в этой области. Теоретические основы хемометрики были изложены в работах [67,68]. Недавно на русский язык был переведен учебник [69], содержащий краткое описание хемометрики в одной из своих глав. Небольшое, но очень полезное введение в хемометрику написал Б. Марьянов [70]. Маленьким тиражом (для участников четырех конференций по хемометрики в России) был издан сокращенный перевод самого популярного в мире учебника по многомерному анализу данных, написанного К. Эсбенсеном (К. Esbensen) [71].
Проблемам хемометрики посвящены два специализированных журнала: Journal of Chemometrics и Chemomeirics and Intelligent Laboratory Systems. Статьи, где хемометрические методы используются в прикладных задачах, регулярно печатаются более чем в 50-ти научных журналах, таких как Vibrational Spectroscopy, Analytica Chimica Acta, Computers and Chemical Engineering, Analyst, Tatanta, и т.д. Число статей, использующих хемометрические методы в качестве основного инструмента для анализа и обработки экспериментальных данных, возрастает с каждым годом (см. Рис 1.) [72] В качестве программного обеспечения применяются специализированные пакеты программ [73-75], позволяющие наглядно и быстро обрабатывать данные в интерактивном режиме. Однако широко применяются и статистические пакеты общего назначения [76, 77]. Часто исследователи пишут
1974 1979 1984 1989 1994 1999 2004 год
Рис I. Число статей по хемометрике, опубликованных в журналах издательства Elsevier процедуры сами, например, в кодах MATLAB [78], и они публикуются для свободного применения, например [68].
Широкое распространение и применение методов многомерного анализа данных в первую очередь обусловлено тем, что главной своей целью этот подход видит в решении конкретных, в основном физических и химических задач, а потом находит уже существующие или разрабатывает новые математические и статистические приемы и алгоритмы.
Эта работа выполнялась в тесном сотрудничестве со многими коллегами. Большой вклад в разработку алгоритмов и написание программ, так же в обсуждение результатов работы внес A.JI. Померанцев (ИХФ РАН), оригинальная физико-химическая моделей для ДСК эксперимента была предложена Е.В. Быстрицкой (ИХФ РАН). Большое влияние на проведение работ в области хемометрики оказал К.Н. Esbensen (Aalborg University Esbjerg). Экспериментальные данные, используемые в работе, были получены А.А. Крючковым (НИИКП), L. Р. НоипмИег и К.Н. Esbensen (Aalborg University Esbjerg).
Многомерные данные и формальные модели
В этом разделе в систематическом виде вводятся основные понятия и объекты, с которыми работает исследователь при анализе результатов физического эксперимента с помощью хемометрических методов. Материал этого раздела представлен в работах [72, 79].
Обозначения и термины. В работе используются следующие обозначения. Скалярные переменные выделяются курсивом, например s. Векторы (столбцы) обозначаются прямыми жирными строчными буквами, например х, а матрицы -заглавными, например W. Мультимодальные матрицы еще и выделяются курсивом, например G. Элементы массивов обозначают той же, но строчной буквой, например w,j -это элемент матрицы W. Индекс i обозначает строку матрицы; он изменяется от 1 до /. Индекс j соответствует столбцу, и он меняется от 1 до J. Аналогичные обозначения применяются и для других индексов, например К. Операция транспонирования обозначается верхним индексом t, например X*. В описании алгоритмов, верхний индекс, так же обозначает номер итерации, например рт, обозначает вектор р, вычисленный на т-ой итерации.
В русском языке до сих пор не сложилась общепризнанная система хемометрических терминов. Некоторые понятия переводились ранее неверно или неточно. Например, фундаментальный хемометрический метод PLS первоначально расшифровывался как Partial Least Squares. На русский язык это переводилось как «частичные» или «частные наименьшие квадраты», что никак не соответствовало сути метода. К счастью, в последнее время, оригинальная трактовка аббревиатуры PLS изменилась на Projection on Latent Structures, что дословно переводится как «проекция на латентные структуры». Термины soft и hard, часто используемые в хемометрике для характеристики методов моделирования, должны, по нашему мнению, переводиться словами формальный и содерлсателъный. Это точнее отражает суть этих понятий. При переводе понятия N-way используется термин N-модалъный. Может быть, это и не лучшее решение, но применение традиционного термина тензорного анализа «валентность» в физическом/химическом контексте, будет неудачным. Во многих случаях переводчики просто избегали давать русские названия ключевым хемометрическим понятиям, таким как scores и loadings, используя вместо них сложные эвфемизмы. Однако в хемометрике невозможно обойтись без понятий счета и нагрузки, или их аналогов.
Хемометрика - это наука о сокращениях. В данном случае имеется в виду не понижение размерности данных, а то, что в хемометрике часто используются аббревиатуры: РСА, PLS, PCR, RMSEP и т. п. У некоторых из них есть общепринятые русские аналоги, которые и используются в дальнейшем в тексте. Например, РСА - это МГК (метод главных компонент), PCR - это РГК (регрессия на главные компоненты), PLS - ПЛС (проекция на латентные структуры). А так же имеется множество сокращений, не имеющих устоявшихся русских аналогов. В тексте эти аббревиатуры используются в английской нотации. Ниже они расшифрованы.
ALS (alternating least-squares) - чередующиеся наименьшие квадраты;
ANN (artificial neural network) - искусственная нейронная сеть;
DASCO (discriminant analysis with shrunk covariance matrices) - дискриминантный анализ с сокращенной ковариационной матрицей;
EFA (evolving factor analysis) - эволюционный факторный анализ;
GA (genetic algorithm) - генетический алгоритм;
IA (immune algorithm) - иммунный алгоритм;
INLR (implicit non-linear latent variable regression) — неявная нелинейная регрессия на латентных переменных;
ITTFA (iterative target transformation factor analysis) - итерационный целевой факторный анализ;
KNN (k-nearest neighbours) - классификация по К ближайшим соседям;
LOO (leave one out) - метод перекрестной проверки с исключением по одному объекту;
MIA (multivariate image analysis) - многомерный анализ изображений;
MSC (multiplicative signal correction или multiplicative scatter correction) — множественная коррекция сигнала или мультипликативная коррекция рассеяния;
MSPC (multivariate statistical process control) - многомерный статистический контроль процессов;
NAS (net analyte signal) - полезный аналитический сигнал;
NIPALS (non-linear iterative projections by alternating least-squares) - нелинейное итерационное проецирование при помощи чередующихся наименьших квадратов;
OSC (orthogonal signal correction) - ортогональная коррекция сигнала;
PARAFAC (parallel factor analysis) - параллельный факторный анализ;
PAT (process analytical technology) - методы анализа процессов;
PC (principal component) - главная компонента (ГК);
PLS-DA (PLS discriminant analysis) - дискриминантный анализ с помощью регрессии на латентные структуры;
PMN (penalized minimum norm projection) - проекции с помощью штрафных функций минимума нормы;
QPLS (quadratic PLS) - квадратичный PLS;
QSAR (qualitative structure-activity relationship) - количественная связь структура-активность;
RMSEC (root-mean square error of calibration) - среднеквадратичный остаток калибровки;
RMSEP (root-mean square error of prediction) - среднеквадратичный остаток прогноза;
SIMCA (soft independent modeling of class analogy) - формальное независимое моделирование аналогий классов;
SIMPLISMA (Simple-to-use interactive self-modeling mixture analysis) - простой интерактивный автомодельный анализ смесей;
SIMPLS (simple partial least squares regression) - элементарные последовательные наименьшие квадраты;
SMCR (self-modeling curve resolution) - метод автомодельного разрешения кривых;
SPC (statistical process control) - статистический контроль процессов;
SVD (singular value decomposition) — разложение по сингулярным значениям;
SVM (support vector machine) - метод опорных векторов;
WFA (window factor analysis) — оконный факторный анализ.
Заключение
Необходимость широкого применения и дальнейшего развития многомерных методов анализа данных востребована и тесно связана с тенденциями развития техники физико-химических экспериментов. Во-первых, объекты анализа становятся более сложными и комплексными. Во-вторых, методы анализа меняются таким образом, чтобы обеспечить получение необходимых данных в режиме реального времени (in line). В-третьих, резко увеличивается объем данных, которые повсеместно становятся многомерными и многомодальными. Увеличивается роль гибридных и композиционных методов анализа. В-четвертых, искомая физическая информация очень глубоко спрятана в этих данных, и все менее формализована. В-пятых, прослеживается тенденция в изменении организации физического эксперимента - вместо исследования одной пробы в одном опыте, используется системный подход, в котором много разных проб автоматически испытываются одновременно разными методами, в разных условиях (например, технология микрочипов). В-шестых, акцент в исследовании все чаще переноситься на биологические объекты и биофизические процессы.
Все эти тенденции, ставят перед исследователем две главные'задачи. Первая — как придумать, организовать, спланировать эксперимент с тем, чтобы получить данные, из которых, в принципе, можно получить нужную физическую информацию. Вторая — как извлечь и интерпретировать эту информацию. Для решения этих задач исследователь должен, в значительной мере, использовать опыт и инструментарий многомерного анализа. Однако широкое использование формальных методов затруднено методологическими проблемами. Исследователь, привыкший использовать в своей практике, пусть и весьма приближенные, но содержательные физические модели считает хемометрический подход слишком формальным и поверхностным. С другой стороны, в арсенале хемометрических методов до сих пор существуют плохо разработанные аспекты. Например, существенным недостатком проекционных регрессионных методов (РГК, ПЛС и пр.) является то, что все эти методы дают результат предсказания в виде точечной оценки, тогда как на практике часто нужна интервальная оценка, учитывающая неопределенность прогноза.
В работе рассмотрены теоретические, алгоритмические и методологические аспекты многомерных методов обработки больших массивов данных физических экспериментов. Объединение проекционных регрессионных методов с методом простого интервального оценивания порождает мощный инструмент для решения задач многомерной калибровки. Такой подход позволяет обрабатывать наборы многоканальных данных, пронизанных внутренними связями, разделять полезную информацию и шум, представлять результат прогноза в интервальной форме, учитывающей неопределенность в прогнозе индивидуально для каждого объекта/измерения. Обобщая полученные результаты, можно сформулировать следующие выводы.
В теоретической части работы были получены следующие результаты.
1. Представлен и теоретически обоснован метод простого интервального оценивания (ПИО), предназначенный для решения линейных задач калибровки и прогнозирования больших массивов данных физических экспериментов. Доказаны основные свойства метода: ограниченность, состоятельность, несмещенность.
2. Обосновано предположение об ограниченности погрешностей, лежащее в основе метода ПИО. Показано, что это допущение является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно более обоснованно, чем традиционное допущение о нормальности, а, следовательно, и неограниченности погрешностей.
3. Показано, что метод ПИО вычисляет оценки неизвестных параметров модели в виде области в пространстве параметров, что, в свою очередь, позволяет представить результаты прогноза отклика в интервальном виде, учитывающим все погрешности (измерения, моделирования и пр.). Это является существенным преимуществом в сравнении с традиционным регрессионным анализом, где результат прогноза - это точечная оценка
4. Приведены аргументы в пользу того, что ПИО-оценки, построенные на основе экстремальных статистик, являются более эффективными, чем традиционные гладкие оценки. Это открывает новое направление исследований в области прикладной статистики — построение суперэффективных оценок.
5. На основе метода ПИО разработан новый подход к классификации статуса объектов и интерпретации прогнозных интервалов. Введены новые понятия: ПИО-остаток и ПИО-размах, диаграмма статуса объектов (ДСО). Введены понятия внутренних, внешних, граничных объектов. Дано определение выбросов и абсолютно внешних объектов.
6. Разработаны новые методы статистического контроля процессов. Метод, названный расширяющимся многомерным статистическим контролем, основан на построении серии ПЛС моделей, совместно с ПИО моделированием. Он позволяет вычислять как точечные, так и интервальные оценки выходного параметра на промежуточных стадиях процесса. Предложен также метод активной оптимизации, разработаны различные стратегий оптимизации.
К практическим результатам работы следует отнести
7. Разработку общего алгоритм, объединяющего проекционные методы (РГК, ПЛС1, ПЛС2), метод линейного программирования (симплекс-метод), оригинальный алгоритм приведения задачи к каноническому виду, алгоритм определения статуса объектов и построения ДСО.
8. Создание компьютерной программы SIC - надстройки для программы Excel. С ее помощью можно проводить многоканальных сигналов, оценивать точность построенной модели, проводить классификацию объектов в зависимости от их влиятельности на модель, для объектов из обучающего набора, и оценить близость новых объектов к модели. Эффективность программы проверена с помощью имитационного моделирования, примеров описанных в литературе, а так лее на большом числе реальных экспериментальных данных.
Созданная методология расширяет область применения многомерных методов для построения моделей калибровки по результатам многоканальных физических экспериментов. Новый подход объединяет проекционные методы и метод простого интервального оценивания.
9. На примере определения следовых концентраций нефти в воде показано, что разработанная классификации объектов имеет практическое значение не только в рамках метода ПИО, но и в рамках классических регрессионных моделей, а диаграмма статуса объектов является простым и удобным инструментом для визуализации и детального анализа результатов физических экспериментов.
10. Предложен новый метод выбора представительных (влиятельных) объектов из экспериментального набора данных, названный методом граничных образов, который может применяться как для переноса калибровочных моделей с одного прибора на другой, так и для эффективного уменьшения объема калибровочного набора. На примере обработки результатов БИК-спектроскопии зерна показана эффективность формирования представительной выборки.
11. На примере предсказания активности антиоксидантов проведено сравнение формального (ПИО) и содержательного (нелинейная регрессия) моделирования. Показано, что содержательный подход позволяет проводить экстраполяцию, однако при этом нельзя ограничить область экстраполяции. Формальный метод имеет строгую область применимости, очерченную с помощью техники ПИО статуса. Он дает надежные результаты при решении задач классификации или интерполяции. Показана практическая значимость построенных моделей, позволяющих заменить длительное термостарение быстрым экспериментом с помощью дифференциальной сканирующей калориметрии.
12. Показано, что дополнение стандартного метода ПЛС дискриминации методом ПИО повышает информативность при решении задач качественного анализа и распознавания. Предложена методика экспресс-распознавания фальсифицированных лекарств на основе БИК-спектроскопии.
1. Geladi P., Esbensen К. Chemometrics, a growing and maturing discipline (Editorial). Chemom. 1.tell. Lab. Syst., 7, 197 (1990)
2. Massart D.L. Chemometrics: a textbook. Elsevier, NY, 1988
3. Wold S. Chemometrics; what do we mean with it, and what do we want from it? Chemom. Intell. Lab. Syst., 30, 109 (1995)
4. Blanco M., Villarroya I. NIR spectroscopy: a rapid-response analytical tool. Trends Anal. Chem., 21, 240 (2002)
5. Osborne B.G., Fearn T. Near Infrared Spectroscopy in Food Analysis. Longman Scientific and Technical, Harlow, Essex, England, 1986
6. Blanco M., Coello J., Iturriaga H., Maspoch S., Rovira E. Determination of water in ferrous lactate by near infrared reflectance spectroscopy with a fibre-optic probe. J. Pharm. Biomed. Anal, 16, 255 (1997)
7. Espinosa A., Lambert D., Valleur M. Use NIR technology to optimize plant operations. Hydrocarbon Process, 74, 86 (1995)
8. Naes Т., Irgens C., Martens H. Comparison of linear statistical methods for calibration of NIR instruments. Appl. Stat., 35, 195 (1986)
9. Martens H., N<es T. Multivariate calibration. I. Concepts and distinctions. Trends Anal. Chem., 3, 204 (1984)
10. Pearson K. On lines and planes of closest fit to systems of points in space. Philosopher Mag., 2 (6), 559(1901)
11. Gosset W.S.("Student"). The probable error of a meam Biometrika, 6 , 1 (1908)
12. Fisher R.A. Statistical methods for research workers. Oliver and Boyd, Edinburgh, 1925
13. Fisher R.A. The design of experiments. Oliver and Boyd, Edinburgh, 1935
14. Налимов В. Применение математической статистики при анстизе вещества. М, 1960
15. Wold S., Esbensen К., Geladi P. Principal component analysis. Chemom. Intell. Lab. Syst., 2,37(1987)
16. Shrager R.I. Chemical transitions measured by spectra and resolved using singular value decomposition. Chemom. Intell. Lab. Syst., 1, 59 (1986)
17. Geladi P., Grahn H. Multivariate Image Analysis. Wiley, Chichester, 1996
18. Walczak В., Massart D.L. Wavelets — something for analytical chemistry? Trends Anal. Chem., 16,451,(1997)
19. Belousov A.I., Verzakov S.A., von Frese J. Application aspects of support vector machines. J. Chemom., 16, 482 (2002)
20. Gelad P., Esbensen K. Regression on multivariate images: Principal component regression for modeling, prediction and visual diagnostic tools. J. Chemom., 5, 97 (1991)
21. Nomikos P., MacGregor J.F. Monitoring batch processes using multiway principal component analysis. American Inst. Chem. Engin. J., 40, 1361 (1994)
22. SchaeferlingM., Schiller S. Pau H.l, Kruschina M., Pavlickova P., Meerkamp M., Giammasi C., Kambhampati D. Application of self-assembly techniques in the design of biocompatible protein microarray surfaces. Electrophoresis, 23, 3097 (2002)
23. Ferreira M.M.C. 9th International Conference on Chemometrics in Analytical Chemistry (CAC-2004), Lisbon, Portugal. J. Chemom., 18, 385 (2004)
24. Frank I.E., Friedman J.H. A statistical view of some chemometrics regression tools (with discussion). Technometrics, 35, 109 (1993)
25. Wold S., Berglund A., Kettaneh N. New and old trends in chemometrics. How to deal with the increasing data volumes in R&D&P -with examples from pharmaceutical research and process modeling. J. Chemom., 16, 377 (2002)
26. Molenberghs G. Biometry, Biometrics, Biostatistics, Bioinformatics,., Bio-X. Biometrics, 61, 1 (2005)
27. Шмелев А.Г. Традиционная психометрика и экспериментальная психосемантика: объектная и субъектная парадигмы анализа данных. Вопросы Психологии, 5, 34 (1982)
28. Дрейпер H., Смит Г. Прикладной регрессионный анализ, (в 2-х т.) Москва, Финансы и статистика, 1987 N.R. Draper, Н. Smith, Applied regression analysis, Wiley, N.Y.
29. Родионова O.E., Померанцев А.Л. Об одном методе решения обратной кинетической задачи по спектральным данным при неизвестных спектрах компонент. Кинетика и катализ, 45, 485 (2004)
30. Koh H.-L., Yau W.-P., Ong P.-S., Hegde A. Current trends in modern pharmaceutical analysis for drug discovery. Drug Discov. Today, 8, 889 (2003)
31. Pomerantsev A.L., Rodionova O.Ye. Hard and soft methods for prediction of antioxidants' activity based on the DSC measurements. Chemom. Intel!. Lab. Syst., 79, 73 (2005)
32. Грибов JI. А. Математические методы и ЭВМ в аналитической химии, М. 1989
33. Siebert K.J. Chemometrics in Brewing A Review. J. Am. Soc. Brew. Chem., 59, 147 (2001)
34. Johnson G.W., Ehrlich R. State of the art report on multivariate chemometric methods in environmental forensics. Environ. Forensics, 3, 59 (2002)
35. WiseB.M., Gallagher N.B., Martin E.B. Application of PARAFAC2 to fault detection and diagnosis in semiconductor etch. J. Chemom., 15, 285 (2001)
36. Brereton R.G. Chemometrics: Data analysis for the laboratory and chemical plant. Wiley, Chichester, UK. 2003
37. Комарь Н.П. Основы качественного химического анализа. Харьков, 1955
38. Грибов Л.А., Баранов В.И., Эляшберг М.Е. Безэталонный молекулярный спектральный анализ. Теоретические основы. М. Едиториал УРСС, 2002
39. Эляшберг М. Экспертные системы для установления структуры органических молекул спектральными методами. Успехи химии, 68, 579 (1999)
40. Марьянов Б., Зарубин А., Шумар С. Статистический анализ данных дифференцированного потенциометрического осадительного титрования бинарной смеси трех гетеровалентпых ионов с помощью линейных характеристик. Журн. аналит. химии, 58, 1126 (2003)
41. Вершинин В.И., Дерендяев Б.Г., Лебедев К.С. Методы компьютерной идентификация органических соединений. М. Академкнига, 2002
42. Zenkevich I.G.; Kranicz В. Choice of nonlinear regression functions for various physicochemical constants within series of homologues. Chemom. Intell. Lab. Syst., 67, 51 (2003)
43. Гальберштам Н.М., Баскин И.И., Палюлин В.А., Зефиров Н.С. Нейронные сети как метод поиска зависимостей структура свойство органических соединений. Успехи химии, 72, 706 (2003)
44. Дворкин В.И. Метрология и обеспечение качества количествешюго химического анализа. М. Химия, 2001
45. Карпов Ю.А., Полховская Т.М. Стандартизация и метрология в металлургическом производстве. М. МИСИС, 1989
46. Власов Ю.Г., Легин А.В., Рудницкая A.M. Мультисенсорныс системы типа электронный язык- новые возможности создания и применения химических сенсоров. Успехи химии, IS, 141 (2006)
47. Калач А.В., Коренман Я. И., Нифталисв С.И. Искусственные нейронные сети -вчера, сегодня, завтра. Воронеж: Воронеж, гос. технол. акад., 2002
48. Разумов В.Ф., Алфимов М.В. Фотохимия диарилэтиленов. ЖНиПФ, 46, 28 (2003)
49. RodionovaO.Ye., Esbensen К.Н., Pomerantsev A.L. Application of SIC (Simple Interval Calculation) for object status classification and outlier detection comparison with PLS/PCR. J. Chemom., 18, 402 (2004)
50. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Non-linear regression analysis: new approach to traditional implementations. J. Chemom., 14, 667 (2000)
51. BogomolovA., McBrien M. Mutual peak matching in a series of HPLC/DAD mixture analyses. Anal. Chim. Acta, 490, 41 (2003)
52. Bogomolov A., McBrien M. Methods for Characterizing a Mixture of Chemical Compounds, US Patent, US-2004-0126892-A1 (2004)
53. Kucheryavski S., Polyakov V., Govorov A. Analysis of simulated fracture surfaces using AMT and fractal geometry methods. В kii: Progress in Chemometrics Research (Ed: A.L. Pomerantsev) NovaScience Publishers, New York, pp. 3-11, 2005
54. Оскорбин H.M., Максимов A.B., Жилин С.И. Построение' и анализ эмпирических зависимостей методом центра неопределенности. Изв. АлтГУ, 1, 35 (1998)
55. Romancnko S.V., Stromberg, A.G., Selivanova E.Y., Romanenko E.S. Resolution of the overlapping peaks in the case of linear sweep anodic stripping voltammetry via curve fitting. Chemom. Intell. Lab. Syst., 73, 7 (2004)
56. Васильева И.Е., Кузнецов A.M, Васильев И.JI, Шабанова Е.В. Калибровка методик атомно-эмиссионного анализа с компьютерной обработкой спектров. Журн. аналит. химии, 52, 1238 (1997)
57. ШарафМ.А., Иллмэн Д.Л., Ковальски Б.Р. Хемометрика. Пер. с англ. М. Мир, 1987 М. Sharaf, D. Illman, В. Kowalski. Chemometrics. NY: Wiley. 1986.
58. Massart D.L., Vandeginste B.G., Buydens L.M.C., De Jong, S. Lewi P.J., Smeyers-Yerbeke J. Handbook of Chemometrics and Qualimetrics Part A. Elsevier, Amsterdam,1997
59. VandeginstcB.G., Massart D.L., Buydens L.M.C., De Jong S., Lewi P.J., Smeyers-Verbeke J. Handbook of Chemometrics and Qualimetrics Part B. Elsevier, Amsterdam,1998
60. NcES Т., Isaksson Т., Fearn Т., Davies T. Multivariate Calibration and Classification. Christerer, UK, 2002
61. Kramer R. Chemometric Techniques for Quantitative Analysis. Marcel-Dekker, 1998
62. Beebe K.R., Pell R.J., Seasholtz M.B. Chemometrics: a Practical Guide. Willey, N.Y., 1998
63. MalinowskiE.R. Factor Analysis in Chemistry. Wiley, N.Y., 2nd edn, 1991
64. Martens H., Nses T. Multivariate calibration. Wiley, New York. 1989
65. Hoskuldsson A. Prediction Methods in Science and Technology, vol. 1, Thor Publishing, Copenhagen, Denmark, 1996
66. Аналитическая химия. Проблемы и подходы (в 2-х т.), под. ред. Кельнер Р., Мерме Ж.-М., Отто М., Видмер Г.М., пер. с анг., М., Мир ACT, 2004 Analytical Chemistry. The Approved Text to FECS Curriculum Analytical Chemistry, Wiley-VCH, Weinheim.
67. Марьянов Б.М. Избранные главы хемометрики. Томск: Из-во Том. ун-та, 2004
68. Эсбенсен К. Анапиз многомерных данных. Сокр. пер. с англ. под ред. О.Родионовой, Из-во ИПХФ РАН, 2005 К.Н. Esbensen. Multivariate Data Analysis In Practice 4-th Ed., САМО, 2000.
69. Родионова O.E., Померанцев А.Л. Хемометрика: достижения и перспективы. Успехи химии, 75 (4) 302-317(2006)
70. The Unscramber. Доступно на http://www.camo.no/ 3 мая 2007.
71. Eigenvector Research, Inc. Доступно на http://www.eigenvector.com/ 3 мая 2007.
72. Umetrics. Доступно на http://www.umetrics.com/ 3 мая 2007.
73. SPSS. Доступно на http://www.spss.com/ 3 мая 2007.
74. STATISTIC А. Доступно на http://www.statsoftinc.com/ 3 мая 2007.
75. MATLAB. Доступно на http://www.mathworks.com/ 3 мая 2007.
76. Родионова О.Е. Хемометрический подход к исследованию больших массивов химических данных. Рос. хим. ж. (Рос. хим. об-ва им . Д.И. Менделеева), 50, 128 (2006)
77. ErikssonL., Johansson Е., Kettaneh-Wold N., Wold S. Multi- and Megavariate Data Analysis. Umetrics, Umea, 2001
78. Sanchez E., Kowalski B.R. Tensorial calibration: I. First-order calibration. J. Chemom., 2 247 (1988)
79. Smilde A., Bro R,, Geladi P. Multi-way Analysis with Applications in the Chemical Sciences. John Wiley & Sons, Chichester, 2004
80. Ploy M., Steen K., Martens H. Review of partial least squares regression prediction error in Unscrambler. Chemometrics Intell. Lab. Syst., 44, 123 (1998)
81. Wold S., Trygg J., Berglund A., Antti H. Some recent developments in PLS modeling. Chemom. Intell. Lab. Syst., 58 , 131 (2001)
82. Hoskuldsson A. Causal and path modelling. Hyperspectral imaging: calibration problems and solutions. Chemom. Intell. Lab. Syst., 58, 287 (2001)
83. Geladi P., Burger J., Lestanderet T. Hyperspectral imaging: calibration problems and solutions. Chemom Intell. Lab. Syst., 72, 209 (2004)
84. Sander G.H.W., Manz A. Chip-based microsystems for genomic and proteomic analysis. Trends Anal Chem., 19, 364 (2000)
85. Box G.E.P., Hunter W.G., Hunter J.S. Statistics for Experimenters. John Wiley & Sons Inc., NY, 1978
86. Демиденко Е.З. Линейная и нелинейная регрессии. Финансы и статистика, М, 1981
87. Jy P. Sampling for Analytical Purposes. John Wiley & Sons, Chichester, 1989
88. Kleingeld W., Ferreira J., Coward S. First World Conference on Sampling and Blending (WCSB1). J. Chemom., 18, 121 (2004)
89. Special Issue. : 50 years of Pierre Gy's Theory of Sampling Proceedings: First World Conference on Sampling and Blending (WCSB1) Tutorials on sampling. : Theory and Practice. Chemom. Intell. Lab. Syst., 74, 1 ( 2004)
90. Walczak В., Massart D.L. Tutorial. Dealing with missing data. Chemom. Intell. Lab. Syst., 58, 15 (2001)
91. Nelson P.R.C., Taylor P.A., MacGregor J.F. Missing data methods in PCA and PLS: Score calculations with incomplete observations. Chemom. Intell. Lab. Syst., 35, 45 (1996)
92. Haario H., Taavitsainen V.-M. Combining soft and hard modelling in chemical kinetic models. Chemom. Intell. Lab. Syst., 44, 77 (1998)
93. Брин Э.Ф., Померанцев A.Jl. Классификация обратных задач кинетики гомогенных химических реакций. Хим. физика, 5, 1674 (1986)
94. Gurden S.P., Westerhuis J.A., Bijlsma S., Smilde A.K. Modelling of spectroscopic batch process data using grey models to incorporate external information. J. Chemom., 15, 101 (2001)
95. Померанцев А.Л. Методы нелинейного регрессионного анализа для моделирования кинетики химических и физических процессов. Дис. д-ра физ.-мат. наук, ИХФ РАН, Москва, 2003
96. Morales D. A. Mathematical modeling of titration curves. J. Chemom., 16, 247 (2002)100. de Juan A., Maeder M., Martinez M., Tauler R. Combining hard- and soft-modelling to solve kinetic problems. Chemom. Intell. Lab. Syst., 54, 123 (2000)
97. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. Москва, Финансы и Статистика, 1988 В. Efron,Апп. Stat. , 7, 1 (1979).
98. EURACHEM/CITAC Guide, Quantifying Uncertainty in Analytical Measurement, 2nd ed., EURACHEM, Lisbon, Portugal, 2000
99. Faber K, Kowalski B. R. Prediction error in least squares regression: Further critique on the deviation used in The Unscrambler. Chemom. Intell. Lab. Syst., 34, 283 (1996)
100. Pomerantsev A.L. Confidence Intervals for Non-linear Regression Extrapolation. Chemom. Intell. Lab. Syst., 49, 41 (1999)
101. Pulido A., Ruisanchez I., Boque R., Rius F.X. Uncertainty of results in routine qualitative analysis. Trends Anal. Chem., 22, 647 (2003)
102. Vershinin V.I. A priori method of evaluating uncertainties in qualitative chromatographic analysis:(probabilistic approach). Accreditation and Quality Assurance, 9, 415 (2004)
103. Faber N.M. Uncertainty estimation for multivariate regression coefficients. Chemom. Intell. Lab. Syst., 64, 169 (2002)
104. Faber N.M.,. Bro R. Standard error of prediction for multiway PLS 1. Background and a simulation study. Chemom. Intell. Lab. Syst., 61, 133 (2002)
105. Olivieri A. C., Faber N.M., Ferre J. , Boque R., Kalivas J. H., Mark H. Ucertainy estimation and figures of merit for multivariate calibration. Pure Appl.Chem.,78, 633 (2006)
106. Lorber A. Error propagation and figures of merit for quantification by solving matrix equations. Anal. Chem., 58, 1167 (1986)
107. Ferre J., Faber N.M. Net analyte signal calculation for multivariate calibration. Chemom. Intell. Lab. Syst., 69, 123 (2003)
108. Boque R., Faber N.M., Xavier Rius F. Detection limits in classical multivariate calibration models. Anal. Chim. Acta, 423, 41 (2000)
109. Boque R., Faber N.M., Xavier Rius F. Limit of detection estimator for second-order bilinear calibration Anal. Chim. Acta, 451, 313 (2002)
110. Berget I., Naes T. Using unclassified observations for improving classifiers. J. Chemom., 18, 103 (2004)
111. Jouan-Rimbaud D., Massart D.L., Saby C.A., Puel C. Characterization of the representativity of selected sets in multivariate calibration and pattern recognition. Anal. Chim. Acta, 350, 149(1997)
112. Meloun M., Militky J., Hill M., Brereton R.G. Crucial problems in regression modelling and their solutions. Analyst, 111, 433 (2002)
113. Fernandez Pierna J.A., Wahl F., de Noord O.E., Massart D.L. Methods of outlier detection in prediction. Chemom. Intell. Lab. Syst., 63, 27 (2002)
114. K. Faber. Comparison of two recently proposed expressions for partial least squares regression prediction error. Chemom. Intell. Lab. Syst., 52, 123 (2000)
115. Faber N.M., Song X.-H., Норке P.К. Sample-specific standard error of prediction for partial least squares regression. Trends Anal. Chem., 22, 330 (2003)
116. Bouveresse E., Massart D.L. Standardization of near-infrared spectrometric instruments: A review. Vibrat. Spectrosc., 11, 3 (1996)
117. Westad F., Martens H. Variable selection in NIR based on significance testing in Partial Least Squares Regression (PLSR). J. Near Infrared Spectros., 8, 117 (2000)
118. Hubert M., Verboven S. A robust PCR method for high-dimensional regressors. J. Chemom., 17, 438 (2003)
119. Bro R., Smilde A.K. Centering and scaling in component analysis. J. Chemom., 17, 16 (2003)
120. Kubelka P., Munck F. Ein Beitrag zur Optik der Farbanstriche. Zeits. F. techn. Physik, 12, 593 (1931)
121. Savitzky A., Golay M.J.E. Smoothing and differentiation of data by simplified least squares procedures. Anal. Chem., 36, 1627 (1964)
122. Geladi P., MacDougall D., Martens H. Linearization and scatter-correction for near-infrared reflectance spectra of meat. Appl. Spectrosc., 3, 491 (1985)
123. Isaksson Т., Kowalski B. Piece-wise multiplicative scatter correction applied to near-infrared diffuse transmittance data from meat products. Appl. Spectrosc., 47, 702 (1993)
124. Trygg J., Wold S. 02-PLS, a two-block (X-Y) latent variable regression (LVR) method with an integral OSC filter. J. Chemom., 17, 53 (2003)
125. Wold S., Antti H., Lindgren F., Ohman J. Orthogonal signal correction of near-infrared spectra. Chemom. Intell. Lab. Syst., 44, 175 (1998)
126. Fearn T. On orthogonal signal correction. Chemom. Intell. Lab. Syst., 50, 47 (2000)
127. Hoskuldsson A. Variable and subset selection in PLS regression. Chemom. Intell. Lab. Syst., 55, 23 (2001)
128. Guo Q., Wu W., Massart D.L., Boucon C., de Jong S. Feature selection in principal component analysis of analytical data. Chemom. Intell. Lab. Syst., 61, 123 (2002)
129. Forina M., Lanteri S., Oliveros M.C. Selection of useful predictors in multivariate calibration. Anal. Bioanal. Chem., 380, 397 (2004)
130. Leardi R, Boggia R., Terrile M. Genetic algorithms as a strategy for feature selection. J. Chemom., 6, 267 (1992)
131. Kalivas J.H. Pareto calibration with built-in wavelength selection. Anal. Chim. Acta, 505, 9 (2004)
132. Benoudjit N., Cools E., Meurens M., Verleysen M. Chemometric calibration of infrared spectrometers: selection and validation of variables by non-linear models. Chemom. Intell. Lab. Syst., 70, 47 (2004)
133. Indahl U., Nees Т. A variable selection strategy for supervised classification with continuous spectroscopic data. J. Chemom., 18, 53 (2004)
134. Feudale R.N., Woody N.A., Tan H., A.J. Myles, S.D. Brown, J. Ferre. Transfer of multivariate calibration models: a review. Chemom. Intell. Lab. Syst., 64, 181 (2002)
135. Hansen P.W. Pre-processing method minimizing the need for reference analyses. J. Chemom., 15, 123 (2001)
136. Чуй К. Введение в вэйвлеты. М. Мир. 2001 С.К. Chui. An Introduction to wavelets, Academic Press, 1992.
137. Trygg J., Wold S. PLS regression on wavelet compressed NIR spectra. Chemom. Intell. Lab. Syst., 42, 209 (1998)
138. Reinikainen S.-P. Wavelets in Compressing Spectral Data В кн: Progress in Chemometrics Research (Ed: A.L. Pomerantsev) NovaScience Publishers, New York, pp. 21-36, 2005
139. Pan Y., Yoo C.K., Lee J.H., Lee I.-B. Process monitoring for continuous process with periodic characteristics. J. Chemom., 18, 69 (2004)
140. Keller H.R., Massart D.L. Evolving factor analysis. Chemom. Intell. Lab. Syst., 12, 209 (1992)
141. Malinowsk E.R. Window Factor Analysis: theoretical derivation and application to ow-injection analysis data.,/. Chemom., 6, 29 (1992)
142. Gemperline P.J. Target transformation factor analysis with linear inequality constraints applied to spectroscopic-chromatographic data. Anal. Chem., 58, 2656 (1986)
143. Wold S. Pattern recognition by means of disjoint principal components models. Pattern Recognition, 8, 127 (1976)
144. Jiang J.-H., Liang, Y. Ozaki Y. Principles and methodologies in self-modeling curve resolution. Chemom. Intell. Lab. Syst., 71, 1 (2004)
145. Sanchez F.C., van de Borgaert В., Rutan S.C., Massart D.L. Multivariate peak purity approaches. Chemom.Intell. Lab. Syst., 34, 139 (1996)
146. Shen H., Grande В., Kvalheim O.M., Eide I. Automated curve resolution applied to data from multi-detection instruments. Anal. Chim. Acta, 446, 311 (2001)
147. WindigW., Guiiment J. Interactive self-modeling mixture analysis. Anal. Chem., 63, 1425 (1991)
148. Bogomolov A., Ilachey M., Williams A. Software for interactive curve resolution using SIMPLISMA. В кн: Progress in Chemometrics Research (Ed: A.L. Pomerantsev) NovaScience Publishers, New York, pp. 119-135,2005
149. Diewok J., de Juan A., Marcel M., Tauler R., Lendl B. Application of a Combination of Hard and Soft: Modeling for Equilibrium Systems to the Quantitative Analysis of pH-Modulated Mixture Samples. Anal. Chem., 76, 641 (2003)
150. БогомоловА.Ю., Ростовщикова Т.Н., Смирнов В.В. Комплексообразование хлорида железа(Ш) с хлористым водородом и водой в хлорорганическом растворителе. Ж. Физ. Хим., 69,1197 (1995)
151. Seipel Н.А., Kalivas J.H. Effective rank for multivariate calibration methods. J. Chemom., 18,306(2004)
152. Shrager R.I. Chemical transitions measured by spectra and resolved using singular value decomposition. Chemom. Intell. Lab. Syst., 1, 59 (1986)
153. De Maesschalck -R., Jouan-Rimbaud D., Massart D.L. Tutorial. The Mahalanobis distance. Chemom. Intell. Lab. Syst., 50, 1 (2000)
154. Andrade J.M., Gomez-Carracedo M. P., Krzanowski W., Kubista M. Procrustes rotation in analytical chemistry, a tutorial. Chemom. Intell. Lab. Syst., 72, 123 (2004)
155. MikhailovE.V., Tupicina O.V., D.E. Bykov, Chertes K.L., Rodionova O.Ye., Pomerantsev A.L. Ecological assessment of landfills with multivariate analysis — A feasibility study. Chemom. Intell. Lab.Syst., 88 (1), 3-10 (2007)
156. RodionovaO.Ye., Houmoller L.P., Pomerantsev A.L., Gelad P., Burger J., Dorofeyev V.L., Arzamastsev A.P. NIR Spectrometry for Counterfeit Drug Detection. A Feasibility Study. Anal. Chim. Acta, 549, 151 (2005)
157. SunL.X., Danzer K. Fuzzy cluster analysis by simulated annealing. J. Chemom., 10, 325 (1996)
158. Myle A.J., Brown S.D. Induction of decision trees using fuzzy partitions. J. Chemom., 17, 531(2003)
159. Gonzalez-ArjonaD., Lopez-Perez G., Gonzalez A.G. Performing procrustes discriminant analysis with HOLMES. Talanta, 49, 189 (1999)
160. Mark H. Use of Mahalanobis distances to evaluate sample preparation methods for near-infrared reflectance analysis. Anal. Chem., 59, 790 (1987)
161. Gemperline P.J., Boyer N.R. Classification of near-infrared spectra using wavelength distances: comparison to the Mahalanobis distance and residual variance methods. Anal. Chem., 67, 160(1995)
162. Mark H.L., Tunnell D. Qualitative near-infrared reflectance analysis using Mahalanobis distances. Anal. Chem., 57, 1449 (1985)
163. Indahl U., Sing N.S., Kirkhuus В., Nass T. Multivariate strategies for classification based on NIR-spectra—with application to mayonnaise. Chemom.Intell. Lab. Syst., 49, 19 (1999)
164. Downey G., Boussion J., Beauchene D. Authentication of whole and ground coffee beans by near infrared reflectance spectroscopy. J.Near Infrared Spectrosc., 2, 85 (1994)
165. Flaten G.R., Grung В., Kvalheim O.M. A method for validation of reference sets in SIMCA modelling. Chemom. Intell. Lab. Syst., 72, 101 (2004)
166. Nass Т., Indahl U. A unified description of classical classification methods for multicollinear data. J. Chemom., 12, 205 (1998)
167. McElhinney J., Downey G., Fearn T. Chemometric processing of visible and near infrared reflectance spectra for species identification in selected raw homogenised meats. J.Near Infrared Spectrosc., 7, 145 (1999)
168. Zomer S., Brereton R., Carter J.F., Eckers C. Support vector machines for the discrimination of analytical chemical data: application to the determination of tablet production by pyrolysis-gas chromatography-mass spectrometry. Analyst, 129, 175 (2004)
169. Sarker M., Rayens W. Partial least squares for discrimination. J. Chemom., 17, 166 (2003)
170. Herrero A., Zamponi S., Marassi R.,. Conti P, Ortiz M.C., Sarabia L.A. Determination of the capability of detection of a hyphenated method: application to spectroelectrochemistry. Chemom. Intell. Lab. Syst., 61, 63 (2002)
171. Bijlsma S., Smilde A.K. Estimating reaction rate constants from two-step reaction: a comparison between two-way and three-way methods. J. Chemom., 14, 541 (2000)
172. Bro R. PARAFAC. Tutorial and applications. Chemom. Intell. Lab. Syst., 38, 149 (1997)
173. Kiers H. Some procedures for displaying results from three-way methods. J. Chemom., 14, 151 (2000)
174. Faber N.M., Bro R., Норке P.K. Recent developments in CANDECOMP/PARAFAC algorithms: a critical review. Chemom. Intell. Lab. Syst., 65, 119 (2003)
175. Andersson C.A. , Bro R. The N-way toolbox for MATLAB. Chemom. Intell. Lab. Syst., 52 , 1 (2000)185. del Rio F.J., Riu J., Rius F.X. Prediction intervals in linear regression taking into account errors on both axes. J. Chemom., 15, 773 (2001)
176. Brereton R.G. Introduction to multivariate calibration in analytical chemistry. Analyst, 125,2125 (2000)
177. Hoskuldsson A. PLS Regression Methods. J. Chemom., 2, 211 (1988)188. de Jong S. SIMPLS: an alternative approach to partial least squares regression. Chemom. Intell. Lab. Syst., 18, 251 (1993)
178. Li В., Morris A.J.,. Martin E.B. Generalized partial least squares regression based on the penalized minimum norm projection Chemom. Intell. Lab. Syst., 72, 21 (2004)
179. Hubert M.,Vanden Branden K. Robust methods for partial least squares regression. J. Chemom., 17, 537 (2003)
180. Vigneau E., Devaux M., Qannari M., Robert P. Principal component regression, ridge regression and ridge principal component regression in spectroscopy calibration. J. Chemom., 11,239 (1997)
181. Geladi P. Some recent trends in the calibration literature. Chemom. Intell. Lab. Syst., 60, 211 (2002)
182. Канторович JI.В. О некоторых новых подходах к вычислительным методам и обработке наблюдений. Сиб. мат. э/сури., 3 , 701 (1962)
183. Rodionova О. Ye., Pomerantsev A.L. Principles of Simple Interval Calculations, В кн: Progress in Chemometrics Research, Pomerantsev AL (ed.). Nova Science Publishers: New York, pp43-64, 2005
184. Белов B.M., Суханов В.А., Унгер Ф.Г. Теоретические и прикладные аспекты метода ifeumpa неопределенности. Новосибирск, Наука, 1995
185. Bro R. Multi-way calibration. Multi-linear PLS. J. Chemom., 10, 47 (1996)
186. Bro R., Andersson C.A. The N-way Toolbox for MATLAB, Version 2.02, 2003. Доступно на http://www.models.kvl.dk/source 3 мая 2007.
187. Ni Y., Huang C., Kokot S. Application of multivariate calibration and artificial neural networks to simultaneous kinetic-spectrophotometric determination of carbamate pesticides. Chemom. Intell. Lab. Syst., 71, 177 (2004)
188. Chen Z.P., Morris J., Martin E., Yu R.-Q., Liang Y.-Z., Gong F. Recursive evolving spectral projection for revealing the concentration windows of overlapping peaks in two-way chromatographic experiments. Chemom. Intell. Lab. Syst., 72, 9 (2004)
189. Fernandez F. M., Tudino M. В., Troccoli О. E. Multicomponent kinetic determination of Cu, Zn, Co, Ni and Fe at trace levels by first and second order multivariate calibration. Anal. Chim. Acta, 433, 119 (2001)
190. Бард Й. Нелинейное оценивание параметров. М.: Статистика, 1979. Y. Bard, Nonlinear Parameter Estimation, Academic Press, New York, 1974.
191. Barry D.M., Meites L. Titrimetric applications of multiparametric curve-fitting. Part 1 Potentiometric titrations of weak bases with strong acids at extreme dilutions. Anal. Chim. Acta, 68, 435 (1974)
192. Марьянов Б. В кн. Химики ТГУ на пороге третьего тысячелетия. Томск, Изд -во ТГУ, сс. 48-58, 1998
193. Berglund A., Wold S. INLR, implicit non-linear latent variable regression. J. Chemom., 11, 141 (1997)
194. Berglund A., Kettaneh N.L.U., Wold S., Bendwell N.,Cameron D.R. The GIFI approach to non-linear PLS modelling. J. Chemom., 15, 321 (2001)
195. Wold S. Nonlinear partial least squares modelling II. Spline inner relation. Chemom. Intell. Lab. Syst., 14, 71 (1992)
196. Zupan J., Gasteiger J. Neural networks: A new method for solving chemical problems or just a passing phase? Anal. Chim. Acta, 248, 1 (1991)
197. Zupan J., Gastciger J. Neural Network for Chemists, An Introduction. VCH, Weinheim, 1993.
198. Wu W., Walczak В., Massart D.L., Heuerding E., Erni F.E., Last I.R., Prebble K.A. Artificial neural networks in classificafion of NIR spectral data: Design of the training set. Chemom. Intell. Lab. Syst., 33, 35 (1996)
199. Smits J.R.M., Meissen W.J., Buydens L.M.C., Kateman G. Using artificial neural networks for solving chemical problems. Part I. Multi-layer feed-forward networks. Chemom. Intell. Lab. Syst., 22, 165 (1994)
200. Meissen W.J., Smits J.R.M., Buydens L.M.C., Kateman G. Using artificial neural networks for solving chemical problems. Part II. Kohonen self-organising feature maps and Hopfield networks. Chemom. Intell. Lab. Syst., 23, 267 (1994)
201. Hibbert D.B. Genetic algorithms in chemistry. Chemom. Intell. Lab. Syst., 19, 277, (1993)
202. Leardi R. Genetic algorithms in chemometrics and chemistry: a review. J. Chemom., 15, 559 (2001)
203. Shao X., Chen Z., Lin X. Resolution of multicomponent overlapping chromatogram using an immune algorithm and genetic algorithm. Chemom. Intell Lab. Syst., 50, 91 (2000)
204. Вощинин А.П., Бочков А.Ф., Сотиров Г.Р. Методы анализа данных при интервальной нестатистической ошибке. Завод, лаб., 56, 76 (1990)
205. Анисимов В.М., Померанцев А.Л., Новорадовский А.Г., Карпухин О.Н. Определение чувствительности объектов к полихроматическому световому воздействию. Жури, прикл. спектрос, 46, 117 (1987)
206. Спивак С.И., Тимошенко В.И., Слинько М.Г. Применение метода выравнивания по П.Л. Чебышеву при построении кинетических модели сложной химической реакции. Докл. АН СССР, 192, 580 (1970)
207. Слинько М.Г., Спивак С.И., Тимошенко В.И. О критериях определения параметров кинетических моделей. Кинетика и катализ, 13, 1570 (1972)
208. Ахунов И.Р., Ахмадишин 3. Ш., Спивак С.И. Математическая интерпретация кинетического эксперимента сложных реакций сопряженного окисления. Хим. физика, 12, 1660 (1982)
209. Бахитова Р.Х. ,Спивак С.И. Нечеткие интервальные оценки в кинетике химических реакций. Химия и хим. технол., 42, 92 (1999)
210. Хлебников А.И. О методе центра неопределенности. Ж. Аналит. химии, 51, 347 (1996)
211. Померанцев А.Л., Родионова О.Е. О двух подходах к анализу кинетических данных на примере предсказания активности антиоксидантов. Кинетика и катализ, 47, 553 (2006)
212. Cook R.D. Detection of Influential Observations in Linear Regression. Technometrics\ 19, 15 (1977)
213. Cook R.D. Influential Observations in Linear Regression J. Am. Statis. Ass., 74, 169 (1979)
214. Andrews D.F., Pregibon D. Finding the outliers that matter. J. Royal Statis. Soc.B, 40, 84 (1978)
215. Draper N.R., John J. A Influential Observations and Outliers in Regression. Technometrics, 23, 21 (1981)
216. Najs T. The design of calibration in near infra-red reflectance analysis by clustering. J. Chemometrics, I, 121 (1987)
217. Померанцев А.Л., Родионова О.Е. Построение многомерной калибровки методом простого интервального оценивания. Ж. Аналит. химии, 61, 1032 (2006)
218. Clancey V.J. Statistical methods in chemical analyses. Nature, 159, 339 (1947)
219. Rajko R. Treatment of model error in calibration by robust and fuzzy procedures. Anal. Letters, 27,215 (1994)
220. Боровков A.A. Математическая статистика (Оценки параметров. Проверка гипотез). М.: Наука, 1984
221. Гумбель Э. Статистика экстремальных значений. М. Мир, 1965 Gumbel Е Statistics of extremes, Columbia University Press: N.Y., 1962.
222. Gass S. Linear Programming (4-th ed.). McGow-Hill: New York, 1975
223. Kuhn H.W., Tucker A.W. Linear Inequalities and Related Systems. Ann. Math. Studies, 38, Princeton University Press: Princeton, N.J., 1956
224. Lehmann E.L. Testing Statistical Hypotheses. Wiley, New York, 1960
225. Eicker F. Asymptotic normality and consistency of the least squares estimators for families of linear regressions. Ann. Math. Stat., 34, 447 (1963)
226. Данциг Дж. Линейное программирование, его применение и обобщение. М. Прогресс, 1966 Dantzing G.B. linear Programming and Extensions, Princeton University Press, Princeton, New Jersey, 1963.
227. Таха X. Введение в исследование операций. М. Мир, 1985, т.1. Taha Н., Operations Research. An Introduction, (3-d ed), vol.1, MacMillan Publishing Co., N. Y., 1982.
228. Cook R.D. Detection of influential observations in linear regression. Technometrics, 21, 15 (1977)
229. Belsley D.A., Kuh E., Welsch R.E. Regression diagnostics. Identifying influential data and sources of collinearity. John Wiley & Sons Ltd. New York, 1980
230. Walkenbach J. Excel 2000 Power Programming with VBA, 2001
231. Esbensen K.H., Halstensen M, Lied T.T., Saudland A, Svalestuen J., .de Silva S, Hope B. Acoustic chemometrics from noise to information. Chemom. Intell.Lab.Syst., 44, 61 (1998)
232. Лаврентьев M. M., Краева А.Г., Бухгейм A.B. Обратная задача химической кинетики. Новосибирск: ВЦ СО АН СССР, 1980
233. Спивак С.И, Горский В.Г. Неединственность решения задачи восстановления кинетических констант. Докл. АН СССР, 275, 412 (1981)
234. Применение вычислительной математики в химической и физической кинетике. Под ред. Л.С. Полака, М.: Наука, 1969
235. Павлов Б.В., Родионова О.Е. Математическое моделирование сложных самоускоряющихся реакций. Теор. основы хим. технологии, 28, 251 (1994)
236. Павлов Б.В., Родионова О.Е. Проблемы математического моделирования в неравновесной теории химических процессов. Хим. физика., 17, 27 (1998)
237. Павлов Б.В., Брин Э.Ф. Обратная задача химической кинетики. Хим. физика, 3(3), 393 (1984)
238. Павлов Б.В., Родионова О.Е. Численное решение систем линейных обыкновенных дифференциальных уравнений с постоянными коэффициентами. Ж. вычил. матем. иматем. физ., 34, 622 (1994)
239. Павлов Б.В., Родионова О.Е. Методика усреднения при дискретизации кинетического интегро-дифференциального уравнения. Ж. вычил. матем. и матем. физ., 36, 143 (1996)
240. Bijlsma S., Louwerse D.J., Windig W., Smilde А.К .Rapid estimation of rate constants using on-line SW-NIR and trilinear models. Anal.Chim.Acta, 376, 339 (1998)
241. Pomerantsev A.L., Rodionova О.Ye. Chemometrics in Russia. Chemom. Intell. Lab Syst, 48, 121 (1999)
242. Pomerantsev A.L., Rodionova O.Ye. Prediction of antioxidants activity using DSC measurements. A feasibility study. В сб.: Zaikov et al (Eds) Aging of polymers, polymer blends and polymer composites, 1, NovaScience Publishers, NY, pp. 19-29, 2002,.
243. Shlyapnikov Yu A In: Development in Polymer Stabilization, Applied Science Publishers, London, 5, 1 (1981)
244. Pomerantsev A.L. Successive Bayesian estimation of reaction rate constants from spectral data Chemometrics Intell.Lab.Syst., 66 , 127 (2003)
245. Померанцев A.JL, Родионова O.E. Содержательный и формальный подход к анализу кинетических данных. В сб. Химическая и биологическая кинетика Новые горизонты. М. Химия, 2005 (ISBN: 5-98109-035-9), 1, 124-172
246. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Conferentia chemometrica (CC-97), Budapest, Pos. 54, (1997)
247. Fitter Solutions On line., httpV/polycert.chph.ras.ru/solution.htm [3 мая 2007]
248. Павлов Б.В., Повзнер А .Я. Об одном методе численного интегрирования системобыкновенных дифференциальных уравнений. Ж. Вычисл. Мат. Мат Физ, 13,1056 (1973)
249. Marquardt D.W. An algorithm for least-squares estimation of non-linear parameters. SIAMJ., 11,431 (1963)
250. Levenberg K. A Method for the Solution of Certain Problems in Last Squares. Quart. Appl Math.,2, 164(1944)
251. Pomerantsev A.L. Confidence intervals for nonlinear regression extrapolation. Chemom. Intell.Lab.Syst., 49,41 (1999)
252. Родионова O.E.,Померанцев A.Jl. Оценивание параметров в уравнении Аррениуса. Кинетика и катализ, 46, 329 (2005)
253. Counterfeit drugs. Guidelines for the development of measures to combat counterfeit drugs, WHO, Geneva (1999)
254. Counterfeit drugs: threat to Public Health. 55 World Health Assembly, Geneva (2002)
255. Arzamastsev A.P., Dorofeyev V.L., Kochin V.Yu, et al. Using Thin-Layer Chromatography for the Fast Identification of the Fluoroquinolone Drugs. World Congress of Pharmacy and Pharmaceutical Sciences 2002: 62nd International Congress of FIP, 39 (2002)
256. Arzamastsev А.Р., Dorofeyev V.L., Konovalov A.A., KochinV.Yu., Titov I.V. Determining Adulterated Drugs by Modern Analytical Techniques. Pharmaceutical Chemistry Journal, 38, 166 (2004)
257. Shewhart W.A. Economic Control of Quality of Manufactured Product, Van Nostrand, New York, 1931
258. MacGregor J., Kourti Th. Statistical process Control of Multivariate Processes. Control Engineering Practice, 3, 403 (1995)
259. Померанцев А.Л., Родионова O.E. Многомерный статистический контроль процессов. Методы менедэюмента качества, 6, 15 (2002)
260. Kourti Th., MacGregor J. Process analysis, monitoring and diagnosis, using multivariate projection methods. Tutorial. Chemom. Intell. Lab. Syst., 28, 3, (1995)
261. Westerhuis J.A., Kourti Th., MacGregor J. Analysis of multiblock and hierarchical PCA and PLS models. J. Chemom., 12, 301 (1998)
262. Hoskuldsson A., Rodionova O.Ye., PomeranlsevA.L. Path Modelling and Process Control, Chemom. Intell. Lab.Syst., 88,84 (2007)
263. Pomerantsev A.L., Rodionova O.Ye. Multivariate statistical process control and optimisation. В кн: Progress in Chemometrics Research (Ed: A.L. Pomerantsev) NovaScience Publishers, New York, pp. 209-227, 2005
264. Gabrielsson J., Lindberg N-O., Lundstedt T. Multivariate methods in pharmaceutical applications. J. Chemom., 16, 141 (2002)
265. Bro R. Exploratory study of sugar production using fluorescence spectroscopy and multi-way analysis. Chemom. Intell. Lab. Syst., 46, 133 (1999 )
266. Yoo C.K.,Lee J.-M., Vanrolleghem P.A., Lee I.-B. On-line monitoring of batch processes using multiway independent component analysis. Chemom. Intell. Lab. Syst., 71, 151 (2004)
267. Baroni M., Benedetti P., Fraternale S. Scialpi, F., Vix P., Clementi S. The CARSO procedure in process optimization. J. Chemom., 17, 9 (2003)
268. Martens H., Martens M. Midtivariate Analysis of Quality: An Introduction, John Wiley & Sons Ltd., Chichester, 2001
269. Dyson R.M., Hazenkamp M., Kaufmann K.,. Maeder M, Studer M., Zilian A. Modern tools for reaction monitoring: hard and soft modelling of non-ideal, on-line acquired spectra. J. Chemom., 14, 737 (2000)
270. Pollanen К., Hiikkinen A., Reinikainen S.-P., Louhi-Kultanen M., Nystrom L. ATR-FTIR in monitoring of crystallization processes: comparison of indirect and direct OSC methods. Chemom. Intell. Lab. Syst., 76, 25 (2005)
271. Thurston T.J., Brereton R.G., Foord D.J., Escott R.E.A. Principal components plots for exploratory investigation of reactions using ultraviolet-visible spectroscopy: application to the formation of benzophenone phenylhydrazone. Talanta, 63, 757 (2004)
272. Bezemer E., Rutan S.C. Multivariate curve resolution with non-linear fitting of kinetic profiles. Chemom. Intell. Lab. Syst, 59, 19 (2001)
273. Workman Jr., Creasy K.E., Doherty S., Bond L., Koch M., Ullman A., Veltkamp D.J. Process analytical chemistry. Anal Chem., 73, 2705 (2001)
274. Gurden S.P., Martin E.B., Morris A.J. The introduction of process chemometrics into an industrial pilot plant laboratory. Chemom. Intell. Lab. Syst., 44, 319 (1998)
275. ASTM Standard El655. Standard Practices for Infrared Multivariate Quantitative Analysis, 1997
276. Pomerantsev A.L., Rodionova O.Ye., Hoskuldsson A. Process control and optimization with simple interval calculation method. Chemom. Intell. Lab.Syst., 81 (2), 165 (2006)
277. Wagen L.E., Kowalski B. A multiblock partial least squares algorithm for investigation complex chemical systems. J. Chemometrics, 3, 3 (1998)
278. Kennard R.W., Stone L.A. Computer Aided Design of Experiment. Technometrics, 11, 137 (1969)
279. Федоров В.В. Теория оптимального эксперимента. Наука, Москва, 1971
280. Rodionova O.Ye., Pomerantsev A.L. Application of simple interval calculation method for representative subset selection. Тез.докл. на международной конф. ICAS 2006, Москва 2006
281. Rajer-Kanduc K.,Zupan J., Majcen N. Separation of data on the training and test set for modelling: a case study for modelling of five colour properties of a white pigment. Chemometrics Intell. Lab. Syst, 65, 221 (2003)
282. Andersson P. M., Sjostro M., Wold S., Lundstedt T. Strategies for subset selection of parts of an in-house chemical library. J. Chemometrics, 15, 353 (2001)
283. Cruciani G., Baroni M., Carosati E., Clementi M., Valigi R., Clementi S. Peptide studies by means of principal properties of amino acids derived from MIF descriptors. J. Chemometrics, 18, 146 (2004)