Интервальный подход к анализу больших массивов физико-химических данных тема автореферата и диссертации по физике, 01.04.17 ВАК РФ
Родионова, Оксана Евгеньевна
АВТОР
|
||||
доктора физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2007
ГОД ЗАЩИТЫ
|
|
01.04.17
КОД ВАК РФ
|
||
|
На правах рукописи
РОДИОНОВА ОКСАНА ЕВГЕНЬЕВНА
ИНТЕРВАЛЬНЫЙ ПОДХОД К АНАЛИЗУ БОЛЬШИХ МАССИВОВ ФИЗИКО-ХИМИЧЕСКИХ ДАННЫХ
АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора физико-математических наук
01 04 17 - Химическая физика, в том числе физика горения и взрыва
□0306534Б
Москва 2007
003065346
Работа выполнена в Институте химической физики им Н Н Семенова Российской Академии Наук
Официальные оппоненты доктор химических наук
профессор Разумовский С Д
доктор физико-математических наук профессор Дементьев В А
доктор физико-математических наук профессор Спивак С И
Ведущая организация Институт аналитического приборостроения
РАН
Защита состоится » с-'^' и^^/сЛ 2007 г в « часов на заседании диссертационного совета Д 002 012 02 при Институте химической физики им Н Н Семенова РАН по адресу 119991, г Москва, ул Косыгина 4, ИХФ РАН
С диссертацией можно ознакомиться в библиотеке Института химической физики им Н Н Семенова РАН
Автореферат разослан » -уг
Ученый секретарь
диссертационного совета
доктор физико-математических наук
Фролов С М
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. По мере совершенствования экспериментальной базы, химическая физика начинает оперировать с большими массивами данных, которые содержат измерения сотен и тысяч образцов при учете большого числа действующих факторов Математическая обработка становится неотъемлемой составляющей сложного физического или химического эксперимента В некоторых случаях, именно способы извлечения полезной информации из измеренных данных способствуют распространению той или иной техники эксперимента Начиная с 70-х годов прошлого века, для анализа подобных данных используется хе-мометрический подход, суть которого состоит в двух принципах Во-первых, это понижения размерности задачи с помощью проекционных методов, и, во-вторых, это использование формальных, линейных моделей для объяснения связей в данных Ярким примером может служить инфракрасная спектроскопия в ближней области, которая до появления хемометрического подхода почти не использовалась и считалась малоперспективной Однако, использование такого подхода связано с двумя проблемами, которые не нашли еще своего окончательного решения Во-первых, - это оценка неопределенности получаемых результатов, а во-вторых, - ограничение области применимости методов На решение этих двух важных задач и направлено это исследование
Главной идеей работы является интервальный подход, т е последовательное использование принципа ограниченности погрешностей Этот принцип был впервые предложен Л Канторовичем еще в 1962 г, однако до сих пор эта идея не получила должного признания и развития В представленной работе главное внимание уделяется классической проблеме количественного анализа - решению задачи калибровки При этом интервальный подход сочетается с проекционными методами, что дает в результате интервальный прогноз искомого физико-химического показателя Этот метод был назван простым интервальным оцениванием (ПИО) При его применении удается решить две задачи установить область неопределенности прогноза и построить классификацию образцов, которая позволяет очертить область применения построенной ПИО модели
Цель работы состоит
- в разработке теории метода ПИО выяснение условий существования и свойств решения, построение линейной интервальной калибровки, определение индивидуальной неопределенности прогноза, построение классификации образцов, позволяющей очертить рамки, в которых может использоваться построенная модель,
- в создании алгоритмов анализа данных и написание на их базе компьютерной системы для обработки данных и интерпретации результатов,
- в построении методологии совместного применения проекционных методов и ПИО при решении важных теоретических и практических задач интерпретации больших массивов физико-химических данных
Научная новизна работы определяется следующими результатами
1) Предложен новый метод построения линейных калибровочных зависимостей - простое интервальное оценивание, сочетающий в себе проекционный подход с интервальным анализом погрешностей Показано, что этим методом можно обрабатывать большие массивы мультиколлинеарных экспериментальных данных, причем результат прогноза представляется в интервальной форме
2) Разработаны теоретические основы метода ПИО Исследованы его основные свойства Разработан новый подход к оцениванию индивидуальной неопределенности (погрешность измерения и погрешность моделирования) прогноза для каждого образца Показано, что этот метод можно считать свободным от вида распределения погрешности
3) Разработан новый подход к классификации образцов, позволяющий естественным образом очертить рамки, в которых может использоваться построенная модель Это достигается с помощью определения статуса образцов различающего надежные «внутренние образцы», существенные «граничные образцы», подозрительные «внешние образцы», выпадающие «абсолютно-внешние образцы» и разрушительные «выбросы»
Научная и практическая значимость работы состоит в том, что с помощью разработанного метода и с применением компьютерной программы SIC были решены несколько важных теоретических и практических задач интерпретации экспериментальных данных В их числе
- сопоставление результатов, полученных методом ПИО, с традиционными регрессионными доверительными оценками - на примере прогнозирования сравнительной активности антиоксидантов,
- создание нового метода выбора представительного или влиятельного под-набора - на примере исследовании качества зерна с помощью ИК спектроскопии в ближней области,
- разработка нового метода в области аналитического контроля процессов -метод многомерной статистической оптимизации процессов, проиллюстрированного практическим примером,
- построение нового подхода к решению задачи дискриминации - интервальный вариант метода ПЛС дискриминации - на примере распознавания фальсифицированных лекарств с помощью ИК спектроскопии в ближней области,
- сопоставление предложенной в работе классификации образцов с известным методом замкнутых оболочек - на примере определения следовых концентраций нефти в воде с помощью акустических измерений
Достоверность результатов обеспечена высокой точностью используемых теоретических и численных методов, согласованностью аналитических и численных методов решения задач, сопоставлением теоретических и экспериментальных результатов, а также сравнением с результатами, полученными другими авторами
Автором выносится на защиту:
интервальный подход, предназначенный для анализа больших массивов экспериментальных данных, решения линейных задач калибровки и прогнозирования
Основу подхода составляет метод простого интервального оценивания (ПИО), который позволяет
• вычислять оценки неизвестных параметров модели в виде области в пространстве параметров,
• вычислять результаты прогноза отклика в интервальном виде,
• создать метод классификации статуса образцов и интерпретации прогнозных интервалов,
• построить процедуру распознавания исследуемых образцов
• разработать метод формирования представительной выборки
Компьютерная программа SIC для решения задач линейной калибровки
Методология применения интервального подхода для решения задач интерпретации физико-химических данных, раскрытая на следующих примерах
• анализ кинетических данных на примере оценки активности антиоксидан-тов,
• построение калибровки и классификации статуса образцов в задаче определения следовых концентраций нефти в воде с помощью акустических измерений,
• распознавание фальсифицированных лекарств с помощью инфракрасной спектроскопии в ближней области
• построения моделей пассивной и активной оптимизации при аналитическом контроле процессов,
• формирование представительной выборки на примере определение влажности зерна с помощью инфракрасной спектроскопии в ближней обтасти
Апробация работы Основные результаты диссертации докладывались и обсуждались на следующих конференциях и симпозиумах Всероссийской конференции «Математические методы в химии» (Санкт-Петербург 2003), Gordon Research Conference (Williamston, 2001) XVI Менделеевском съезде по общей и прикладной химии (Санкт-Петербург 1998), Scandinavian Symposiums on Chemometncs (Lahti 1997, Porsgrunn 1999 Copenhagen, 2001 Lappeenranta 2007), Второй международной конференции «Экспериментальные методы в физике» (Барнаул, 2001), международных конференциях CONFERENTIA CHEMOMETRICA (Budapest, 1997, Tata 2002), Международной школе-конференции «Современные методы анализа многомерных данных» (Кострома, 2002, Барнаул , 2003 Пушкинские Горы, 2004, Черноголовка, 2005, Самара, 2006), Chemometncs in Analytical Chemistry (CAC2004, Лиссабон, 2004), Symposium on Computer Applications and Chemometncs in Analytical Chemistry (SCAC2004, Балатон, 2004), международной конференции "Идентификация систем и задачи управления" (SICPRO 05 Москва 2005), всероссийском (с международным участием) совещании по интервальному анализу (INTERVAL-06, Петергоф 2006), международном конгрессе по аналитическим наукам (ICAS-2006, Москва 2006)
Публикации Основные результаты работы опубликованы в 31 статье (рецензируемых журналах книгах и сборниках) и 36 тезисах докладов на международных и всероссийских конференциях (Общее число научных публикации автора 67)
Структура и объем работы Диссертационная работа изложена на 272 страницах, содержит 85 рисунков и 22 таблицы Диссертация состоит из введения, двенадцати глав с описание теоретических и прикладных исследований, выводов, приложения с описанием основных алгоритмов и списка литературы из 296 наименовании
СОДЕРЖАНИЕ РАБОТЫ Введение
Обосновывается актуальность работы, и формулируются основные цели исследования Учитывая, что проекционные формальные методы, называемые хе-мометрическими, мало известны в России, в первой части представлены основные принципы хемометрики Своей главной целью такой подход ставит решение конкретных в основном физико-химических задач, для чего используются уже существующие или разрабатываются новые математические и статистические методы и алгоритмы Этим и объясняется растущая востребованность хемомет-рических методов
Необходимо учитывать, что в русском языке до сих пор не сложилась общепризнанная система хемометрических терминов, а некоторые понятия переводились ранее неверно или неточно Возможно в дальнейшем, при более широком применении хемометрики в практике, термины, приведенные в этой работе, претерпят изменения
Описание основных понятий многомерной калибровки, изложение метода простого интервального оценивания и его применение к задачам количественного анализа рассматриваются в трех частях диссертационной работы
ЧАСТЬ I. МНОГОМЕРНЫЕ ДАННЫЕ И ФОРМАЛЬНЫЕ МОДЕЛИ
В этой части в систематическом виде вводятся основные понятия и объекты с которыми работает исследователь при обработке результатов физического или химического эксперимента Так же приводится краткое описание базовых методов, которые используются в дальнейшем в работе совместно с новым интервальным подходом
1. Данные и модели, используемые в химическом анализе
Экспериментальные данные - это основной объект, рассматриваемый в работе Простейший случай - это одномерные данные, т е просто одно число например значение оптической плотности которое может быть получено на монохроматическом фотометре Более сложный случай - это набор из нескольких измерений, относящихся к одному образцу В этой работе, по большей части, анализируется наиболее часто встречающийся тип данных - двухмодальные данные Типичный пример - это набор спектров, снятых для / образцов на У длинах волн Такие данные представляются матрицей X размерности (7х/) При этом каждая строка в такой матрице представляет объект (в данном случае образец) а каждый столбец - переменную (длину волны) Отнесение данных к объектам (образцам) или переменным (каналам) имеет большое значение для их интерпретации В по-
следнее время большое внимание уделяется и более сюжным, т н многомодальным (n-way) наборам данных Пример таких данных рассматривается в главе 9
Данные могут объединяться в блоки Простейший случай - это один блок X Такой случай чаще встречается в качественном анализе, например, в задаче разделения спектров и концентраций Количественный анализ, основанный на регрессионных зависимостях, использует данные, состоящие из двух и более блоков Блок независимых переменных, или предикторов, представляется матрицей X размерности (IxJ) (например, матрица спектров) Блок откликов представляется матрицей Y размерности (/xL) (например, матрица концентраций) Совокупность данных {X,Y} составляет обучающий набор (или набор стандартных образцов) по которым строится калибровочная зависимость Y=XA
Первым важным принципом является использование многомерного подхода при конструировании экспериментов и анализе их результатов
Данные всегда (или почти всегда) содержат в себе нежелательную составляющую, называемую шумом Природа этого шума может быть различной Что считать шумом, а что - информацией, всегда решается с учетом поставленных целей и методов, используемых для ее достижения Это второй важнейший принцип
Шум и избыточность в данных обязательно проявляют себя через корреляционные связи между переменными При этом погрешности в данных могут привести к появлению не систематических, а случайных связей между переменными Понятие эффективного (т н химического) ранга и скрытых, латентных переменных, число которых равно этому рангу, является третьим принципом, применяемым при анализе многомерных данных
2. Методы качественного анализа: исследование, классификация и дискриминация
Современные приборы могут производить огромное количество измерений Однако доля полезной информации в таком массиве может быть относительно невелика Для выделения полезной информации, при многомерном подходе, используются методы сжатия данных (в отличие от традиционного подхода, когда из данных выделялись только отдельные особо значимые измерения) Идея этих методов состоит в том, чтобы представить исходные данные, используя новые скрытые переменные При этом должны выполняться два условия Во-первых, число новых переменных должно быть существенно меньше числа исходных переменных, и, во-вторых, потери от такого сжатия данных должны быть сопоставимы с шумом в данных Эти методы еще называют проекционными методами, так как их можно интерпретировать как проекцию исходных данных на пространство меньшей размерности, образованное скрытыми (латентными) переменными
2 /. Метод главных компонент
Наиболее популярным способом сжатия данных является метод главных компонент - МГК (К Pearson, 1901) Он дает основу для других аналогичных методов, а также многих методов классификации
Метод главных компонент состоит в декомпозиции исходной матрицы X размерности (/хУ), т е представлении ее в виде произведения двух матриц Т, размерности (1хК) и р, размерности (Ух/0
Х=тр'+Е = £^р;+Е (2 1)
к-1
В этом уравнении т называется матрицей счетов Столбцы ^ матрицы т ортогональны, т е Т'Т=с11а§(Л) - диагональная матрица, причем А являются собственными значениями матрицы Х'Х р называется матрицей нагрузок, столбцы которой ортонормированны, т е р'р=1 - единичной матрице Е - это матрица остатков, размерности {1x1) Величина К называется чисюи главных компонент (ГК) и она, обычно, меньше ранга матрицы X
Выбор числа главных компонент К, проводится с использованием критериев, показывающих точность достигнутой декомпозиции Величины
Е1=\0(1[~±±е1/±±Л к= 1, ,К (2 2)
называются нормированным собственным значением и объясненной вариацией Их обычно изображают на графике в зависимости от числа к Резкое изменение величин (2 2) указывает на нужное значение числа главных компонент (Уравнения (2 1) не содержат в себе свободного члена, поэтому для декомпозиции данных и\ следует сначала отцентрировать и, при необходимости, нормировать )
Одним из важнейших преимуществ проекционных методов, в том числе и МГК, является возможность представления сложные данные в более простом виде, так, чтобы исследователь смог «увидеть» результаты экспериментов в простой графической интерпретации Особое внимание уделяется графикам счетов и нагрузок На графике счетов каждый образец изображается в координатах (I,, I), чаще всего - (11, 1?) Близость двух точек означает их схожесть, те положительную корреляцию Точки, расположенные под прямым углом, являются некоррелированными, а расположенные диаметрально противоположно - имеют отрицательную корреляцию
График нагрузок применяется для исследования роли переменных На графике нагрузок каждая переменная отображается точкой в координатах (р,, рД например (рь р;) Анализируя его аналогично графику счетов, можно понять, какие переменные взаимосвязаны, а какие независимы
2 2 Классификация и дискриминация
Это весьма широкий класс задач качественного анализа, в которых требуется установить принадлежность образца к некоторому классу Задачи классификации можно разделить на две большие группы К первой относятся так называемые задачи без обучения В них не используется обучающий набор и их можно рассматривать как разновидность исследовательского анализа Задачи второй группы - классификация с обучением, называются также задачами дискриминации В них применяется обучающий набор образцов, про который априори известна информация о принадлежности к классам Одним из наиболее популярных подходов является метод формального независимого модепирования аналогий кчассов -
SIMCA, (S Wold, 1976) При применении этого метода каждый класс из обучающего набора независимо моделируется с помощью МГК с разным числом главных компонент К После этого вычисляются расстояния между классами а также расстояния от каждого класса до нового объекта В качестве таких метрик используются две величины Расстояние d от объекта до класса вычисляется как среднеквадратичное значение остатков е, возникающих при проецировании объекта на класс
'-\-raV . (23)
Эта величина сравнивается со среднеквадратичным остатком внутри класса
d"=\u-K-\)U-K^ (24)
Вторая величина определяет расстояние от объекта до центра класса, и она вычисляется как размах (квадрат расстояния Махаланобиса)
lt = t£r (2 5)
■
Здесь Т1. - это проекция нового образца (счет) на главную компоненту А. а ^ - это вектор, содержащий счета всех обучающих образцов в классе
3. Методы количественного анализа: калибровка
В задачах количественного анализа участвуют два блока данных Первый блок X - это матрица аналитических сигналов (например, спектров, хромато-грамм, и т п) Второй блок У - это матрица соответствующих химических/физических показателей (например концентраций) Число строк (Г) в этих матрицах равно количеству образцов сравнения, число столбцов (/) в матрице X соответствует числу каналов (длин волн) на которых записывается сигнал, число столбцов (Ц в матрице У равно числу химических показателей, т е откликов Задача многомерной калибровки (ММК) состоит в построении математической модели, связывающей блоки X и У, с помощью которой можно в дальнейшем предсказывать значения показателей V по новой строке значений инструментального сигнала х
По виду математических моделей а, следовательно, и по методам отыскания неизвестных параметров, различают линейную и нелинейную калибровку В третьей главе подробно рассмотрены линейные методы, кратко представлена нелинейная калибровка, рассмотрены преимущества и недостатки обоих подходов Кратко рассмотрены методы многомодальной калибровки
3 1 Линейная калибровка
Для решения задачи многомерной линейной калибровки
У=ХА+В (3 1)
используются различные проекционные методы, которые помогают преодолевать проблему вырожденности матрицы Х'Х и получить устойчивые оценки для неизвестных коэффициентов А При использовании регрессии на гчавные компонсн-
ты - РГК процедура калибровки осуществляется в два этапа на первом этапе применяется МГК (2 1), который анализирует структуру матрицы X строит ортогональный базис в пространстве счетов (K<J) проецирует исходные данные на пространство меньшей размерности тем самым преодотевая проблему мульти-коллинеарности на втором этапе применяется множественная регрессия т е вычисляются регрессионные коэффициенты отдельно для каждого отклика /
ä = р(т т) р x > (3 2)
В настоящее время самым популярным методом многомерной калибровки является метод проекции на штентные стр\'кт\ры - ПЛС (Н Wold 1973), который во многом схож с РГК В методе ПЛС декомпозиция матриц x и y производится одновременно при этом, если />1 возможно построение одной общей модели Такой вариант метода называется ПЛС 2 Декомпозиция исходных данных осуществляется по формулам
х=тр'+е и x=tyv'+e y=uq'+f , (3 3)
где Т и Р - матрицы счетов и нагрузок матрицы X. Хотя Т и Р имеют схожий смысл с МКГ их свойства иные Столбцы матрицы Т по-прежнему ортогональны, а стотбцы матрицы р уже не ортогональны u и q - счета и нагрузки для y Матрица возвещенных нагрузок w используется для учета корреляций между x и y. Столбцы матрицы w образуют ортонормированную систему Оценки регрессионных коэффициентов имеют вид
ä = w(P'w) 'q' (3 4)
Точность калибровки в проекционных моделях принято характеризовать ветчиной среднеквадратичного остатка калибровки (RMSECT)
RMSEC = Jpy.-if-^F (3 5)
где и соответственно измеренные и предсказанные значения химического показателя (концентрации) для образцов обучающего набора, /=1 , / а F - это число степеней свободы Точность предсказания характеризуют среднеквадратичным остатком предсказания (RMSEP), вычисляемым аналогично (3 6), но на образцах проверочного набора, где М равно числу таких образцов
RMSEP = ^(\, -\)2^М (36)
Существенным недостатком проекционных регрессионных методов (РГК ПЛС и пр ) является то что все эти методы дают результат предсказания в виде точечной оценки, тогда как на практике часто нужна интервальная оценка, учитывающая неопредетенность прогноза Так как оценки параметров в регрессионных моделях основанных на проекционных методах не являются независимыми (при K<J) то с точки зрения классического статистического подхода доверительные интервалы для них неограниченны Для преодоления этого недостатка предлагается использовать метод простого интервального оценивания
3 2 Выводы 1 части
Проекционные методы позвочяют анализировать резучьтаты экспериментов, представляя очень большие наборы данных в компактной и наглядной форме Они дают возможность выявлять существующие содержательные зависимости, как между переменными, так и между образцами Проекционные методы позволяют эффективно решать задачи многомерной калибровки Однако при их применении затруднена оценка неопределенности в прогнозе дчя каждого отдельного образца
ЧАСТЬ II. МЕТОД ПРОСТОГО ИНТЕРВАЛЬНОГО ОЦЕНИВАНИЯ
Простое интервальное оценивание (ПИО) - это метод чиненного моделирования и построения интервальных оценок прогноза в многомерной калибровке ПИО дает резучьтат в удобном интервальном виде, учитывающем все имеющиеся неопределенности погрешности измерения предикторов п откликов, погрешности моделирования, и т п Кроме того, метод ПИО предоставляет новые возможности для построения содержательной классификации вчиятепьности образцов
4. Объяснение ПИО метода
Интервхчьный подход основывается на следующей идее анализа данных -заменить минимизацию суммы квадратов отклонений (метод наименьших квадратов) на систему неравенств, которая решается с помощью линейного программирования Ранее был выполнен ряд важных прикладных работ, в частности получены интересные результаты по анализу информационной ценности кинетических измерений (С Спивак 1984) Кроме того, проводились иссчедования, направлены на построение интервальной оценки параметров моделей (метод центра неопределенностей), что оказалось малоплодотворным
Однако, использование такого подхода может дать интересные резучьтаты, если рассматривать многомерную калибровку (ММК) как задачу построение интервального прогноза отклика В этом случае резучьтат прогноза сразу имеет вид интервала поэтому этот метод называется «простым интервальным оцениванием» (ПИО)
ПИО метод значительно отличается от традиционного, привычного регрессионного подхода, применяемого в задачах калибровки Его «философия» математический аппарат, терминология непривычны для экспериментаторов Исходя из этого перед строгим изложением математических аспектов ПИО, приведено его эчементарное объяснение, основанное на простейших примерах
4 1 Почему погрешности ограничены
Исходным предположением ПИО явчяется ограниченность погрешности измерения Такой взгляд на интерпретацию ^спериментачьных данных нуждается в некотором обосновании При анализе данных стандартным допущением является принцип нормальности погрешностей Однако многочисленные исследования показывают, что, обычно, погрешность измерения скорее ограничена чем нормальна Характерно, что бочьшинство исследователей не связывают с принципом
нормальности факт неограниченности погрешностей Практика показывает, что на стадии предварительной обработки данных исследователи удаляют величины, лежащие за порогом трех или четырех стандартных отклонений В то же время, объем данных, с которым работают сейчас экспериментаторы, часто превышает Ю+0, так что в них уверенно можно было бы ожидать 20-30 «нормальных» значений, выходящих за порог 4ст
Еще один довод в пользу ограниченности погрешностей появляется при применении проекционных подходов Так как эти методы используют формальные линейные модели, которые приближают исследуемые зависимости лишь на ограниченном участке, то при построении таких моделей, периферийные образцы, которые могут нарушить линейность, обычно удаляются Это также приводит к ограниченности погрешностей
4 2 Модельный пример
Рассматривается простейшая одномерная регрессия
V = ха + £ (4 1)
Основным предположением метода ПИО является постулат об ограниченности погрешности измерения £ Его можно сформулировать следующим образом никакая погрешность £ не может превосходить по абсолютной величине некоторую константу Д
РгоЬ(1 £| >Р) = 0 (4 2)
Исследуем выводы, непосредственно вытекающие из этого постулата
Метод наименьших квадратов — МНК про- Метод ПИО I-интервалы ошибок, — гра-гноз, — границы доверительных интервалов ницы предсказанных интервалов
Рис 4 1 Одномерный модельный пример О- обучающие образцы, ■- проверочные образцы
На Рис 4 1 приведены модельные данные, построенные для регрессии (4 1) при а= 1 Погрешность измерения в отклике >• моделировалась с использованием равномерного распределения шириной 1 4, те, /9=0 7 В примере использован очень короткий набор данных Первые четыре образца (С1-С4), являются обу-
чающим набором, используемым для построения модели Последние три образца, (Т1-ТЗ) - проверочные образцы, для которых строится прогноз Не смотря на примитивность примера с его помощью можно объяснить все основные свойства метода ПИО
МНК калибровка Используя обучающие данные (х,, \,) /=1 - 4 (образцы С1-С4) и стандартную методику обработки, можно найти МНК оценку параметра а
а = 1 = 1 004 где Г = —^ V , у = -У\, (4 3)
V 4 I 4 I
и предсказать значения отклика у во всех точках х, как обучающих, так и новых
у = ах (4 4)
Также можно оценить дисперсию погрешности е
<:=тХ(>',-О2 =0 078 (4 5)
3 I
и построить доверительные интервалы для отклика
V* = (4 6)
2х
Здесь и(Р) — это квантиль распределения Стьюдента с тремя степенями свободы для вероятности Р Границы доверительных интервалов для Р=0 95 приведены на Рис 4 1а
ПИО калибровка. Предположим, что значение Р известно, /? =0 7 (в большинстве случаев величина заранее не известна) Из (4 1) и (4 2) следует, что для каждой пары (г„ у,), '=1 -4, из обучающего набора выполняется условие
| -ах, | < Р, или в эквивалентной форме я,1™" < я < я,т" (4 7)
где
тт = \_Л та» = \±£ g)
Неравенства (4 7) должны выполняться одновременно для всех обучающих образцов Так может быть только тогда, когда значений параметра а лежат в интервале
am,"<ci<am" (4 9)
где
д™" = maxam,n, = mina"'", «""" =0 92, я""' = 1 19 (4 10)
Интервал (4 9) определяет обчасть допустимых значений (ОДЗ) параметра а т е таких значений, которые не противоречат экспериментальным данным
Когда параметр а меняется в интервале (4 9), то соответствующая величина отклика \=ах в произвольной точке х ограничена значениями
i'" < v < i'
(4 11)
где
(4 12)
Таким образом, построена интервальная оценка параметра а (4 9) которая является аналогом точечной оценки а, получаемой с помощью МНК Кроме того, найдены и прогнозные интервалы (4 12) для отклика \ справедливые как для обучающих, так и для тюбых других (новых) образцов (Рис 4 1Ь)
Отметим очевидный факт что построение калибровки методом ПИО в нашем примере «держится» только на двух образцах С2 и С4 Именно они задают границы (4 9) возможных значений параметра я так что мы вправе назвать эти образцы граничными Прочие обучающие образцы С1 и СЗ несущественны их можно удалить из обучающего набора и результат останется прежним Это очень важное свойство метода ПИО, которое находит применение в задаче выбора представительного набора образцов Показано, что все образцы из обучающего набора в методе ПИО разделяются на две группы наиболее важные, граничные образцы на которых держится модель и несущественные, внутренние образцы, которые можно удалить из обучающего набора и модель при этом не изменится
4 3 Сходимость интервальных оценок
На другом простом примере проведено сравнение интервальной ПИО-оценки с обычной оценкой метода максимума правдоподобия Рассматривается выборка \=(\| , О из нормального распределения N(<7,(7") усеченного на интервале [а~Р а+р\ Р=ка Требуется построить оценку среднего значения от при известных значениях р и л", и исследовать ее сходимость, т е зависимость точности от объема выборки п
Оценка а по методу максимума правдоподобия или моментов строится как
среднее по выборке =—¿\ и ее точность можно охарактеризовать прибли-
V/!
это нормированная полуширина доверительного интервала (МЬ размах), а — это квантиль нормального распределения
С другой стороны интервальная оценка имеет вид «„„ =[гшп(1 + /?) тах(х -/?)] Нормированную полуширину (ПИО размах) этого интервала соответствующую доверительной вероятности Р можно записать в виде
(4 13)
(4 14)
п
Функции и цА к) зависят от параметра к, который определяет, как проводится отсечение (л^О 2 1 2 3, 4) При 2 рассматриваемое распределение близко к
равномерному, а при л;=4 практически неоттичимо от полного не усеченного нормального распределения
В работе показано, что, в рассматриваемой задаче, ПИО-оценка эффективней оценки ММП, начиная с некоторого объема выборки н„ Однако величина «и зависит от параметра к Чем ближе усеченный закон распределения к нормальному (бочьшие значения к), тем больше должен быть объем выборки, для того, чтобы ПИО-оценка могла конкурировать с ММП оценкой
При рассмотрении более сложной, линейной регрессионной модели, величины в (4 13) и (4 14) будут зависеть не от п, а от матрицы плана эксперимента X Доказательство аналогичного утверждения в общем случае наталкивается на существенные математические сложности, и поэтому не может быть предъявлено С другой стороны, исследование этого вопроса выходит за рамки настоящей работы и может составить, по мнению автора предмет более глубокого изучения специалистами в области математической статистики
4 4 Результат главы 4
В работе показано, что основной постулат ПИО метода об ограниченности погрешностей соответствует сложившейся практике обработки экспериментальных данных Главное (и единственное) предположение об ограниченности погрешности, является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно выглядит более обоснованным, чем традиционное допущение о нормальности, а, следовательно, и неограниченности погрешностей
Метод ПИО не использует никаких исходных предположений о виде распределения погрешности, кроме ее ограниченности Тем самым его можно считать методом, свободным от вида распределения
Показано, что оценки, построенные на основе экстремальных статистик, такие как ПИО интервалы, являются, по-видимому более эффективными чем традиционные гладкие оценки
5. Описание метода ПИО
Эта глава представляет систематическое описание метода ПИО, вводятся основные понятия, определения, приводятся доказательства свойств ПИО метода в общем виде
5 I Область допустимых значений
Рассмотрим модель линейной многомерной калибровки
у = Ха+е , (5 1)
где у - это /-мерный вектор откликов, а - это У-мерный вектор параметров, X -это (/хУ)-мерная матрица предикторов (независимых переменных), е - это /мерный вектор погрешностей Ограниченность погрешности е означает, что существует такая величина /2>0, называемая максимальной погрешностью, что
РгоЬ{|е| > р\= 0, и что для любых О<Ь</3 РгоЬ(|е| >Ь}> О (5 2)
Для любого образца (х„ из обучающего набора, (=1, , /, согласно условию (5 2), можно записать
3< х'а < v*, v, = у, -/?, \= v, + Р
Естественно, что истинное значение вектора параметров а, неизвестно Однако можно рассмотреть все векторы а, которые удовлетворяют этим неравенствам Значения а, которые удовлетворяют условию (5 3) для данного образца i, образуют полосу S(\„ >,) в пространстве параметров R1 Положение и ширина этой полосы определяются значениями (х„ у,) Вектор параметров а удовлетворяет всем неравенствам (5 3) одновременно тогда и только тогда, когда он принадлежит всем полосам
Определение 5 1
Об теть допустимых значений (ОДЗ) А для параметров а системы (5 1) - это множество в пространстве параметров, образованное пересечением всех полос
Д=Р|5(х,,\,) или A = {aeRJ у"<Ха<у + } (5 4)
i=i
Множество А - это замкнутый выпуклый многогранник При этом А является случайным множеством, поскольку оно построено с использованием случайных величин v
5 2 Свойства ОДЗ
Показано, что для любой модели, заданной уравнением (5 1), ОДЗ А обладает следующими свойствами
Свойство 1 Область А является несмещенной оценкой параметра а Непосредственно из определения ОДЗ следует, что истинное значение а всегда принадлежит А РгоЬ{аеД}=1
В частности, это означает, что если область А состоит только из одного элемента, т е Д={а}, то этот элемент равен точному значению параметра а. Свойство 2 Область А ограничена тогда и только тогда, когда матрица X имеет полный ранг, т е rank Х= J
Это означает, что если система (5 1) мультиколлинеарна, те rank X < У, то до использования ПИО метода необходимо применить какую-либо процедуру регуляризации Например, можно использовать стандартный хемометрический подход (раздел 3 1) и спроецировать исходные данные (5 1) на подпространство меньшей размерности
у = ТР'а + f = Tq + f, (5 5)
где матрица счетов Т имеет полный ранг K<J, а затем применить метод ПИО к системе (5 5)
Свойство 3 Область А является состоятельной оценкой параметра а, т е , по построению,
РгоЬ{Лпа}=1 при / —> оо (5 6)
при тех же «слабых» условиях, что и в МНК, те А —»°° при / —>°°
Это свойство означает, что при увеличении количества обучающих образцов, область А стягивается к истинному значению Л
Свойство 4 Область А образована не всеми образцами из обучающего набора, а только некоторыми, называемыми граничными
Это означает, что из обучающего набора можно исключить все образцы кроме граничных, и ОДЗ при этом не изменится
5 3 Предсказание отклика
Используя ОДЗ А, построенную для модели (5 1), можно предсказать отклик \ для любого нового вектора х Если параметр а меняется внутри ОДЗ А, то предсказываемое значение \=х'а принадлежит интервалу
V=[v~,v+] где v"=min(jr'a) v+=max(jr'a) (57)
ае/1 аеЛ
Интервал V является результатом прогноза методом ПИО Для его вычисления не требуется строить область А в явном виде, т к значения v~ и v+ могут быть найдены с помощью стандартных методов линейного программирования которые используются для нахождения оптимального значения (минимума или максимума) линейной функции на выпуклом замкнутом множестве - многограннике А
Кроме того имеется еще интервал калибровки U, который характеризует меру неопределенности в модели
U=[y-ß,}+ß] (5 8)
Величина прогнозного интервал V индивидуальна для каждого образца, а величина интервала калибровки U - общая для всех образов Взаимное расположение этих интервалов (Рис 6 2а) характеризует "качество" прогноза
5 4 Оценка ß
Как правило величина ß неизвестна и вместо нее, используется некоторая оценка b Согласно определению (5 4) ОДЗ А зависит от Ь, и A(h) монотонно расширяется с увеличением b -
ht>b2 => /4(/?,) z> A(b2) (5 9)
Очевидно что
>4(0) = 0, А(ж)*0 (5 10)
Из (5 9)-(5 10) следует, что существует минимальное значение b при котором А(Ь)£ 0 Это значение может быть принято в качестве оценки величины ß
ftmin=min{fc, A(b)±0} (5 11)
Предложенная оценка (5 11) является состоятельной но смещенной, тк hmi„<ß для любого количества образцов / в обучающем наборе Она задает нижний предел всех возможных значений ß Однако, помимо bmw необходимо оценить и верхнюю границу максимальной погрешности
Очевидно, что любая разумная оценка b должна зависеть от двух обстоятельств (1) числа образцов в обучающем наборе, чем больше образцов, тем ближе величина b к ß (2) тяжести крыльев функции распределения погрешностей, чем крылья легче, тем хуже эта оценка Применяя традиционный статистический подход к регрессионным остаткам е = у-у (у - точечная регрессионная оценка отклика, у - экспериментальное значение), можно построить такую оценку b, что
Prob{b>ß]>P и при этом, оценка h максимально близка к ß Имитационное моделирование, проведенное для различного числа образцов в обучающем наборе с использованием различных ограниченных распределений ошибки, показывает, что оценка
, h = х^Х'ХГ'х, (5 12)
У
может быть принята за искомый верхний предел ß с вероятностью Р Здесь С(/, V" Р) - эмпирическая функция которая зависит от числа образцов в обучающем наборе I и от оценки дисперсии остатков ч2 В этом разделе приводятся результаты имитационного моделирования, анализируется поведение функции С(/, Г, Р) в зависимости от числа образцов в выборке (/=10 -250) и тяжести хвостов распределения Рассматривались семь ограниченных на [-1, 1] распределений, полученных из нормальных распределений УУ(0, кг2), при к=0 2, 0 5, 1 0, 1 5, 2 0, 2 5, 3 0
Именно значение ftsic в качестве оценки ß в дальнейшем используется в ПИО методе для определения прогнозных интервалов и для классификации образцов
В принципе, возможно построение и других оценок для величины ß Для грубой оценки, можно предложить практическое правило, которое называется правилом '1-2-3-4 сигма' Если предположить что среднеквадратичный остаток моделирования RMSEC s 1 <т, тогда Ьт1П = 2er, = 3<т и frsic = 4<т Конечно, это правило отражает только тенденцию, однако многочисленные практические примеры подтверждают справедливость этого простого закона
Точность ПИО моделирования Значения bmi„ и ¿>SIt
bm,„<ß<b^c (5 13)
полностью характеризуют точность ПИО моделирования, т е
• Любое априорное значение ß допустимо только в том случае, если оно больше или равно bmin
• Моделирование с помощью ПИО
методов с параметром ¿цк гарантирует, что для образцов из обучающего набора, 'истинное' значение отклика расположено внутри соответствующего прогнозного интервала
• Даже в 'наихудшем' случае, полуширина прогнозного интервала для образцов из обучающего набора меньше или равна fcsic
• Обе оценки ß bmm (5 11) и bsic (5 12) - являются состоятельными Это означает, что для любого значения /7 из интервала (5 13) выполняются свойства 2 и 4 из раздела 5 2, а свойства 1 и 3 выполняется асимптотически
5 5 Результат главы Ч
В этой главе приведены основные понятия и доказаны основные свойства ПИО метода
1 Дано определение и доказаны основные свойства области допустимых значений параметров А Показано, то область А является множественным аналогом точечной оценки неизвестных параметров в регрессионном анализе
/>mc=/vc С(! Г, Р), где hr = max
UM nM
2, Показано, что оценка максимальной пофешноети ¡3 определяет точность калибровки и задает границу воспроизводимости для всех образцов, которые подобны образцам из обучающего набора.
3. Показано, что прогнозные интервалы, полученные методом ПИО, устанавливают индивидуальную неопределенность прогноза отклика для каждого нового образца.
В основе ПИО метода лежит единственное предположение об ограниченности погрешностей. Именно это предположение приводит к оценке параметров модели в виде целой области А. В свою очередь ОДЗ А порождает интервальную оценку откликов у.
6. Классификация статуса образцов
В этой главе предложен новый метод классификации статуса образцов. Для этого рассматривается роль различных обучающих образцов в построении модели, и взаимоотношений новых объектов моделирования с обучающими образцами.
6,1. Характеристики статуса образцов
Для характеристики качества прогноза и формализации понятия «похожих» и «непохожих» образцов в рамках метода ПИО, вводятся следующие понятия.
Пусть имеется ПИО модель, построенная с помощью набора обучающих образцов (Х], >>|), /=1, ,.., I, которая характеризуется своей ОДЗ Л, определенной как пересечение полос (Определение 5Л, уравнение (5.4)), Рассмотрим новый образец, т.е. пару (х, у), с которым связана своя полоса |Г(х, у), определенная неравенствами у - /7 < X' а < у + ¡3. Тогда взаимное положение полосы 5'(х, у) и области А характеризует статус образца (см. Рис. б. 1).
Определение 6.1 Образец (х, у) называется внутренним, если он не изменяет ОДЗ, т.е. А гл 5'(Х, у) = Л, иначе, |х'а — >'| < Р для V ае А.
Любой образец из обучающего набора, по построению, является внутренним. (Рис. ё. 1а,Ъ)
Определение 6.2 Образец (х„ у,) из обучающего набора называется граничным, если существует такой параметр аеЛ , что
Граничные образцы формируют ОДЗ, и, поэтому, являются наиболее важными среди Рис. 6.1 Возможные положения полосы образцов обучающего набора (Рис. 6.1 а), нового образца по отношению к дан- л . л '
ной ОДЗ в пространстве параметров Определение б.З Образец (х, у) называется
внешним, если он уменьшает ОДЗ, т.е.
А п & А, иначе, 3 аеЛ что|х'а - у >/У.
Согласно определениям 6 1 и 6 3 все образцы делятся на внутренние и внешние Однако среди внешних образцов можно провести более детальное различие Определение 6 4 Образец (х, у) называется - выбросом, если он уничтожает ОДЗ, т е Л о 5(х, \) =0 , иначе, |х'а - \| > /? для V ае Л (Рис 6 1с1)
Определение 6 5 Образец (х, у) называется абсо потно внешним, если для любого значения у А гл Б(х, у)* А
В работе показано, что при добавлении в обучающий набор дополнительного образца, в зависимости от статуса этого образца, происходят следующие изменения с ОДЗ А Если образец является внутренним, то, при его добавлении, ОДЗ не изменится, те Л1+1=Л1 Если образец является внешним, но не выбросом, то ОДЗ уменьшится, те Л1+|04|, а добавленный образец станет граничным Если образец является выбросом, то ОДЗ исчезает, т е (Здесь А{ - это ОДЗ, ко-
торая была построена с помощью обучающего набора, состоящего из I образцов) Как следует из пояснений к определениям 6 1-6 4, классификация образцов проявляется не только во взаимном расположении полос и ОДЗ в пространстве параметров, но и во взаимном положении калибровочного, и (5 8) и прогнозного, V (5 7) интервалов Это подтверждается следующими утверждениями, доказанными в работе
Утверждение 6 1 Для всех обучающих образцов выпотняется условие
Утверждение 6 2 Образец является внутренним тогда и только тогда, когда
Утверждение 6 3 Обучающий образец (V, с(7,) является граничным тогда и только тогда, когда
тахСУ.^тахЩ) либо Ш1п(Ц)=т1п({У,)
Утверждение 6 4 Образец является выбросом тогда и только тогда, когда
У пи =0
Утверждение 6 5 Образец является абсо потно-внешним тогда и только тогда, когда для любого значения у
6 2 Диаграмма статуса образцов (ДСО)
Для того чтобы процедуру классификации образцов сделать максимально простой и наглядной, в работе введены следующие величины Определение 6 6 ПИО-остатком называется величина -
У^и^У,, 1=1, ,/
V, пЦ =1/,
Угли ФУ
(6 1)
Величина г представляет разницу между центром прогнозного интервала V ] и значением у (нормированным на Д), поэтому г характеризует смещение Определение 6 7 ПИО-размахом называется величина -
l^M-v-tx)
M 2
(6.2)
Величина /г вычисляется как полуширина прогнозного интервала, деленная на максимальную погрешность, и характеризует /^нормализованную воспроизводи-масть.
Целесообразность зтШк определений раскрывается следующими утверждениями, доказанными в работе.
Утверждение 6.6 Все обучающие образцы удовлетворяют неравенству
\г(х.у)\<\~к(х).
Утверждение 6,7 Образец (х,у) является внутренним тогда и только тогда, когда
Утверждение 6.8 Обучающий образец (х,, _у,) является граничным, тогда и только тогда, когда
Утверждение 6.9 Образец (х,у) является выбросом тогда и только тогда, когда
|г(х,у)|>1+й(х).
Утверждение 6.10 Образец (х,у) является абсолютно-внешним тогда и только тогда, когда
к(\)> 1.
Используя Определения 6.6-6.7 и Утверждения 6.6-6.10, можно построить диаграмму статуса образцов (ДСО), прототип которой показан на Рис. 6.2Ь.
Samples
Э1С Ьиуагадэ
Интервал калибровки (черный), интервал Диаграмма статуса образцов. \ - внутренние, предсказания (серый), (о) - опорное значение, ¡¡-внешние, ¡¡а- абсолютно внешние, ш- вы-
(•) - предсказанное значение бросы
Рис. 6.2. Результаты 11ИО прогноза
При любой размерности исходных данных (X, \) и для любого числа параметров ДСО является двумерной диаграммой и это делает ее мощным инструментом в ММК Утверждения 6 6-6 10 делят плоскость «ПИО-остаток (г)» -«ППО-размах (Ii)» на четыре области каждая из которых соответствует одной из четырех категорий образцов внутренние (область ; на Рис 6 2Ь), внешние (вне области ;) абсочютно-внешние (область на) и выбросы (область ш) На Рис 6 2 показано соответствие результатов ПИО прогноз (т е взаимного расположения интервала калибровки и прогнозного интервала для каждого образца Рис 6 2 а) и кпассификации статуса образцов на ДСО (Рис 6 2 Ь)
6 3 Классификация новых образцов
Когда модель ММК применяется к новым образцам, соответствующие значения \ неизвестны Поэтому нельзя вычислить ПИО-остаток, г (6 1), но всегда можно определить величину ПИО-размаха, /г (6 2) Если размах нового образца больше единицы (/г>1 область на на Рис 6 2Ь) то этот образец не может быть отнесен к типу внутренних ни при каком значении \, т е он является абсолютно-внешним Таким образом для любого обучающего набора можно сконструировать обпасть в пространстве предикторов (счетов), за пределами которой располагаются абсолютно внешние образцы Следующее утверждение, определяет эту область
Утверждение 6 11 Пусть D - это область в пространстве предикторов, образованная всеми возможными линейными комбинациями взвешенных векторов предикторов (или счетов) х, из обучающего набора такими что
Тогда все абсочютно внешние образцы будут расположены вне этой области 6 4 Результаты главы 6 Показано что в общем случае для решения задач ММК ПИО подход позво-чяет ввести новый метод классификации образцов Он базируется на определениях 6 1-6 5 и утверждениях 6 1-65 Для определения статуса образца нет необходимости в явном виде строить ОДЗ в пространстве параметров, что является очень сложной задачей, особенно, если пространство параметров имеет размерность больше чем два или три
Для ПИО классификации достаточно построить диаграмму статуса образцов, которая независимо от исходной размерности задачи, представляется в двумерном пространстве, т е на плоскости Позиция каждого образца на ДСО позволяет определить, подобен ли изучаемый объект образцам из обучающего набора, и тем самым задает разумные границы применимости построенной калибровки, что крайне важно для задач формального моделирования
7. Программная реализация ПИО метода
Разработанные аспекты ПИО метода были реализованы в программе SIC, которая является инструментов анализа экспериментальных данных SIC (Simple Interval Calculations) - это программа, которая работает под управлением системы
Excel, входящей в стандартны fi пакет Microsoft Office. С ее помощью, можно решать задачи Моделирование предсказания отклика, и определения статуса образцов применительно к линейным моделям. В этой главе приведено описание структуры программы SIC , которая состоит из целого набора процедур: |1) предварительной подготовки данных; (2) проекционных регрессионных методой (МГК, РГК, ПЛС 1, ПЛС 2); (3) процедуры приведения исходной задачи к стандартной форме линейной оптимизационной модели; (4) стандартной процедуры Симплекс-метода для решения линейной оптимизационной задачи; (5) вычуюле-
Вся входная информации представляется в виде таблиц рабочих листов Excel. Для того чтобы передать данные в Программу и начать обработку, используется диалоговое окно (Рис. 7.1). С помощью программы SIC можно получить следующую информацию;
• результаты интервального прогноза отклика [v—, V ;
• точечную регрессионную оценку для значений откликов с помощью выбранного регрессионного метода (РГК, ПЛС);
« оценки параметра ß\ birm] и Ьж\
о ПИО-остаток и ПИО-размах;
• Построить диаграмму статуса образцов. Информация выводится как в числовом, так и в графическом виде.
7,1. Результаты главы 7
Устройство системы SIC соответствует современным требованиям к подобным программам. Она имеет простой и привычный интерфейс. Все действия, которые выполняются с помощью Диалога SIC, могут быть осуществлены и с помощью VBA процедур. В программе SIC так же имеются дополнительные функции, осуществляющие декомпозицию исходной задачи одним из выбранных методов: МГК, ПЛС-1, ПЛС-2, Для работы с этими функциями не надо открывать диалог программы SIC, предусмотрено их использование в виде обычных функции рабочего листа Excel, Программа SIC - это инструмент, созданный для интервального и регрессионного анализа сложных данных. Программа систематически используется в этой работе для решения всех прикладных задач.
ЧАСТЬ III. ТЕОРЕТИЧЕСКИЕ И ПРАКТИЧЕСКИЕ АСПЕКТЫ ПРИМЕНЕНИЯ МЕТОДА ПРОСТОГО ИНТЕРВАЛЬНОГО ОЦЕНИВАНИЯ
Эта часть работы посвящена методология применения интервального подхода для решения задач интерпретации физико-химических данных. I Ia примере
ния результатов, оосфоения ДСО. ■■ 'ojîjjav^-,.
1 hx/RSH
_______ r^'ilfe.;
sr;;::^.'
■йлг|.. X jU x*x X« I
fNTestSEt :;fX:JData!|Hpi:|Hlf^j™j|)
• 3............J ■ • ■■■■■ ^ù
fltes :: ЦЦ [titTif'jf JMI
• - ■■ -' fï^ocwnjjr :B;täte ¿S-iii."
■','■;•: г •■^T/Xilf
Рис. 7.1 Диалоговое окно программы SIC
решения актуальных практических задач рассматривается несколько важных теоретических вопросов использования метода ПИО В работе предложены метод определения выбросов, метод формирования представительной выборки, применение интервального подхода для решения задач дискриминации и пр
8. Применение проекционных методов совместно с методом ПИО.
Наглядное представление многофакторных данных
В этой главе излагается общие принципы, применяемые при совместном использовании проекционных регрессионных методов и метода ПИО (Рис 8 1) для исследования свойств образцов и построения калибровок
Проекционный подход базируется на концепции «скрытых (латентных) переменных», или базисных векторов, на которых строится проекционное подпространство Возможность наглядного представления сложных многофакторных данных в проекционном пространстве позволяет исследователю лучше понять и объяснить изучаемые явления При этом возникает необходимость (1) охарактеризовать свойства каждого отдельного образца относительно всей группы образцов и построенной модели, (2) очертить область действия модели, а, следовательно, и надежность прогноза Для этого существует множество эмпирических приемов, но общепризнанного, точного подхода пока не выработано Метод ПИО заполняет эти пробелы и представляет законченную систему классификации образцов, а так же набор однозначных правил для определения статуса (роли) каждого образца в исследуемом наборе данных, в совокупности с математической моделью
8.1 Эксперимент Измерение следовых концентраций нефти в воде с помощью акустических измерений
Результаты ПИО классификации демонстрируется на примере применения акустических измерений с последующей математической обработкой экспериментальных данных для количественного определения следовых концентраций нефти в промышленных сточных водах в режиме реального времени
В качестве матрицы предикторов X использовалась матрица акустических спектров (сигналы вибрационных сенсоров, усиленные и преобразованные с помощью быстрого преобразования Фурье) на 1024 частотах, вектор откликов у -это известные стандартные концентрации нефти (0, 2 5, 5, 10, 20, 50, 100, 300 ррпт) В результате применения ПЛС метода была построена модель, основанная на двух ГК, при этом /?М5ЕС=0 12, и ИМБЕР=0 24 Это можно считать хорошей точностью, учитывая диапазон изменения откликов
Рис 8 1 Общая схема применения проекционных методов совместно с методом ПИО
8 2. Исследование обучающего набора
Сравнение графиков на Рис 8 2 и Рис 8 3 наглядно показывает, какую новую информацию предоставляет ПИО метод, по сравнению с обычным ПЛС методом Сравнивая ДСО (Рис 8 2 а) с графиком влиятетьности Рис 8 2 Ь видно что все наиболее влиятельные образцы (ЫЫ 37 38 и 40), а так же образец, имеющий максимальное значения остатка моделирования (N5), в то же время являются граничными по ПИО классификации
004
003
я э
'Ч 0 02 \
(Я о СС
^ ООН о.
• 5
Ь)
8
• 40 38 * 37
0 05 0 1 0 15 0 2 Р1Л>-1_еуегаде
0 25
ПИО диаграмма статуса образцов
График влиятельности образцов по у
Рис 8 2 Определение следовых концентраций нефти в воде Обучающий набор О- внутренние образцы, • - граничные образцы
ПИО классификация позволяет находить все наиболее влиятельные образцы среди обучающего массива Для определения таких образцов метод ПИО дает однозначное и простое правило (Утверждение 6 8) Таким образом, можно сделать вывод, что концепция граничных образцов имеет смысл и полезна не только внутри самого метода ПИО, а так же объективно характеризует исследуемую структуру данных
8.? Исследование проверочного набора
Важным аспектом ПИО классификации является возможность определения статуса образцов проверочного набора Согласно ПИО классификации (Утверждения 6 7 6 9, 6 10) в проверочном наборе обнаружено 32 внутренних образца и восемь внешних (Рис 8 3 а) Внешними эти образцы могут быть по двум причинам (1) содержать большую погрешность в измерениях откликов, (2) сказывается погрешность моделирования Прогноз на такие образцы является ненадежным Таким является например, образец Т7, что видно по положению прогнозного интервала и по расположению образца на ДСО (Рис 8 3 а и Ь) После выявления таких образцов, их последующий содержательный анализ производится исследователем Другой образец - Т39 (Рис 8 3) является абсолютно внешним Такие образцы по структуре данных в предикторах отличается от обучающих образцов Величина прогнозных интервалов для таких образцов всегда больше, чем Р Принадлежность образца к тому или иному классу определяет качество про-
гноза, т е величину и положение прогнозного интервала, вычисленного ПИО методом
Таким образом, ПИО метод не только позволяет выявить граничные образцы в обучающем наборе, но и представляет подробную информацию для индивидуальной классификации образцов проверочного набора
т12 ,кт39
Ь)
И
И
ПИО-размах
ДСО □ - внутренние образцы, ■ - внешние образцы ▲ - абсолютно внешние образцы
тз т5 т6 т7 т10 т11 т12 т26 т29 т35 т39 т40 Проверочные образцы
ПИО прогноз Черный интервал - гЬ^с. серый интервал - ПИО предсказанный (о) - измеренное значение (•) -ПЛС предсказанное зна-
Рис 8 3 Определение следовых концентраций нефти в воде Проверочный набор
8 4. Исследование выбросов
После того, как калибровочная модель построена, она обычно используется для предсказания откликов новых образцов
Если предсказываемый образец плохо согласуется с моделью, результат предсказания будет плохим т е будет большая неопределенность в прогнозе, или хуже того, неверным, когда предсказанное значение и прогнозный интервал будут лежать далеко от истинного значения
В работе предлагается новый метод определения выпадающих образцов осно-Рис 8 4 ДСО для проверочного набора образцов ванный на методе ПИО Этот Проверочный набор □ - внутренние образцы, ■ - внеш- метод сравнивается с извест-ние образцы, Ж - абсолютно внешние образцы ным методом выпуклых обо.
лочек (Рис 8 4, черный и серый сплошные контуры)
Для обнаружения выпадающих образцов ПИО метод предлагает способ построения в пространстве предикторов области (Рис 8 4 пунктирный контур), которая определяет, в терминологии ПИО, абсолютно внешние образцы (Утв 6 11) Для этого используются значения проекций обучающих образцов на обчасть предикторов, а также результаты ПИО моделирования
Для каждого образца х, из обучающего набора в пространстве предикторов (счетов) вычисляются координаты точек х|" образующих границу области по формуле х* =\12(}(\*(х1)-\' (х,)) Существенным отличием в способе построения этих границ является то, что метод оболочек учитывает только значения предикторов обучающих образов в то время как метод ПИО принимает во внимание еще и результаты моделирования отклика
8 5 Результаты главы 8
В этой главе показано, что в результате объединения нового метода ПИО с известными методами билинейного моделирования (РГК, ПЛС) появляется новый инструмент для визуализации и детального анализа сложных многофакторных данных Этот инструмент дает возможность определять статус каждого образца как из обучающего, так и из проверочного наборов Возможность визуализации больших массивов экспериментальных данных возвращает исследователя к сути изучаемых явлений помогая проследить имеющиеся физические и химические зависимости, оценить качество проведенного эксперимента
Основой для такой визуализации служит классификация статуса образцов которая непосредственно вытекает из метода ПИО Метод ПИО предлагает однозначные правила дта классификации
1 Все обучающие образцы можно разделить на два класса граничные наиболее важные образцы которые формируют модель и внутренние образцы, которые являются избыточными для формирования модели (Утверждения 6 6-6 7)
2 Все проверочные образцы можно детально классифицировать (Утверждения 6 7-6 10) И\ можно разделить на два основных класса внутренние эти образцы наиболее типичны и похожи на образцы из обучающего набора и внешние образцы Среди внешних образцов можно ввести дополнительное разделение абсолютно внешние образцы - эти образцы сильно отличаются от образцов обучающего набора по значениям предикторов X матрицы, выбросы - это образцы, противоречащие данной модели
3 Для новых образцов, у которых значения откпиков \ неизвестны, имеется строгое правило (Утверждения 6 10), выделяющее абсолютно внешние образцы, которые плохо совместимы с построенной моделью Это является существенным достижением ПИО метода, так как гарантирует что при использовании модели для вновь полученных образцов мы не выйдем за область действия модели, т е будем находиться в условиях интерполяции, что чрезвычайно важно при формальном моделировании
9. Сравнение содержательного и формального подхода к анализу кинетических данных
Традиционно для задач анализа кинетических, данных применяется содержательное физико-химическое моделирование, которое базируется на основных; кинетических принципах и позволяет получать оценки параметров с высокой точностью, Однако такой метод может быть применен только тогда, когда модель процесса известна априори. Альтернативой является формальный подход, в котором кинетическая модель явно не используется. При этом экспериментальные данные описываются линейной много фактор ной моделью, справедливой в огра-
Оба подхода имеют свои сильные и слабые стороны. В этой главе проводится сопоставление этих двух походов, рассматриваются методологические вопросы. Применяется как содержательный подход, основанный на нелинейном регрессионном анализе, так и формальный подход, включающий проекции Рис. 9.1 Устройство экспериментальных данных на латентные структу-
ры, в сочетании с методом простого интервального оценивания. Использование одного и того же набора данных, позволяет сравнить оба подхода и сделать выводы о том, в каком случае, какой подход предпочтительнее,
9.1. Эксперимент. Оценка активности антчоксидаптов
Антиоксиданты (ЛО) - это специальные добавки, которые замедляют термо-окислктельное старение полимеров. Исследование эффективности пипижащци-тов в полиолефинах - это длительный и дорогой процесс. Основной характеристикой эффективности АО является период индукции, измеряемый в процессе длительного термостарения. Альтернативой является подход, использующий измерения дифференциальной сканирующей калориметрии (ДСК), с последующей математической обработкой полученных данных.
В эксперименте исследовались 25 образцов АО. Были изготовлены пленки полипропилена (ПП) с АО в концентрациях 0.05% , 0.07%, и 0.1%. ДСК измерения проводились в температурном диапазоне от 150°С до 350"С, где наблюдается экзотермический максимум, связанный с окислением полимера. При этом использовались пять различных скоростей нагрева 2, 5, 10, 15, 20 (град/мин). В результате всех экспериментов мы получили данные (Рис, 9.1), в которых предикторами X являются значениями температур начала окисления (ТНО) полученные
ничейном диапазоне условии.
ЖиМД
ИШ|Р||81
} концентрации ДО
3 концентрации АО
и ДСК эксперименте. Они образуют трех модальный (3-^гау) блок: 25 образцов АО х 3 концентрации АО х 5 скоростей нагрева. Данные У — это значения периодов индукции (ИП), полученные с помощью длительного термического старения: 25 образцов АО х 3 концентрации АО.
9.2. Формальное моделирование
Полученный массив данных обрабатывался е помощью метода проекций на латентные структуры (ШТС) - для калибровки, и метода простого интервального оценивания (ПИ О) - для' построения прогнозных интервалов.
Таб. 9.1 Характеристики ПЛС/ПИО моделей, яопроен пых. для разных начальных значений концентраций АО
Ар х,,,,! У,Ч1| км^с ку. р
0,05 99% 92% 0.287 0.96 0.99 0.84 0.07 99% 88% 0.342 0.93 0.99 1.02 0.10 99% 84% 0.395 0.91 0.97 1.20
кался квадратный корень. В Таб. 9.1 приведены основные характеристики ПЛС/ПИО моделей. Результаты прогнозирования приведены в сводной Таб. 9.2, а на Рие. 9.2 приведены результаты ПЛС/ПИО прогноза для одной модели, соответствующей начальной концентрации =0.05%.
образцы АО
Рис. 9.2. Результаты прогноза периода индукции для различных образцов АО с начальной концентрацией 0.05. Черные точки (•) и серые прямоугольники представляют содержательное (НЛР) предсказание. Открытые квадраты (□) и черные прямоугольники изображают формальное (ПЛС/ПИО) моделирование. Открытые точки (с) соответствуют Измеренным значениям с вертикальными отрезками, которые показывают погрешность измерения (калибровки) [). Из всех величин извлечен квадратный корень
Исходные 3-х модальные X данные раскладывались в плоскую матрицу (25 х 15), Для каждой концентрации. столбца У, строилась отдельная модель. Ввиду ге-тероскедаетичпости ошибки в отклике, из значения У перед моделированием извле-
9 3 Содержательное моделирование
В этом подходе для каждого АО строится своя кинетическая модель, т е в результате получается 25 отдельных нелинейных регрессионных (НЛР) моделей Для каждой модели матрица X - это 5 скоростей нагрева х 3 концентрации АО, и векторы > - это 3 ИП Процедура калибровки этих данных состоит из двух шагов На первом шаге строится модель, описывающая расход антиоксиданта в ходе ДСК эксперимента - это калибровка X данных Регрессионная модель является неявной функцией, связывающей температуру начала окисления (ТНО) Т, начальную концентрацию АО Ац и скорость нагрева V На втором шаге, строится модель для описания расхода АО в ходе длительного термического старения -калибровка У данных
£ RT
+ 1п(А,)-с
ехр
ЕЛ RT
-а
(9 1)
Эта регрессионная модель явно выражает период индукции у как функцию температуры экспозиции ТL и начальной концентрации АО Ац В этой функции участвуют те же кинетические параметры а, Еи, с и Ес , что и в первой модели Их оценки мы находим на первом шаге, а на втором применяется специальная процедура переноса ошибок для того, чтобы оценить неопределенность в прогнозе периода индукции
Опираясь на полученные оценки параметров, можно построить прогноз и доверительные интервалы для периода индукции В качестве инструмента для вычислений использовалась программа Fitter Сводные результаты НЛР прогноза приведены в Таб 9 2 и на Рис 9 2 (для концентрации 0 05%)
9 4 Сравнение методов
Из Таб 9 2 и Рис 9 2, можно сделать следующие выводы Оба метода имеют близкую точность (ряд 1 в Таб 9 2) и смещение (ряд 2)
Таб 9 2 Статистические характеристики прогноза содержатетьным (НЛР) и формальным
(ПЛС/ПИО) методами
Начальная концентрация АО НЛР(/=1, CI) ПЛС/ПИО (i=2, PI)
0 05 0 07 0 10 0 05 0 07 0 10
1 RMSEP 0 242 0 246 0 272 0 239 0 251 0 336
2 Смещение 0 087 0 058 0 040 0011 0 004 0 002
3 Корреляция ) 0 953 0 934 0916 0 953 0 934 0916
4 Среднее (X - Х): 0 224 0 286 0 286 0 286
5 Среднее (w,) 1 038 1 151 1 397 0 934 1 204 1 476
6 Корреляция (W|, wi) 0 202 0 007 0 028 0 202 0 007 0 028
7 Корреляция (>, w,) 0 815 0 846 0 836 -0 184 -0 161 -0 ИЗ
Неопределенность прогноза становится больше, когда начальная концентрация АО увеличивается В целом, ПЛС/ПИО метод дает лучшие результаты для малых начальных концентраций АО, тогда как НЛР лучше для больших концентраций
Однако, точечные оценки (ут т= 1 - НЛР оценка, т=2 - ПЛС/ПИО оценка) в среднем близки (см рядЗ)
Оба метода хорошо моделируют значения X, но содержательный метод (НЛР) делает это немного лучше (ряд 4) Видно (ряд 5), что ширина предсказанных интервалов растет с начальной концентрацией АО Это следует из формулы для содержатечьной модели (9 1) представляющую зависимость ИП от начальной концентрации АО В тоже время в формальной ПЛС/ПИО модели это никак нельзя было предвидеть По-видимому, этот факт является фундаментальным свойством исследуемой полимерной системы а именно, чем больше добавлено АО в образец, тем хуже мы можем предсказать его период индукции Важно, что и содержательный и формальный методы в этом смысле дают сходные результаты Интервальные оценки близки в среднем (ряд 5), хотя доверительные интервалы (>у0 могут сильно отличаться от прогнозных интервалов (у*:) для отдельных образцов (см ряд 6 и Рис 9 2) Последний ряд Таб 9 2 показывает, что ширина растет с увеличением значения периода индукции для всех начальных концентраций АО, тогда как ширина не зависит от у Это свидетельствует о том, что примененное нами преобразование откликов действительно дало ожидаемый эффект в ПЛС/ПИО моделировании, но не смогло исправить результаты НЛР моделирования
Важный аспект при сравнении методов моделирования, состоит в ограничениях на область применимости каждого метода Содержательное моделирование (НЛР) имеет здесь очевидное преимущество т к оно может использоваться для предсказания периода индукции для различных концентраций АО и при разных температурах экспозиции Например, можно построить прогноз периода индукции для одного из исследуемых образцов, при начальной концентрации 0 04 для температур экспозиции в интервале 80°С <Т, < 200°С Эти условия не были исследованы в эксперименте, но могут быть получены с помощью НЛР модели Однако мы не можем точно описать границы допустимой экстраполяции
1 При формальном моделиро-
вании ситуация иная Экстраполяция исключается а область применимости модели к новым образцам можно описать с помощью техники ПИО классификации Для этого используется диаграмма статуса образцов (для проверочного набора ДСО представлена на Рис 9 3)
Все образцы расположенные внутри треугольника (А0-20, 21, , 24) - внутренние, прогноз на них надежен Образцы АО-19 и АО-25 внешние Внешние образцы (если они не выбросы) не противоречат модели но прогноз на них менее надежен Тому могут быть две при-
ао-21 а0-20 • а0-22ч ф > ПИО-размах
0 0 ао-24/ 1
а0-23
• •
ао-19 ао-25
Рис 9 3 ДСО образцов из проверочного набора с А 0=0 07
чины большой размах (АО-25) и смещение (АО-19) Таким образом, используя технику ПИО-статусов, мы можем легко классифицировать новый образец и тем самым ограничить область применимости формального ПЛС/ПИО метода
9 5 Результаты главы 9
Продемонстрированы два подхода к решению одной и той же практической задачи - проверки активности АО Необходимо отметить принципиальную разницу между областями применимости построенных моделей В содержательном подходе таковой является область в пространстве факторов (Т и А0), на которую модель может быть экстраполирована При этом мы имеем дело с одним и тем же АО, который был предварительно исследован методом ДСК При формальном подходе таковой является область новых антиоксидантов, к которым может быть применена построенная ПЛС/ПИО модель В этом случае условия эксперимента т е начальная концентрация АО и скорость нагрева в ДСК, должны быть теми же самыми, что и в исходном обучающем наборе С этим соображением связана и различная тактика планирования эксперимента для улучшения модели В формальной модели необходимо добавить новые образцы АО, отличающиеся от исходного обучающего набора В содержательной модели, для каждого АО строится своя собственная модель поэтому для ее уточнения надо провести дополнительные эксперименты с другими начальными концентрациями того же АО Это повысит точность прогноза именно конкретного АО, и не будет иметь никакого влияния на качество предсказания для других АО
Таким образом, в случае когда целью исследований является предсказание поведения некоторой полимерной системы содержательный подход предпочтителен В спучае когда исследователь жетает сравнить активность различных АО, формальная модель лучше отвечает такой постановке
10. Применение метода ПИО к задачам распознавания
Многомерный анализ данных эффективно используется в задачах качественного анализа Как уже говорилось в разделе 2 2, это широкий класс задач, в которых требуется установить наличие того или иного вещества в пробе, либо принадлежность образца к некоторому классу Методы классификации и дискриминации (см разделы 2 1-2 2), в основе которых лежит проекционный подход, хорошо справляются с мультиколлинеарными данными, отделяя содержательную информацию от шума В этой главе проводится сравнение известных методов МГК (раздел 2 1), Б1МСА (раздел 2 2) и нового подхода объединяющего известный метод ПЛС дискриминации (М 5;очСгот, 1986), дополненный методом ПИО Сравнение методов проводится на примере распознавания фальшивых лекарственных средств с помощью ИК спектроскопии в ближней области (БИК-спектроскопии)
10 1 Комбинированный метод ПЛС дискриминация и метод ПИО
Для разделения образцов на <2 различных классов используется обучающий набор, включающий образцы из всех Q классов В качестве предикторов используется X (/х/) - матрица признаков (измерений) В качестве откликов У вводится матрица искусственных переменных или матрица принадлежности классу Коли-
ч ест в о столбцов в У равно количеству классов (),. Для веек образцов из класса с/ (<1= I,,.., Q), у(] равно 1, а для образцов, не принадлежащих ¿/-ому классу, значения откликов равны -1. Используя набор данных (Х,У), строится ПЛС 2 модель. Для каждого нового образца вычисляется прогнозное значение, по которому и определяют принадлежность образца тому или иному классу. Так как значения отклика вычисляются с некоторой погрешностью, предлагается дополнить метод ПЛС дискриминации, ПИО моделированием. Для образцов из обучающего набора ПИО метод позволяет очертить границы классов, для чего используется интервал калибровки (5.8), т.е. оценка максимальной погрешности ¡}. Для новых образцов необходимо оценить близость предсказанного значения к тому, или иному классу, т.е. к значению уч. В ПИО методе для этого служит интервал предсказания (5.7), характеризующий неопределенность в прогнозе для каждого образца.
10.2. Эксперимент I. Исследование таблеток
Исследовались образцы пищеварительного ферментного средства (панкреатина) в форме таблеток, всего 75 образцов. Набор образцов состоял из 1 ! различных серий подлинных таблеток (обозначенных как С1 — С11) и четырех серий фальсифицированных таблеток (обозначенных — _К4). Каждая серия представлена 5 таблетками из одной упаковки. В качестве матрицы признаков X использовались БИК спектры диффузионного рассеяния Г<(Л) на участке 4000-7500 см"'. (1750 длин волн). Исходные данные преобразовывались как —
10.3. Математическая обработка данных
Результаты применения МГК и $1МСА не дают надежного разделения на искомые классы (Рис. 10.1).
Метод 51МСД для 2 ГК МПС для 3 ГК, график счетов
Рис. 10,1 Определение фальсифицированных лекарств (таблетки). обучающий набор,о-поллийные образцы, И-фальсифицнрованные образцы
Для того чтобы повысить надежность распознавания, основное внимание при моделировании должно уделяться различию между классами, а не индивидуальным особенностям образцов внутри класса. Для этого применяется метод ПЛС
дискриминации совместно с ГТИО методом. Обучающий набор формируется как из подлинных (Ст1 -ОЗ, по 5 таблеток), так и из фальшивых , Р2 по 4 таблетки) образцов. При этом удастся построить модель распознавания, которая надежно различает фальшивые и настоящие таблетки, а так же предоставляет дополнительную информацию, характеризующую различные серии образцов. ПЛС модель строилась с использованием 2 ГК, а Г1ИО модель с /::<га1Г|=0.23 и /^[<"0,46. Результаты предсказания на проверочном наборе представлены на Рис. 10.2. Образцы всех серий О надежно распознаются как подлинные, а серий Р - как фальшивые.
Рис. 10.2 Определений фальсифицированных лекарств (таблетки), проверочный набор. Черный интервал -ПИО калибровочный, серый - ПИО предсказанный , (о) - опорные значения, (•) -ПЛС предсказанные значения
Относительно образцов из серии В4 можно заключить следующее: (1) их нельзя отнести к классу подлинных образцов; (2) эти образцы существенно отличаются от серий Р1-РЗ. Можно предположить, что фальсификат Р4 был сделан иным производителем, чем серии БЬБЗ, либо серия Р4 была произведена из другого сырья. Как показывает опыт, для фальсифицированных образцов характерен больший разброс между образцами внутри серии, а так же между сериями по сравнению с подлинными образцами. По всей видимости, это можно объяснить низкой технологической дисциплиной производителем фальсификата.
10.4. Эксперимент 2. Исследование ампул
Исследовался глюкокортикоетеройдный препарат в растворимой форме. Образцы - это запаянные ампулы темного стекла с 4% водным раствором активного вещества, две серии подлинных образцов, С1 и С2, и одна серия поддельных, серия Р1, по 15 ампул в каждой серии, всего 45 образцов, Измерялись ЬИК спектры пропускания, ампулы не вскрывались. Для исследования использовались две информативные спектральные области: 5500 - 6400 см"' и 7200 - 9000 см'1, всего 702 длинны волны.
10.5. Математическая обработка данных
Так же как и в предыдущем примере, результаты применения МГК и БМСА не дают надежного разделения на искомые классы, часть образцов подлинных лекарств из проверочного набора классифицируется как не входящие в этот класс.
Дополнив результаты ПЛС дискриминации ПИО моделированием, можно заметить, что величина интервала калибровки достаточно велика, т.е. построенная модель несет и себе существенную неопределенность. Для ПИО модели были вычислены значения /;т|п=0.48 и ЬЙ1С=0.75. Сходными являются и результаты распознавания для проверочного набора. ПИО метод показывает, что, несмотря на достаточно хорошие точечные оценки, ширина интервала калибровки (Рис. 10.3, черные отрезки) весьма велика, хотя классы и не перекрываются, т.е. образцы обучающего набора надежно разделяются на два класса.
Рис. ! 0.3 Определение фальсифицированных лекарств (ампулы), Обучающий набор. Черный интервал - 111-10 калибровочный, серый - ПИО предсказанный, (о) - опорные значения, (•) -
! !ЛС предсказанные значения
10.6. Результаты главы 10
Проведено сравнение различных методов классификации, как без обучения, так и с обучением. Показано, что точечных оценок, получаемых методом Г1ЛС дискриминации, не достаточно для надежного разделения классов и последующего распознавания новых образцов, так как понятие "близости" к классу должно иметь численное выражение. Дополнение ПЛС дискриминации методом ПИО дает следующие преимущества.
1. Интервал калибровки (значение величины получаемый в результате ПИО моделирования, позволяет очертить точную границу каждого класса.
2. Индивидуальный ПИО интервал предсказания позволяет численно охарактеризовать близость образца к тому или иному классу.
3. ПИО классификация статуса образцов позволяет охарактеризовать однородность образцов внутри одного класса, а так же выявить образцы или группы образцов с особыми свойствами, отличающими их от образцов предопределенных классов.
К практическим результатам данной главы следует отнести эффективность предложенного подхода к экспресс-распознаванию фальсифицированных лекарств, сочетающего методы БИК спектроскопии с последующей математической обработкой экспериментальных данных Полученные результаты показывают что для надежного распознавания фальшивых лекарств необходим большой экспериментальный материал и критический отбор образцов, как в обучающий, так и в проверочный наборы
11. Аналитический контроль процессов
Это направление - аналитический контроль процессов (АКП) - заслуживает особого внимания, поскольку в нем наиболее ярко проявились тенденции и перспективы развития общего подхода объединяющего физико-химические эксперименты, проводимые в режиме реального времени, с математическими методами многомерного анализа данных В основе АКП лежит многомерный статистический контроль процессов - МСКП (MacGregor, 1995) МСКП во многом напоминает анализ многоканальных физико-химических данных (например, спектров) эволюционирующих во времени Идея МСКП состоит в применении метода главных компонент для анализа исторических данных о ходе процесса и построении контрольных пределов в пространстве счетов с помощью расстояния Маха-ланобиса Для осуществления МСКП собирается информация об изучаемом процессе инструментальных показатели X, и показатели, отражающие конечный результат т е выходные переменные, Y На основе исторического набора (X Y) строится линейная модель калибровки, с помощью которой отслеживается текущее состояние процесса и проверяется, находится ли процесс внутри допустимых границ Исследуя построенную модель можно предложить план действий по корректировке процесса Однако такая оптимизация будет оптимизацией post factum Наиболее ценной является оптимизация in situ позволяющая осуществлять корректировку по ходу самого процесса, для того чтобы улучшить будущие выходные показатели Эта глава посвящена расширению метода МСКП Предлагается подход, который определяет действия по оптимизации процесса в режиме in-line, названный многомерной статистической оптимизацией процессов (МСОП) Для его реализации используется сочетание ПЛС регрессии и метода ПИО
11.1. Описание исследуемого процесса
Теоретические разработки иллюстрируются модельным примером многостадийного химического процесса, который представлен 25 инструментальными переменными X (У=25) и одной выходной переменной у, назовем этот показатель "качеством" (например чистота производимого продукта) Исследуется набор данных (X, j) состоящий из /=154 наблюдений, "образцов" Весь процесс разделен на 7 стадий (¿=7) в дальнейшем обозначаемых римскими цифрами Каждую стадию можно описать входными, текущими и выходными, «будущими» переменными Все переменные, которые измерены на предыдущих стадиях, считаются входными переменными (предикторами), и их значения фиксированы Текущие переменные являются контролируемыми переменными, их можно изменять на текущей стадии Все переменные, характеризующие последующие стадии, на
данный момент рассматриваются как отклики, которые, в принципе, можно предсказывать. По мере продвижения вдоль процесса, роли переменных меняются. Весь набор данных (X, у) разделен вертикально (по столбцам) на L блоков, соответствующих стадиям процесса'. Х=(Х], Хц,..., XL). Последний блок L+1 состоит из одной переменной, характеризующей "качество" У=у. Все данные- центрированы, и шкалированы таким образом, что каждая переменная, включая выходную переменную у, изменяется в интервале (-1, +1). Значения переменных вне Этого интервала считаются недопустимыми. Также предполагается, что наивысшее качество характеризуется значением >—+1, а наихудшее, но допустимое, соответствует >--1. Данные были разделены на две части: обучающий набор (102 образца), и проверочный, или тестовый набор (52 образца).
11.2. Контроль процесса
Для начала рассматривается аналитический контроль процесса без попыток вмешательства в него. Такой подход можно назвать пассивной оптимизацией. Для реализации этого подхода предлагается использовать метод расширяющегося МСКП, который основан на концепции мультн-блоковой регрессии (А. Höskuldsson, 2001).
1.0 0.5
Й о.о
сз
° т
■1.0
Sample 52
I I i !
I
-Ш
1 1 1 1 1 1 1 ] 1 1 1 i i i i
1 1 Р Ф «f ♦
1 iv
2 3 ia 3 Е
3 з
Process variables
v |
VI
= 9
S 2 -I
vii
3
Рис. 11,1 Предсказание показателя «качество» на каждой стадии процесса для образца из проверочного набора, ПИО интервал (серый прямоугольник), ПЛС прогноз (черные кружки).
Ромб в правой части - актуальное значение у.
Используя весь набор данных, можно построить полную ПЛС модель
ХУ: X у . (11.1)
в которой задействовано К главных компонент. На тех же данных можно построить серию из ¿-1 ПЛС регрессионных моделей
Здесь каждая модель обозначается оператором ХУм> который представляет регрессию Х-блока, Х(№ на У-блок, у. Все модели (11.2) используют одно и тоже число ПЛС компонент К, которое выбирается при анализе полной модели (11.Г).
Основной целью моделирования является предсказания выходной переменной у на каждой (М-ой) стадии процесса. Для оценки неопределенности в Прогнозе применяется метод ПИО. Результат применение расширяющегося МСКП к одну из образцов проверочного набора приведен на Рис. ПЛ.
11.3. Оптимизация процесса
В этом разделе рассматривается задача выбора корректирующих значений инструментальных переменных по ходу процесса. Проблема состоит в оптимизации значений контролируемых переменных Х(щ, которые являются входными для следующей (М-ой) стадии процесса. При этом выборе необходимо придерживаться двух основных принципов. Подправленные величины входных переменных, во-первых, должны повышать значение переменной у; и, во-вторых, значения этих переменных должны находиться внутри допустимых контролируемых границ. Предлагаемый подход базируется на концепции статуса образцов метода ПИО.
-1.0 о.о 1.о *Ш о.о ю
Quality, у Quality, у
Рис. 11.2 Распределение образцов по переменной «качество»: а) Контрольный набор (до оптимизации), Ь) Оптимизация, тип «внутренний» - С \('/,), с) Оптимизация, тип «внешний» - С2(Щ, с]) Оптимизация, тип «выбросы» - С!3(2)
Для построения решения в общем случае, рассматриваются два блока инструментальных переменных — X и Ъ — известные реализации процесса, и соответствующий им вектор у. Целью является предсказания величины у для набора инструментальных переменных (х, г), в котором значения г неизвестны. Значения х, которые ассоциируются с блоком К, известны, и их можно использовать кал; зда предсказания значений г, так и значения у. Требуется найти такие значения г, которые будут оптимизировать значение у, при условии, что /е Д, - области допустимых значений ¿.
Вычисление оптимальных значении 7* происходит в два этапа На первом этапе с использованием исторических данных (X, Z), строится ПЛС 2 калибровка, и оцениваются значения z = ХХ(х)
XX X=>Z , те Z = XX(X) = XD (113)
Здесь D - это матрица параметров модели
При этом, по построению, г является допустимым решением и, спедовательно, принадлежит области L, Вторым этапом является изменение каждого компонента вектора г до тех пор пока новый вектор ч* будет оставаться в пределах области L, Это действие можно представить с помощью оператора G G(7) = 7+ который определяет стратегию оптимизации Идея классификации статуса образцов дает инструмент с помощью которого можно выбрать различные стратегии оптимизации т е оператор G На Рис 11 2 представлены результаты применения трех различных стратегий оптимизации к тестовому набору из 52 образцов процесса (раздел 111)
114 Результаты главы 11
Разработан новый метод аналитического контроля процессов расширяющийся МСКП, основанный на построении серии регрессионных ПЛС моделей совместно с ПИО моделированием ПЛС модели позволяют на каждой стадии процесса предсказывать точечные оценки выходного параметра, а ПИО метод добавляет к этой оценки интервал предсказания Представленный подход помогает предсказать результат планируемых действий по целенаправленному изменению выходного показателя, \ и осуществить пассивную оптимизацию Такой подход может быть особенно важным в случае когда длительность контролируемого процесса велика
Разработан новый метод аналитической оптимизации процессов который основывается на блочном ПЛС и ПИО методе Исследования показывают что для улучшения выходного показателя \ необходимы корректирующие действия, которые, с одной стороны остаются в рамках изучаемого процесса а с другой требуют вывода значений контролируемых переменных на границы возможных значений Предложенный подход включает регулирование контролируемых инструментальных переменных на промежуточных стадиях, и предлагает набор стратегий для таких действий Активная оптимизация основывается на теории классификации статуса образцов метода ПИО
12. Формирование представительной выборки образцов
На практике, при решении задачи переноса калибровок с одного прибора на другой при работе с большими наборами экспериментальных данных, и в других случая возникает потребность выбрать из общего набора (X,Y), представительный более короткий набор Необходимо, чтобы такая выборка отвечала двум основным требованиям во-первых она должна представлять всю вариабельность данных полного набора, во-вторых, число образцов в такой выборке должно быть существенно меньше, чем в исходном наборе Сам по себе термин «представительная» или «репрезентативная» выборка является неоднозначным и может
трактоваться по-разному, в зависимости от поставленной задачи В нашем случае, целью является выбрать из имеющегося набора данных наиболее влиятельные образцы использовать эти образцы в качестве нового обучающего набора и на их основе построить калибровку, которая по своей предсказательной способности не уступала бы модели, построенной на полном обучающем наборе
12 1 Теория
В этой главе предложено применение ПИО для формирования представительной выборки - метод граничных образцов Проводится сравнение полученных результатов с двумя наиболее известными и эффективными методами отбора методом Кеннарда-Стоуна и Б-оптимальным планированием
Метод граничных образцов. В соответствии с методом ПИО, все обучающие образцы являются внутренними (Определение 6 1) относительно модели Среди них выделяются специальные образцы, которые называются граничными (Определение 6 2) Граничные образцы формируют ОДЗ А в ПИО моделировании Следовательно, если в обучающем наборе оставить только граничные образцы то оценка неизвестных параметров ПИО модели, область А, не изменятся Поэтому набор граничных образцов формирует представительную выборку
Метод Кеннарда-Стоуна осуществляет выбор образцов «равномерно» по всей области При этом рассматриваются только данные в матрице X, значения у не учитываются К достоинствам алгоритма надо отнести (1) простоту реализации, (2) алгоритм может применяться к любой матрице предикторов независимо от того, имеет она полный ранг или нет
О-оптимальный план выбирает образцы так, чтобы максимизировать определитель информационной матрицы, ёеКХ'Х), линейной регрессионной модели При этом выбираются образцы наиболее удаленные от среднего значения Когда число переменных в X превышает число образцов, информационная матрица становится вырожденной и процедуру О-оптимального планирования нельзя применить непосредственно, а только после регуляризации задачи
Обозначения и схема исследования Эффективность приведенных методов формирования представительных выборок демонстрируется на трех различных наборах экспериментальных данных Для сравнения различных наборов и моделей используются несколько показателей ИМБЕС (3 5) ИМБЕР (3 6), ПИО остатки (6 1) и ПЛС остатки для У-переменных = V- \ , ПИО размах (6 2) и ПЛС размах (2 5) При этом применяется одна и та же схема построения моделей
1 Строится ПЛС модель, Модель_<3, на основе (2 набора, с фиксированным число ГК, и соответствующая ПИО модель, с фиксированным значением ¿\1с Здесь - это В, или К, или Б
2 Модель_С> проверяется с помощью проверочного Т набора (12 1)
3 Модель_<3 используется для предсказания образцов из избыточного набора ИС)
4 Результаты калибровки и предсказания сравниваются с результатами полученными для Модели_С
и способы выбора и проверки поднаборов (Рис 12 1)
Рис 12 I Исследуемые наборы к соответствующие им моде пи
12 2 Эксперименты
Для сравнения различных методов используются три набора экспериментальных данных Первый - это БИК спектры, используемые для определения процентного содержания влаги в зернах пшеницы Для 139 образцов, влажность измерялась в лаборатории с помощью стандартного метода высушивания навесок Эти результаты использовались в качестве опорных значений, у (139x1) В качестве Х-данных использовались значения спектров пропускания - lgТ(Л), в диапазоне 908-1120 nm (118 длин волн) Второй пример - это определение следовых концентраций нефти в воде (раздел 8 1), третий пример - это данные по аналитическому контротю процесса (раздел 111)
12 3 Сравнение репрезентативности различных выборок
Для того чтобы сравнить подход, основанный на граничных образцах с уже известными методами, подробно изучался первый пример Для этого, 10 раз повторялась следующая процедура
1 Набор исходных данных (G набор, /с,= 139) случайным образом делится на обучающий (С набор, /с= 99) и проверочный (Т набор, ¡¡= 40)
2 Дтя каждой такой пары С и Т наборов строятся ПЛС модель с 4 ГК, и соответствующая ей ПИО модель с bSK =1 5 (Модель_С)
3 Для каждого С-набора вычисляются свои В-, К-, и D-наборы и к ним применяется процедура (12 1)
Результаты такого моделирования (Таб 12 1) подтверждают эффективность ПИО подхода Применение метода граничных образцов к двум другим примерам приводит к аналогичным результатам
Таб 12 I Определение вта*ности зерна ПЛС чодетн с 4 ГК Выбор представительных наборов
и оценка основных свойств для 10 обучающих/проверочных наборов
# /в Модель_С Модель _В Модель _К Модель
ЯМБЕС ЯМ8ЕР ЯМБЕС ЯМБЕР ЯМБЕС ЯМБЕР ЯМ Б ЕС ЯМБЕР
1 18 0 258 0 359 0 328 0 372 0 209 0 362 0 155 0 362
2 19 0 309 0 227 0 456 0 249 0 304 0 281 0 289 0 267
3 19 0 280 0312 0 426 0 330 0212 0 339 0 266 0 335
4 21 0 292 0 281 0 471 0 305 0 253 0 304 0 295 0 325
5 24 0 289 0 287 0 449 0 278 0 305 0 293 0 245 0311
6 21 0 292 0 281 0 471 0 305 0 253 0 304 0 295 0 325
7 18 0 290 0 292 0 469 0 278 0 264 0 283 0 258 0 289
8 21 0 284 0 304 0 423 0317 0 202 0 328 0 244 0319
9 22 0 277 0315 0 477 0 329 0 274 0 334 0 224 0 348
10 21 0 295 0 276 0 453 0318 0 206 0315 0 234 0 342
Среднее 0 287 0.293 0 442 0.308 0 248 0.314 0 251 0.322
В работе показано, что предположение о граничных образцах, как наиболее влиятельных, подтверждается еще и тем фактом, что предсказание "избыточных" образцов, составленный из всех внутренних образцов обучающего набора осуществляется с наименьшей ошибкой предсказания (Таб 12 2), а все "избыточные" образцы классифицируются как внутренние При этом необходимо учитывать, что согласно схеме (12 1), после отбора представительных образцов строится новая ПЛС модель на основе представительной выборки, и только потом ПИО модель Так что "избыточность" внутренних образцов для новой модели не является очевидным фактом
Таб 12 2 Точность предсказания "избыточных" образцов с помощью различных представительных выборок
Модель ЯМ8ЕС ЯМБЕР
Модель _С (для сравнения) 0 280 0312
Модель_В 0 426 0 246
Модеть_К 0212 0 311
Модель_Б 0 266 0 305
12 4 Зависимость точности предсказания от объема представительной выборки
В некоторых сзучаях, объем представительной выборки определенной по методу граничных образцов может показаться цзтишне большим Так например для третьего набора данных аналитического контроля процессов он составит 45% (46 из 102 образцов) Поэтому важно исследовать как влияет объем выборки на предсказательные свойства модели Согласно методу ПИО минимальное число граничных образцов определяются при /?= />тш В рассматриваемом примере этот набор состоит из 8 образцов(7ц>8) Последовательно увеличивая Ь с Ь= 1>т1П до Ь= Ь^к получаем расширяющийся В набор
Put 12 2 Аналитический контропь процесса ГПС модеш с 7 I К Зависимость RMSE or объема выборки 1 - Модепь_В 2 - Модепь _К 3 - Модель _D 4 - Модепь_С
Параллельно, для сравнения, применяя метод Кеннарда-Стоуна и D оптимальное планирование строятся К - и D наборы, с таким же числом образцов Для каждого из этих наборов строится ПЛС модель с 7 ГК вычистяются значения RMSEC а также значения RMSEP на одном и том же проверочном наборе Т При этом величины RMSEC и RMSEP можно рассматривать как функции зависящие от объема выборки (Рис 12 2), которые вычисляются для трех моделей (Модель_В Модель_К Модель_В) Из Рис 12 2Ь, кривая 1 видно что для В наборов функция RMSEPdn) достаточно плавно убывает Она быстрее чем для наборов К и D стремится к предельному значению RMSEP(I() При этом остаток калибровки (Рис 12 2а кривая 1) RMSEC(Iп) все время остается наибольшим по сравнению с аналогичными значениями вычисленными для наборов К и D те В-набор аккумулирует в себе наиболее влиятельные обучающие образцы
Из Рис 12 2 b так же видно что если целью является выбор такого короткого набора образцов который мог бы использоваться вместо полного обучающего набора и при этом предсказательная способность модели не ухудшилась, то необходимо не менее 42 образцов В набора Это подтверждает не только влиятельность граничных образцов, а так же показывает, что объем выборки, предлагаемый методом ПИО близок к оптимальному
12 5 Результаты главы 12
В этой главе представлен новый метод формирования представительной выборки - метод граничных образцов Он основывается на методе ПИО (теория классификации статуса образцов), объединенным с регрессионными проекционными методами (РГК, ПЛС) Показано что стратегия выбора граничных образцов является объективной, т е не требует никакой дополнительной или априорной информации, которую невозможно было бы получить из исследуемого набора данных Показано, что граничные образцы, которые формируют представительную выборку являются влиятельными образцами не только с точки зрения ПИО моделирования, но они так же являются влиятельными образцами и при регрессионном моделировании Метод граничных образцов имеет следующие преимущества Во-первых он однозначно определяет необходимое число образцов в представительной выборке Во-вторых, при отборе образцов, учитывается информация, как о значениях Х- переменных, так и У- переменных
Термин «избыточные» образцы, который применялся к внутренним образцам обучающего набора, не следует трактовать непосредственно Чем больше образцов в обучающем наборе, тем точнее можно определить число главных компонент в ПЛС или РГК моделях, а так же получить более точную оценку />чс
Три различных набора экспериментальных данных, представленные в этой главе были порождены различными практическими задачами, они отличаются друг от друга, как по внутреннему устройству данных, так и по сложности построенных для них ПЛС моделей Это доказывает эффективность работы метода применительно к различным задачам
Анализируя три стратегии формирования представительной выборки, можно сделать следующие выводы Метод Кеннарда-Стоуна эффективен в том случае когда исходный набор данных требуется разделить на равноценные наборы, например обучающий и проверочный Этот метод выбирает образы равномерно, поэтому он менее эффективен при отборе наиболее влиятельных образцов Методы О оптимального планирования и граничных образцов работаю более эффективно при отборе влиятельных образцов При этом у метода граничных образцов имеются несколько преимуществ Во-первых, он однозначно определяет необходимое число образцов в представительной выборке для исследуемого набора данных и построенной модели Во-вторых, при отборе образцов учитывается информация, как о значениях X переменных, так и У переменных
ЗАКЛЮЧЕНИЕ И ВЫВОДЫ
В работе рассмотрены теоретические, алгоритмические и методологические аспекты методов обработки больших массивов физико-химических данных Обобщая полученные результаты, можно сформулировать следующие выводы
1 Объединение проекционных регрессионных методов с методом простого интервального оценивания порождает мощный инструмент для решения задач многомерной калибровки Такой подход позволяет обрабатывать очень большие массивы экспериментальных данных, пронизанных внутренними связями, и пред-
ставлять результат прогноза в интервальной форме, учитывающей неопределенность в прогнозе индивидуально для каждого образца
2 Предположение об ограниченности погрешностей, лежащее в основе метода ПИО, является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно более обоснованно, чем традиционное допущение о нормальности, а, следовательно, и неограниченности погрешностей
3 Приведены аргументы в пользу того, что ПИО-оценки, построенные на основе экстремальных статистик, являются более эффективными, чем традиционные гладкие оценки
4 Показано, что метод ПИО вычиспяет оценки неизвестных параметров модели в виде области в пространстве параметров, что, в свою очередь, позвопяет представить результаты прогноза отклика в интервальном виде, учитывающим все погрешности (измерения, моделирования и пр )
5 На основе метода ПИО разработан новый подход к классификации статуса образцов и интерпретации прогнозных интервалов Введены новые понятия ПИО-остаток и ПИО-размах, диаграмма статуса образцов (ДСО) Даны определения понятиям внутренних, внешних, граничных образцов Дано опредетение выбросов и абсолютно внешних образцов
6 Показано, что разработанная классификации образцов имеет практическое значение не только в рамках метода ПИО Статус образца имеет смысл и в рамках классических регрессионных моделей, а диаграмма статуса образцов является простым и удобным инструментом для визуализации и детального анализа сложных многофакторных данных
7 Разработаны новые методы статистического контроля процессов Метод, названный расширяющимся многомерном статистическим контролем основан на построении серии ПЛС моделей, совместно с ПИО моделированием Он позволяет вычислять как точечные, так и интервальные оценки выходного параметра на промежуточных стадиях процесса Предложен метод активной оптимизации, разработаны различные стратегии оптимизации
8 Предложен новый метод выбора представительных (влиятельных) образцов из экспериментального набора данных, названный методом граничных образов
9 Проведено сравнение формального (ПИО) и содержатечьного (нелинейная регрессия) моделирования Показано, что содержательный подход позволяет проводить экстраполирование, однако при этом нельзя ограничить область экстраполяции Формальный метод имеет строгую область применимости, очерченную с помощью техники ПИО статуса Он дает надежные результаты при решении задач классификации или интерполяции
10 Показано, что дополнение стандартного метода ПЛС дискриминации методом ПИО повышает информативность при решении задач качественного анализа и распознавания
11 Задачей количественного анализа явтяется надежное предсказание откликов для новых образцов Для сравнения различных моделей необходимы методы анализа их предсказательной способности Сравнения моделей только по средним показатетям недостаточно Предлагается для такого сравнения использовать диаграмму статуса образцов построенную дня проверочного набора и индивидуальные характеристики (ПИО размах и ПИО остаток) для каждого образца
12 Компьютерная программа SIC позволяет на практике применить предложенную методику, объединяющую проекционные регрессионных методов и ПИО моделирования С ее помощью можно проводить обработку данных, оценивать точность построенной модели, проводить классификацию образцов
Основное содержание диссертации опубликовано в работах:
1 Павлов Б В , Родионова О Е Математическое моделирование сложных самоускоряющихся реакций Теор основы mim техноюгии, 28, 251-258 (1994)
2 Павлов Б В , Родионова О Е Численное решение систем линейных обыкновенных дифференциальных уравнений с постоянными коэффициентами Ж вычиа \iame\i и машем фаз , 34, 622-627 (1994)
3 Павлов Б В , Родионова О Е Методика усреднения при дискретизации кинетического интегро-дифференциального уравнения Ж вычиа машем и машем физ , 36, 143-161 (1996)
4 Павлов Б В , Родионова О Е Проблемы математического моделирования в неравновесной теории химических процессов Хим физ , 17, 27-40 (1998)
5 Bystritskaya Е V , Pomerantsev A L , Rodionova О Ye Prediction ot the aging of polymer materials Chemom Iniell Lab Syst ,47,175-179(1999)
6 Bystritskaya E V , Pomerantsev A L , Rodionova О Ye Evolutionary Design of Experiment tor Accelerated Aging Tests Pohmer Testing, 19, 221-229 (1999)
7 Pomerantsev A L , Rodionova О Ye Chemometncs in Russia Chemom Intell luib Syst, 48, 121-129(1999)
8 Bystritskaya E V , Pomerantsev A L , Rodionova О Ye Nonlinear Regression Analysis New Approach to Traditional Implementations J Chemometrits, 14, 667-692 (2000)
9 Зобов В E , Лундин A A , Родионова О E К теории формы спектров ядерного магнитного резонанса в гетероядерных спиновых системах Хим физ 19 (2), 39-43, (2000)
10 Зобов В Е , Лундин А А , Родионова О Е К теории форм спектров ЯМР в спиновых системах с двумя сортами яде Хим физ , 19 (12), 26-40 (2000)
11 Зобов В Е , Лундин А А , Родионова О Е О форме спектров поглощения ЯМР и кросс релаксации в гетероядерных спиновых системах ЖЭТФ, 120, 619-636 (2001)
12 Померанцев АЛ, Кротов АС, Родионова ОЕ Компьютерная система FITTER д ¡я регрессионного анализа экспериментальных данных, Учебное пособие, Барнаул, Из -во АГУ, 2001
13 Померанцев А Л , Родионова О Е Надстройка FITTER (FITTER") Свидетельство об официальной регистрации № 2002611562 от 11 09 02
14 Pomerantsev A L , Rodionova О Ye Prediction of Antioxidants Activity Using DSC Measurements A Feasibility Study In Aging of pohmers polymer blends and pohmer composites, Eds E Zaikov, A L Buchachenko and V В Ivanov, 2. 19-29, Nova science Publishers, NY, 2002 (ISBN 1-59033-256-3)
15 Родионова О E , Померанцев А Л Об одном методе решения обратной кинетической задачи по спектральным данным при неизвестных спектрах компонент Кинетика и катана 45, 485-497 (2004)
16 Rodionova О Ye , Pomerantsev AL Prediction of Rubber Stability by Accelerated Aging Test Modeling In Leading Edge Research on Polymers and Composites, Eds Monakov et al, cc 105-124, Nova science Publishers, NY 2004, (ISBN 1-59033-975-4)
17 Rodionova О Ye , Esbensen К H , Pomerantsev A L Application of SIC (Simple Interval Calculation) for object status classification and outlier detection - comparison with PLS/PCR J Chemometrics, 18, 402-413 ( 2004)
18 Rodionova О Ye , Pomerantsev A L Principles of Simple Interval Calculations In Progress In Chemometrics Research, Ed A L Pomerantsev, 43-64 NovaS-cience Publishers, NY 2005, (ISBN 1-59454-257-0)
19 Pomerantsev A L , Rodionova О Ye Multivariate Statistical Process Control and Optimization Там же. 209-227
20 Semenchenko A S Semenchenko S M Rodionova О Ye Pomerantsev A L Explanatory data analysis offish culture in Siberian lakes Там же, 313-321
21 Rodionova О Ye , Pomerantsev A L Prediction of Rubber Stability by Accelerated Aging Test Modeling J Appl Pol\m Sci, 95, 1275-1284 (2005)
22 Померанцев А Л , Родионова О E Содержательный и формальный подход к анализу кинетических данных В сб Химическая и биоюгическая кинетика Новые горизонты М Химия. 1, 124-172, 2005 (ISBN 5-98109-035-9)
23 Родионова О Е , Померанцев А Л Оценивание параметров в уравнении Ар-рениуса Кинетика и катализ, 46 329-332 (2005)
24 Pomerantsev A L , Rodionova О Ye Hard and soft approaches to analysis of kinetic data In Chemical and Biochemical kinetics New horizons, Eds E В Bur-lakova, A E Shilo\ S D Varfolomeev, G E Zaikov Brill Academic Publishers, Leiden-Boston, 1, 80-107 2005
25 Rodionova О Ye , Houm0ller L P , Pomerantsev A L , Geladi P Burger J , Doro-feyev V L, Arzamastsev A P NIR spectrometry for counterfeit drug detection Anal Ch\m Acta, 549, 151-158(2005)
26 Pomerantsev A L , Rodionova О Ye Hard and soft methods for prediction of antioxidants' activity based on the DSC measurements Chemom lntell Lab Svst, 79, 73-83 (2005)
27 Pomerantsev A L , Rodionova О Ye Hoskuldsson A Process Control and Optimization with Simple Interval Calculation Method Chemom lntell Lab 165-179(2006)
28 Родионова О Е Хемометрический подход к исследованию больших массивов химических данных Рос хи.и ж (Ж Рос хим об—ва им Д И Менде-7сева), 50, 128-144(2006)
29 Померанцев А Л , Родионова ОБО двух подходах к анализу кинетических данных на примере предсказания активности антиоксидантов Кинетика и катана, 47, 553-565 (2006)
30 Померанцев А Л , Родионова О Е Построение многомерной градуировки методом простого интервального оценивания Ж аналит химии, 61, 10321047 (2006)
31 Родионова О Е , Померанцев А Л Хемометрика достижения и перспективы Успехи химии 75, 302-317 (2006)
Формат 60 х 90 '/16 Тираж 100 экз
Объем 3,1 п л Заказ 1435
Отпечатано с готовых оригинал-макетов в типографии Издательства «Учеба» МИСиС, 117419, Москва, ул Орджоникидзе, 8/9
Оглавление
Введение
Многомерные данные и формальные модели
1. Данные и модели, используемые в химическом анализе
1.1. Экспериментальные данные и информация
1.2. Модели и методы
1.3. Подготовка данных и обработка сигналов
1.4. Результат главы
2. Методы качественного анализа: исследование, классификация и дискриминация
2.1. Метод главных компонент
2.2. Классификация и дискриминация
2.3. Трехмодальные методы
2.4. Результаты главы
3. Методы количественного анализа: калибровка
3.1. Линейная калибровка
3.2. Многомодальная регрессия
3.3. Нелинейная калибровка
3.4. Результаты главы 3. 55 Метод простого интервального оценивания
4. Объяснение ПИО метода
4.1. Почему погрешности ограничены
4.2. Модельный пример
4.3. Сходимость интервальных оценок
4.4. Результат главы
5. Описание метода ПИО
5.1. Область допустимых значений
5.2. Свойства ОДЗ
5.3. Предсказание отклика
5.4. Оценка р
5.5. Результат главы 5.
6. Классификация статуса образцов 85 6.1. Характеристики статуса образцов
6.2. Диаграмма статуса образцов (ДСО)
6.3. Классификация образцов. Одномерный модельный пример
6.4. Классификация новых образцов
6.5. Результаты главы
7. Программная реализация ПИО метода
7.1. Задача линейного программирования. Основные понятия.
7.2. ПИО метод как задача линейного программирования ]
7.3. Основные свойства, возможности, требования и ограничения программы SIC
7.4. Входная информация для программы SIC
7.5. Результаты работы программы SIC
7.6. Автоматизация работы с программой SIC
7.7. Функции рабочего листа программы SIC
7.8. Результаты главы 7 124 Методология применения методов формального моделирования
8. Применение проекционных методов совместно с методом ПИО. Наглядное представление многофакторных данных
8.1. Эксперимент. Измерение следовых концентраций нефти в воде с помощью акустических измерений
8.2. Исследование обучающего набора
8.3. Исследование проверочного набора
8.4. Исследование выбросов
8.5. Результаты главы
9. Сравнение содержательного и формального подхода к анализу кинетических данных
9.1. Оценка активности антиоксидантов
9.2. Эксперимент
9.3. Формальное моделирование
9.4. Содержательное моделирование
9.5. Сравнение методов
9.6. Результаты главы
10. Применение метода ПИО к задачам распознавания 163 10.1. Распознавание фальсифицированных лекарств с помощью инфракрасной спектроскопии в ближней области
10.2. Комбинированный метод: ПЛС дискриминация и метод ПИО
10.3. Эксперимент 1. Исследование таблеток
10.4. Математическая обработка данных
10.5. Эксперимент 2. Исследование ампул
10.6. Математическая обработка данных.
10.7. Результаты главы
11. Аналитический контроль процессов
11.1. Описание многостадийного процесса
11.2. Контроль процесса. Теория
11.3. Контроль процесса. Пример применения
11.4. Оптимизация процесса: Теория
11.5. Оптимизация процесса. Пример применения
11.6. Результаты главы
12. Формирование представительной выборки образцов
12.1. Теория
12.2. Эксперимент 1. Определение влажности зерна с помощью инфракрасной спектроскопии в ближней области.
12.3. Анализ данных на основе обучающего и проверочного наборов - Модель С
12.4. Граничная выборка, МодельВ
12.5. Сравнение репрезентативности различных выборок
12.6. Различные обучающие наборы
12.7. Эксперимент 2. Определение следовых концентраций нефти в воде
12.8. Эксперимент 3. Аналитический контроль процесса
12.9. Результаты главы 12 236 Заключение 238 Приложение
13. Алгоритмы
13.1. Метод главных компонент (NIPALS алгоритм)
13.2. Регрессия на главные компоненты - РГК
13.3. Проекция на латентные структуры (ПЛС)
13.4. Симплекс-метод.
13.5. Вычисление положения эллипсоида. 251 Литература
Работа посвящена разработке нового подхода, объединяющего современные проекционные методы и метод простого интервального оценивания, применяемого при решении важных теоретических и практических задач интерпретации больших массивов физико-химических данных. Показано, что подобный подход позволяет обрабатывать сложные наборы экспериментальных данных, пронизанных внутренними связями.
Описание экспериментальных данных, построение модели и предсказание новых значений - это одна из старейших, но вечно актуальных задач, которая активно применяется при исследовании различных физических и химических явлений. Традиционно, математические модели строились так, чтобы в математической форме выразить те или иные законы химии и физики. Однако, с совершенствованием и усложнением эксперимента, появилась необходимость анализа очень больших массивов данных. В то же время всегда существовала необходимость моделирования, хотя бы в ограниченной области, таких процессов и зависимостей которые не поддаются содержательному математическому описанию из-за сложности происходящих процессов или их не изученности. Это привело к потребности применения формальных методов моделирования и породило новую область, называемую хемометрикой. Она появилась осенью 1974 года, в городе Сиэтле, США [1]. У ее истоков стояли два человека: американец Брюс Ковальски (В. Kowalski) и швед Сванте Волд (S. Wold) - внук Сванте Аррениуса (S. Arrhenius). Хемометрика - это синтетическая дисциплина, находящаяся на стыке химии и математики. Как это часто бывает с подобными дисциплинами, хемометрика до сих пор не имеет общепризнанного определения. Наиболее популярное определение принадлежит Д. Массарту (D. Massart), [2] который считал, что хемометрика — ото химическая дищиплина, применяющая математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных. С таким определением согласятся, наверное, многие практики. Однако область науки должна определятся не через методы и инструменты, которые она использует, а через цели и задачи, которые она преследует. Разумеется, задача извлечения информации из накопленных данных по-прежнему остается крайне важной, как с практической, гак и с теоретической точки зрения, однако сейчас становится очевидным, что не менее важной является и задача конструирования таких экспериментов, которые могут предоставить данные, в которых содержится нужная информация. Эти два разнозначных аспекта — извлечение информации из данных и получение данных с нужной информацией - нашли свое отражение в современном определении хемометрики, данном С. Волдом [3]. Хемометрика решает следующие задачи: как получить химически важную информацию из экспериментальных данных, как организовать и представить эту информацию, и как получить данные, содержащую такую информацию.
То, что формальные методы многомерного анализа больших массивов экспериментальных данных, или хемометрика, родилась и начала бурно развиваться именно в начале 70-х годов, явно связано с появлением в то же время быстродействующей вычислительной техники, которая стала повсеместно доступна ученым и инженерам. Это позволило практически воплотить многие сложные алгоритмы обработки данных, в особенности методы анализа многооткликовых и многофакторных экспериментов. В свою очередь, это побудило производителей приборов разрабатывать более сложное оборудование, способное производить многократно большее количество измерений. Однако вскоре оказалось, что большее количество данных еще не означает большее количество информации, необходимой исследователю. Это подвигло их активно применять математические методы для извлечения такой информации и для подтверждения того, что сделанные при этом выводы достоверны. В результате такого взаимодействия был достигнут первый несомненный успех. Оказалось, что очень часто традиционные аналитические методы, требующие больших затрат труда, времени, уникального оборудования, дорогих реактивов, могут быть заменены на косвенные методы, которые гораздо быстрее и дешевле. Наиболее ярко эта тенденция проявилась при использовании инфракрасной (ИК) спектроскопии, особенно в ближней области (БИК), прежде считавшейся малополезной из-за высокого и трудно устранимого шума, обусловленного интенсивным поглощением воды и эффектом рассеяния в спектрах отражения [4]. Первые работы по хемометрике были посвящены методам анализа спектроскопических данных [5-7], построению для них калибровочных моделей с помощью метода главных компонент [8] и метода проекций на латентные структуры [9].
Говоря об истории развития методов многомерного анализа данных, нельзя не отметить ученых, которые еще задолго до 70-х заложили основы хемометрического подхода. Начать, очевидно, нужно с К. Гаусса (К. Gauss), который в 1795 году ввел метод наименьших квадратов. Первым практикующим хемометриком следует, по-видимому, считать У. Госсета (W. Gosset), известного под псевдонимом Стьюдент, который в конце 19 века применял методы анализа данных [11] на пивоварне Гиннеса, где он работал аналитиком. В начале 20 века появилась работа К. Пирсона (К. Pearson) [10], в которой был предложен метод главных компонент, несколько позднее работы Р. Фишера (R. Fisher) — автора многочисленных статистических методов, таких как метод максимума правдоподобия и факторного анализа [12], а также пионерских работ [13] по планированию эксперимента. Среди советских ученых следует отметить, прежде всего, В. Налимова, внесшего значительный вклад в теорию планирования эксперимента [14].
Хемометрика зародилась, и длительное время развивалась внутри аналитической химии. Однако со временем обнаружилась тенденция, которую некоторые исследователи расценили, как выход хемометрики из-под крыла аналитической химии и превращение ее в самостоятельную дисциплину. Два обстоятельства дали повод к такому выводу. Во-первых, это усложнение математического аппарата, используемого при анализе многофакторных экспериментов. Десять лет назад экспериментаторы смогли усвоить и принять многомерный подход к анализу данных, т.е. такие методы как проекция на латентные структуры (ПЛС) [15] или разложение по сингулярным значениям (SVD) [16]. Однако потом, в период повального увлечения новыми методами анализа данных: мультимодальным подходом (n-way) [17], вэйвлет-анализом (wavelet) [18], методом опорных векторов (SVM) [19] и т.п., наметился некоторый разрыв между экспериментаторами и теоретиками. Второе обстоятельство, приведшее к отдалению хемометрики от аналитической химии, связано с появлением многочисленных приложений, в которых хемометрический подход с успехом применялся в областях, далеких от аналитической химии. Достаточно вспомнить о гиперепектральном анализе и анализе изображений (MlА) [20], многомерном статистическом контроле процессов (MSPC) [21], а также о многочисленных биофизических и биологических приложениях [22].
Методы многомерного анализа данных тесно связана с математикой и, в особенности, с математической статистикой, откуда они черпает свои идеи. Большинство экспериментаторов понимают необходимость примеиения статистики в физическом и химическом анализе и используют ее для вычисления средних, отклонений, пределов обнаружения, проверки гипотез и т.п. Часто именно эти простые приемы и называют хемометрическим подходом, и лишь немногие исследователи решаются пойти дальше и действительно использовать хемометрику для анализа своих данных. Большинство аналитиков-практиков не любят математику, и сложные уравнения пугают их. Однако для эффективного практического применения хемометрики совсем не обязательно знагь статистическую теорию метода главных компонент, достаточно понимать основы, базовые идеи этого подхода. А вот что действительно необходимо знать — это методы подготовки данных, принципы отбора переменных, и, самое главное, надо уметь правильно интерпретировать проекции данных (нагрузки и счета) в пространстве главных компонент. Хотя этот навык, как показывает многолетняя практика обучения хемометрикс «без уравнений», можно приобрести и без глубоких математических познаний.
Взаимоотношения хемометрики и математики заслуживают отдельного рассмотрения. Многие методы и алгоритмы, популярные в хемометрике, не вызывают восторга у математиков [24], которые справедливо считают их плохо обоснованными с формальной точки зрения. Хемометрики всегда рассматривали свою деятельность как компромисс между возможностью и необходимостью, полагая, что главное — это практический результат, а не теоретическое обоснование невозможности его достижения. Сталкиваясь с практическими задачами интерпретации очень больших и сложно организованных массивов экспериментальных данных [25], хемометрики изобретают все новые и новые методы их анализа. Делают они это так быстро, что математики, по словам американского статистика Д. Фридмана (J. Friedman), не успевают не только раскритиковать их за это, но и просто понять, что же происходит в этой области. Такой подход контрастирует с ситуацией, сложившейся в биометрике [26], которую можно считать, в каком-то смысле, старшей сестрой хемометрики. Со времен Фишера биометрики традиционно применяют только хорошо апробированные, классические методы математической статистики, такие как факторный анализ, или линейный дискриминаптный анализ. С другой стороны, специалисты, работающие в другой близкой дисциплине - психометрике [27], традиционно активно разрабатывали новые подходы к анализу данных. Так, самый популярный в хемометрике метод ПЛС, был изобретен Г. Волдом (Н. Wold) [28] именно для применения в этой области. Забавно, что в начале 70-х годов господствовало мнение, что проекционные методы: «малоприемлемы в физических, технических' и биологических науках. Они могут быть полезны иногда в общественных науках как метод отыскания эффективных комбинаций переменных» [29, т.2. стр.48].
Благодаря такому «агрессивному» подходу к анализу данных, хемометрика нашла многочисленные применения в самых разных - смежных и далеких от химии областях. Она применяется в физической химии для исследования кинетики [30], в органической химии для предсказания активности соединений по их структуре (QSAR) [31], в химии полимеров [32], в теоретической и квантовой химии [33]. Хемометрика используется в самых разнообразных областях - от пивоварения [34], до астрономии [35]. Она применяется для решения судебных споров о защите окружающей среды [36] и для контроля качества производства полупроводников [37]. Подробный анализ взаимодействий хемометрики с различными областями человеческой деятельности приведен в книге английского аналитика Р. Бреретона (R. Brereton) [38].
Некоторые направления хемометрики развивались и в СССР, и позднее в России. Так, например, еще в 50-е годы в Харьковском университете под руководством Н. Комаря проводились исследования по математическому описанию равновесий [39]. Позднее появились работы J1. Грибова [40] и М. Эляшберга по спектральным методам [41], Б. Марьянова по титраметрии [42], Б. Дерендяева и В. Вершинина по методам компьютерной идентификации органических соединений [43], И. Зенкевича по хроматографии [44]. Исследования в близкой к хемометрике области QSAR ведутся под руководством Н. Зефирова [45]. Метрологические аспекты и контроль качества химического анализа исследуются в работах В. Дворкина [46] и Ю. Карпова [47]. В С.-Петербургском университете группа ученых под руководством Ю. Власова работает над созданием сенсорных систем, известных под названием «электронный язык» [48], а в Воронеже разрабатываются аналогичные методы, известные как «электронный нос» [49]. Во всех этих областях интенсивно используются хемометрические методы. В. Разумов и его коллеги из Черноголовки применяют многомерные методы анализа данных при решении задач химической кинетики [50, 51]. За последние годы в России появились новые группы ученых, разрабатывающих и применяющих хемометрические подходы: в Москве [52-55], в Барнауле [56, 57], в Томске [58], в Иркутске [59].
Информационное и программное обеспечение. Единственная широко-известная в России книга по хемометрике была переведена и опубликована 20 лет назад [60]. Она ярко отражала положение дел в этой области, сложившееся в середине 80-х годов. На сегодняшний день наиболее полным изложением хемометрических методов является двухтомник, написанный группой авторов под руководством Д. Массарта [61, 62]. Он включает подробное описание основных методов и приемов, большое количество практических приложений, а так лее обширный список литературы. Помимо этого, существует множество книг и учебников, ориентированных на очень разный круг читателей. Так, для студентов и специалистов в области аналитической химии, начинающих осваивать хемометрику, проще начать с книги [38]; исследователям, занимающимся, в основном, спектральным анализом, будут понятнее книги [63, 64]. Для практического применения очень полезна книга [65]. Также нельзя не упомянуть знаменитую книгу Е. Малиновского (Е. Malinowski) [66], которую до сих пор многие экспериментаторы считают лучшим учебником в этой области. Теоретические основы хемометрики были изложены в работах [67,68]. Недавно на русский язык был переведен учебник [69], содержащий краткое описание хемометрики в одной из своих глав. Небольшое, но очень полезное введение в хемометрику написал Б. Марьянов [70]. Маленьким тиражом (для участников трех конференций по хемометрики в России) был издан сокращенный перевод самого популярного в мире учебника по многомерному анализу данных, написанного К. Эсбенсеном (К. Esbensen) [71].
Проблемам хемометрики посвящены два специализированных журнала: Journal of Chemometrics и Chemometrics and Intelligent Laboratory Systems. Статьи, где хемометрические методы используются в прикладных задачах, регулярно печатаются более чем в 50-ти научных журналах, таких как Vibrational Spectroscopy, Analytica Chimica Acta, Computers and Chemical Engineering, Analyst, Talanta, и т.д. Число статей, использующих хемометрические методы в качестве основного инструмента для анализа и обработки экспериментальных данных, возрастает с каждым годом (см. Рис 1.) [72] В качестве программного обеспечения применяются специализированные пакеты программ [73-75], позволяющие наглядно и быстро обрабатывать данные в интерактивном режиме. Однако широко применяются и статистические пакеты общего назначения [76, 77]. Часто исследователи пишут
1974 1979 1984 1989 1994 1999 2004
ГОД
Рис I. Число статей по хемометрикс, опубликованных в журналах издательства Elsevier процедуры сами, например, в кодах MATLAB [78], и они публикуются для свободного применения, например [68].
Несмотря на всевозможные и разнообразные приложения, хемометрика несомненно является химической дисциплиной. Ее широкое распространение и применение в первую очередь обусловлено тем, что главной своей целью хемометрика видит решение конкретных, в основном химических задач, а потом находит уже существующие или разрабатывает новые математические и статистические приемы и алгоритмы.
Эта работа выполнялась в тесном сотрудничестве со многими коллегами. Большой вклад в разработку алгоритмов и написание программ, так же в обсуждении результатов работы внес A.JI. Померанцев (ИХФ РАН), оригинальная физико-химическая моделей для ДСК эксперимента была предложена Е.В. Быстрицкой (ИХФ РАН). Большое влияние на проведение работ в области хемометрики оказал К.Н. Esbensen (Aalborg University Esbjerg). Экспериментальные данные, используемые в работе, были получены А.А. Крючковым (НИИКП), L. Р. НошшПег и К.Н. Esbensen (Aalborg University Esbjerg), P.Geladi (Swedish University of Agricultural Sciences).
Многомерные данные и формальные модели
В этом разделе в систематическом виде вводятся основные понятия и объекты, с которыми работает исследователь при анализе результатов физического или химического эксперимента с помощью хемометрических методов. Материал этого раздела представлен в работах [72, 79].
Обозначения и термины. В работе используются следующие обозначения. Скалярные переменные выделяются курсивом, например s. Векторы (столбцы) обозначаются прямыми жирными строчными буквами, например х, а матрицы -заглавными, например W. Мультимодальные матрицы еще и выделяются курсивом, например G. Элементы массивов обозначают той же, но строчной буквой, например w\\ — это элемент матрицы W. Индекс / обозначает строку матрицы; он изменяется от 1 до I. Индекс j соответствует столбцу, и он меняется от 1 до J. Аналогичные обозначения применяются и для других индексов, например К. Операция транспонирования обозначается верхним индексом t, например Хг. В описании алгоритмов, верхний индекс, так же обозначает номер итерации, например рш, обозначает вектор р, вычисленный на т-ой итерации.
В русском языке до сих пор не сложилась общепризнанная система хемометрических терминов. Некоторые понятия переводились ранее неверно или неточно. Например, фундаментальный хемометрический метод PLS первоначально расшифровывался как Partial Least Squares. На русский язык это переводилось как «частичные» или «частные наименьшие квадраты», что никак не соответствовало сути метода. К счастью, в последнее время, оригинальная трактовка аббревиатуры PLS изменилась на Projection on Latent Structures, что дословно переводится как «проекция на латентные структуры». Термины soft и hard, часто используемые в хемометрике для характеристики методов моделирования, должны, по нашему мнению, переводиться словами формальный и содержательный. Это точнее отражает суть этих понятий. При переводе понятия N-way используется термин N-модальпый. Может быть, это и не лучшее решение, но применение традиционного термина тензорного анализа «валентность» в химическом контексте, будет неудачным. Во многих случаях переводчики просто избегали давать русские названия ключевым хемометрическим понятиям, таким как scores и loadings, используя вместо них сложные эвфемизмы.
Однако в хемометрике невозможно обойтись без понятий счета и нагрузки, или их аналогов.
Хемометрика - это наука о сокращениях. В данном случае имеется в виду не понижение размерности данных, а то, что в хемометрике часто используются аббревиатуры: РСА, PLS, PCR, RMSEP и т. п. У некоторых из них есть общепринятые русские аналоги, которые и используются в дальнейшем в тексте. Например, РСА — это МГК (метод главных компонент), PCR - это РГК (регрессия на главные компоненты), PLS - ПЛС (проекция на латентные структуры). А так же имеется множество сокращений, не имеющих устоявшихся русских аналогов. В тексте эти аббревиатуры используются в английской нотации. Ниже они расшифрованы.
ALS (alternating least-squares) - чередующиеся наименьшие квадраты;
ANN (artificial neural network) - искусственная нейронная сеть;
DASCO (discriminant analysis with shrunk covariance matrices) - дискриминантный анализ с сокращенной ковариационной матрицей;
EFA (evolving factor analysis) - эволюционный факторный анализ;
GA (genetic algorithm) - генетический алгоритм;
IA (immune algorithm) - иммунный алгоритм;
INLR (implicit non-linear latent variable regression) - неявная нелинейная регрессия на латентных переменных;
ITTFA (iterative target transformation factor analysis) - итерационный целевой факторный анализ;
KNN (k-nearest neighbours) - классификация по К ближайшим соседям;
LOO (leave one out) - метод перекрестной проверки с исключением по одному образцу;
MIA (multivariate image analysis) — многомерный анализ изображений;
MSC (multiplicative signal correction или multiplicative scatter correction) -множественная коррекция сигнала или мультипликативная коррекция рассеяния;
MSPC (multivariate statistical process control) - многомерный статистический контроль процессов;
NAS (net analyte signal) - полезный аналитический сигнал;
NIPALS (non-linear iterative projections by alternating least-squares) - нелинейное итерационное проецирование при помощи чередующихся наименьших квадратов;
OSC (orthogonal signal correction) - ортогональная коррекция сигнала;
PARAFAC (parallel factor analysis) - параллельный факторный анализ;
PAT (process analytical technology) - аналитический контроль процессов;
PC (principal component) - главная компонента (ГК);
PLS-DA (PLS discriminant analysis) - дискриминантный анализ с помощью регрессии на латентные структуры;
PMN (penalized minimum norm projection) - проекции с помощью штрафных функций минимума нормы;
QPLS (quadratic PLS) - квадратичный PLS;
QSAR (qualitative structure-activity relationship) - количественная связь структура-активность;
RMSEC (root-mean square error of calibration) - среднеквадратичный остаток калибровки;
RMSEP (root-mean square error of prediction) - среднеквадратичный остаток прогноза;
SIMCA (soft independent modeling of class analogy) - формальное независимое моделирование аналогий классов;
SIMPLISMA (Simple-to-use interactive self-modeling mixture analysis) - простой интерактивный автомодельный анализ смесей;
SIMPLS (simple partial least squares regression) - элементарные последовательные наименьшие квадраты;
SMCR (self-modeling curve resolution) - метод автомодельного разрешения кривых;
SPC (statistical process control) - статистический контроль процессов;
SVD (singular value decomposition) - разложение по сингулярным значениям;
SVM (support vector machine) - метод опорных векторов;
WFA (window factor analysis) - оконный факторный анализ.
Заключение
Необходимость широкого применения и дальнейшего развития многомерных методов анализа данных востребована и тесно связана с тенденциями развития техники физико-химических экспериментов. Во-первых, объекты анализа становятся более сложными и комплексными. Во-вторых, методы анализа меняются таким образом, чтобы обеспечить получение необходимых данных в режиме реального времени (in line). В-третьих, резко увеличивается объем данных, которые повсеместно становятся многомерными и многомодальными. Увеличивается роль гибридных и композиционных методов анализа. В-четвертых, искомая химическая информация очень глубоко спрятана в этих данных и все менее формализована. В-пятых, прослеживается тенденция в изменении организации физико-химического эксперимента — вместо исследования одной пробы в одном опыте, используется системный подход, в котором много разных проб автоматически испытываются одновременно разными методами, в разных условиях (например, технология микрочипов). В-шестых, акцент в исследовании все чаще переноситься на биологические объекты и биохимические процессы.
Все эти тенденции, ставят перед исследователем две главные задачи. Первая - как придумать, организовать, спланировать эксперимент с тем, чтобы получить данные, из которых, в принципе, можно получить нужную химическую информацию. Вторая - как извлечь и интерпретировать эту информацию. Для решения этих задач исследователь должен, в значительной мере, использовать опыт и инструментарий хемометрики. Однако широкое использование формальных методов затруднено методологическими проблемами. Исследователь, привыкший использовать в своей практике, пусть и весьма приближенные, но содержательные физико-химические модели считает хемометрический подход слишком формальным и поверхностным. С другой стороны, в арсенале хемометрических методов до сих пор существуют плохо разработанные аспекты. Например, существенным недостатком проекционных регрессионных методов (РГК, ПЛС и пр.) является то, что все эти методы дают результат предсказания в виде точечной оценки, тогда как на практике часто нужна интервальная оценка, учитывающая неопределенность прогноза.
В работе рассмотрены теоретические, алгоритмические и методологические аспекты хемометрических методов обработки больших массивов физико-химических данных. Обобщая полученные результаты, можно сформулировать следующие выводы.
В теоретической части работы были получены следующие результаты.
1. Представлен и теоретически обоснован метод простого интервального оценивания (ПИО), предназначенный для решения линейных задач калибровки и прогнозирования больших массивов экспериментальных данных. Доказаны основные свойства метода: ограниченность, состоятельность, несмещенность.
2. Обосновано предположение об ограниченности погрешностей, лежащее в основе метода ПИО. Показано, что это допущение является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно более обоснованно, чем традиционное допущение о нормальности, а, следовательно, и неограниченности погрешностей.
3. Показано, что метод ПИО вычисляет оценки неизвестных параметров модели в виде области в пространстве параметров, что, в свою очередь, позволяет представить результаты прогноза отклика в интервальном виде, учитывающим все погрешности (измерения, моделирования и пр.). Это является существенным преимуществом в сравнении с традиционным регрессионным анализом, где результат прогноза — это точечная оценка
4. Приведены аргументы в пользу того, что ПИО-оценки, построенные на основе экстремальных статистик, являются более эффективными, чем традиционные гладкие оценки. Это открывает новое направление исследований в области прикладной статистики - построение суперэффективных оценок.
5. На основе метода ПИО разработан новый подход к классификации статуса образцов и интерпретации прогнозных интервалов. Введены новые понятия: ПИО-остаток и ПИО-размах, диаграмма статуса образцов (ДСО). Введены понятия внутренних, внешних, граничных образцов. Дано определение выбросов и абсолютно внешних образцов.
6. Разработаны новые методы статистического контроля процессов. Метод, названный расширяющимся многомерным статистическим контролем, основан на построении серии ПЛС моделей, совместно с ПИО моделированием. Он позволяет вычислять как точечные, так и интервальные оценки выходного параметра на промежуточных стадиях процесса. Предложен также метод активной оптимизации, разработаны различные стратегий оптимизации.
7. Предложен новый метод выбора представительных (влиятельных) образцов из экспериментального набора данных, названный методом граничных образов.
К практическим результатам работы следует отнести
8. Разработку общего алгоритм, объединяющего проекционные методы (РГК, ПЛС1, ПЛС2), метод линейного программирования (симплекс-метод), оригинальный алгоритм приведения задачи к каноническому виду, алгоритм определения статуса образцов и построения ДСО.
9. Создание компьютерной программы SIC - надстройки для программы Excel. С ее помощью можно проводить обработку данных, оценивать точность построенной модели, проводить классификацию образцов в зависимости от их влиятельности на модель, для образцов из обучающего набора, и оценить близость новых образцов к модели. Эффективность программы проверена с помощью имитационного моделирования, примеров описанных в литературе, а так же на большом числе реальных экспериментальных данных.
Созданная методология расширяет область применения хемометрических методов для построения моделей многомерной калибровки. Новый подход объединяет проекционные методы и метод простого интервального оценивания.
9. Метод ПИО позволяет обрабатывать очень большие массивы экспериментальных данных пронизанных внутренними связями. Результат прогноза представляется в интервальной форме, учитывающий неопределенность в прогнозе индивидуально для каждого образца (главы 9-12).
10. На примере предсказания активности антиоксидантов проведено сравнение формального (ПИО) и содержательного (нелинейная регрессия) моделирования. Показано, что содержательный подход позволяет проводить экстраполяцию, однако при этом нельзя ограничить область экстраполяции. Формальный метод имеет строгую область применимости, очерченную с помощью техники ПИО статуса. Он дает надежные результаты при решении задач классификации или интерполяции.(тлава. 9).
11. Разработанная классификации образцов имеет практическое значение не только в рамках метода ПИО. Статус образца имеет смысл и в рамках классических регрессионных моделей, использованных для определения следовых концентраций нефти в воде (глава 8) и определения качества зерна (глава 12)
12. Диаграмма статуса образцов является простым и удобным инструментом для визуализации и детального анализа сложных многофакторных данных. Примеры использования ДСО приведены в главах 8-12.
13. Для того, чтобы калибровка была надежной, необходимо правильно выбрать набор обучающих, а также проверочных образцов. ПИО метод позволяет разделить обучающий набор на граничные, наиболее важные образцы с точки зрения построения модели, и внутренние, "избыточные" образцы. Кроме того, ПИО метод предоставляет детальный анализ статуса образцов проверочного набора. Такая диагностика основывается на диаграмме статуса образцов (разделы 8.2-8.3).
14. При применении построенной калибровки необходимо учитывать возможность появления необычных новых образцов. Преимуществом ПИО метода является возможность обнаружения таких образцов, которые заведомо плохо совместимы с имеющейся моделью. Это гарантирует, что при использовании модели мы не выйдем за область ее действия, т.е. будем находиться в условиях интерполяции (раздел 8.4).
15. Дополнение стандартного метода ПЛС дискриминации методом ПИО повышает информативность при решении задачи распознавания. Предложенный подход показал высокую эффективность применительно к решению задачи распознавания фальшивых лекарственных средств (глава 10).
16. Задачей количественного анализа является надежное предсказание откликов для новых образцов. Для сравнение различных моделей необходимы методы анализа их предсказательной способности. Сравнения моделей только по средним показателям недостаточно. Предлагается для такого сравнения использовать ДСО построенную для проверочного набора и индивидуальные характеристики (ПИО размах и ПИО остаток) для каждого образца (глава 12).
1. Geladi P., Esbensen К. Chemometrics, a growing and maturing discipline (Editorial). Chemom. 1.tel!. Lab. Syst., 7, 197 (1990)
2. Massart D.L. Chemometrics: a textbook. Elsevier, NY, 1988
3. Wold S. Chemometrics; what do we mean with it, and what do we want from it? Chemom. Intel!. Lab. Syst., 30, 109 (1995)
4. Blanco M., Villarroya I. NIR spectroscopy: a rapid-response analytical tool. Trends Anal. Chem., 21, 240 (2002)
5. Osborne B.G., Fearn T. Near Infrared Spectroscopy in Food Analysis. Longman Scientific and Technical, Harlow, Essex, England, 1986
6. Blanco M., Coello J., Iturriaga H., Maspoch S., Rovira E. Determination of water in ferrous lactate by near infrared reflectance spectroscopy with a fibre-optic probe. J. Pharm. Biomed. Anal., 16, 255 (1997)
7. Espinosa A., Lambert D., Valleur M. Use NIR technology to optimize plant operations. Hydrocarbon Process, 74, 86 (1995)
8. Nass Т., Irgens C., Martens H. Comparison of linear statistical methods for calibration of NIR instruments. Appl. Stat., 35, 195 (1986)
9. Martens H., Nses T. Multivariate calibration. I. Concepts and distinctions. Trends Anal. Chem., 3, 204(1984)
10. Pearson K. On lines and planes of closest fit to systems of points in space. Philosopher Mag., 2 (6), 559(1901)
11. Gosset W.S.("Student"). The probable error of a mean. Biometrika, 6 , 1 (1908)
12. Fisher R.A. Statistical methods for research workers. Oliver and Boyd, Edinburgh, 1925
13. Fisher R.A. The design of experiments. Oliver and Boyd, Edinburgh, 1935
14. Налимов В. Применение математической статистики при анализе вещества. М, 1960
15. Wold S., Esbensen К., Geladi P. Principal component analysis. Chemom. Intell. Lab. Syst., 2,37(1987)
16. Shrager R.I. Chemical transitions measured by spectra and resolved using singular value decomposition. Chemom. Intell. Lab. Syst., 1, 59 (1986)
17. Geladi P., Grahn H. Multivariate Image Analysis. Wiley, Chichester, 1996
18. Walczak В., Massart D.L. Wavelets — something for analytical chemistry? Trends Anal. Chem., 16,451,(1997)
19. Belousov A.I., Verzakov S.A., von Frese J. Application aspects of support vector machines. J. Chemom., 16, 482 (2002)
20. Gelad P., Esbensen K. Regression on multivariate images: Principal component regression for modeling, prediction and visual diagnostic tools. J. Chemom., 5, 97 (1991)
21. Nomikos P., MacGregor J.F. Monitoring batch processes using multiway principal component analysis. American Inst. Chem. Engin. J., 40, 1361 (1994)
22. SchaeferlingM., Schiller S. Pau H.l, Kruschina M., Pavlickova P., Meerkamp M., Giammasi C., Kambhampati D. Application of self-assembly techniques in the design of biocompatible protein microarray surfaces. Electrophoresis, 23, 3097 (2002)
23. Ferreira M.M.C. 9th International Conference on Chemometrics in Analytical Chemistry (CAC-2004), Lisbon, Portugal. J. Chemom., 18, 385 (2004)
24. Frank I.E., Friedman J.H. A statistical view of some chemometrics regression tools (with discussion). Technometrics, 35, 109 (1993)
25. Wold S., Berglund A., Kettaneh N. New and old trends in chemometrics. How to deal with the increasing data volumes in R&D&P -with examples from pharmaceutical research and process modeling. J. Chemom., 16, 377 (2002)
26. Molenberghs G. Biometry, Biometrics, Biostatistics, Bioinformatics,., Bio-X. Biometrics, 61, 1 (2005)
27. Шмелев А.Г. Традиционная психометрика и экспериментальная психосемантика: объектная и субъектная парадигмы анализа данных. Вопросы Психологии, 5, 34 (1982)
28. Дрейпер H., Смит Г. Прикладной регрессионный анализ, (в 2-х т.) Москва, Финансы и статистика, 1987 N.R. Draper, Н. Smith, Applied regression analysis, Wiley, N.Y.
29. Родионова O.E., Померанцев A.JI. Об одном методе решения обратной кинетической задачи по спектральным данным при неизвестных спектрах компонент. Кинетика и катализ, 45, 485 (2004)
30. Koh H.-L., Yau W.-P., Ong P.-S., Hegde A. Current trends in modern pharmaceutical analysis for drug discovery. Drug Discov. Today, 8, 889 (2003)
31. Pomerantsev A.L., Rodionova O.Ye. Hard and soft methods for prediction of antioxidants' activity based on the DSC measurements. Chemom. Intell. Lab. Syst., 79, 73 (2005)
32. Грибов JI. А. Математические методы и ЭВМ в аналитической химии, М. 1989
33. Siebert K.J. Chemometrics in Brewing A Review. J. Am. Soc. Brew. Chem., 59, 147 (2001)
34. Johnson G.W., Ehrlich R. State of the art report on multivariate chemometric methods in environmental forensics. Environ. Forensics, 3, 59 (2002)
35. WiseB.M., Gallagher N.B., Martin E.B. Application of PARAFAC2 to fault detection and diagnosis in semiconductor etch. J. Chemom., 15, 285 (2001)
36. Brereton R.G. Chemometrics: Data analysis for the laboratory and chemical plant. Wiley, Chichester, UK. 2003
37. Комарь Н.П. Основы качественного химического анализа. Харьков, 1955
38. Грибов Л.А., Баранов В.И., Эляшберг М.Е. Безэталонный молекулярный спектральный анализ. Теоретические основы. М. Едиториал УРСС, 2002
39. Эляшберг М. Экспертные системы для установления структуры органических молекул спектральными методами. Успехи химии, 68, 579 (1999)
40. Марьянов Б., Зарубин А., Шумар С. Статистический анализ данных дифференцированного потенциометрического осадительного титрования бинарной смеси трех гетеровалентных ионов с помощью линейных характеристик. Журн. аналит. химии, 58, 1126 (2003)
41. Вершинин В.И., Дерендяев Б.Г., Лебедев К.С. Методы компьютерной идентификация органических соединений. М. Академкнига, 2002
42. Zenkevich I.G.; Kranicz В. Choice of nonlinear regression functions for various physicochemical constants within series of homologues. Chemom. Intell. Lab. Syst., 67, 51 (2003)
43. Гальберштам Н.М., Баскин И.И., Палюлин В.А., Зефиров Н.С. Нейронные сети как метод поиска зависимостей структура свойство органических соединений. Успехи химии, 72, 706 (2003)
44. Дворкин В.И. Метрология и обеспечение качества количественного химического анализа. М. Химия, 2001
45. Карпов Ю. А., Полховская Т.М. Стандартизация и метрология в металлургическом производстве. М. МИСИС, 1989
46. Власов Ю.Г., Легин А.В., Рудницкая A.M. Мультисенсорные системы типа электронный язык- новые возможности создания и применения химических сенсоров. Успехи химии, 75, 141 (2006)
47. Калач А.В., Коренман Я. И., Нифталиев С.И. Искусственные нейронные сети -вчера, сегодня, завтра. Воронеж: Воронеж, гос. технол. акад., 2002
48. Разумов В.Ф., Алфимов М.В. Фотохимия диарилэтиленов. ЖНиПФ, 46, 28 (2003)
49. RodionovaO.Ye., Esbensen К.Н., Pomerantsev A.L. Application of SIC (Simple Interval Calculation) for object status classification and outlier detection comparison with PLS/PCR. J. Chemom., 18, 402 (2004)
50. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Non-linear regression analysis: new approach to traditional implementations. J. Chemom., 14, 667 (2000)
51. BogomolovA., McBrien M. Mutual peak matching in a series of HPLC/DAD mixture analyses. Anal. Chim. Acta, 490, 41 (2003)
52. Bogomolov A., McBrien M. Methods for Characterizing a Mixture of Chemical Compounds, US Patent, US-2004-0126892-A1 (2004)
53. Kucheryavski S., Polyakov V., Govorov A. Analysis of simulated fracture surfaces using AMT and fractal geometry methods. В кн: Progress in Chemometrics Research (Ed: A.L. Pomerantsev) NovaScience Publishers, New York, pp. 3- 11, 2005
54. Оскорбин H.M., Максимов A.B., Жилин С.И. Построение и анализ эмпирических зависимостей методом центра неопределенности. Изв. АлтГУ, 1, 35 (1998)
55. Romanenko S.V., Stromberg, A.G., Selivanova E.V., Romanenko E.S. Resolution of the overlapping peaks in the case of linear sweep anodic stripping voltammetry via curve fitting. Chemom. Intell. Lab. Syst., 73, 7 (2004)
56. Васильева И.Е., Кузнецов A.M, Васильев И.Л, Шабанова Е.В. Калибровка методик атомно-эмиссионного анализа с компьютерной обработкой спектров. Журн. аналит. химии, 52, 1238 (1997)
57. ШарафМ.А., Иллмэн Д.Л., Ковальски Б.Р. Хемометрика. Пер. с англ. М. Мир, 1987 М. Sharaf, D. Illman, В. Kowalski. Chemometrics, NY: Wiley. 1986.
58. Massart D.L., Vandeginste B.G., Buydens L.M.C., De Jong, S. Lewi P.J., Smeyers-Verbeke J. Handbook of Chemometrics and Qualimetrics Part A. Elsevier, Amsterdam,1997
59. VandeginsteB.G., Massart D.L., Buydens L.M.C., De Jong S., Lewi P.J., Smeyers-Verbeke J. Handbook of Chemometrics and Qualimetrics Part B. Elsevier, Amsterdam,1998
60. Nass Т., Isaksson Т., Fearn Т., Davies T. Multivariate Calibration and Classification. Christerer, UK, 2002
61. Kramer R. Chemometric Techniques for Quantitative Analysis. Marcel-Dekker, 1998
62. Beebe K.R., Pell R.J., Seasholtz M.B. Chemometrics: a Practical Guide. Willey, N.Y., 1998
63. MalinowskiE.R. Factor Analysis in Chemistry. Wiley, N.Y., 2nd edn, 1991
64. Martens H., Naes T. Multivariate calibration. Wiley, New York. 1989
65. Hoskuldsson A. Prediction Methods in Science and Technology, vol. 1, Thor Publishing, Copenhagen, Denmark, 1996
66. Аналитическая химия. Проблемы и подходы (в 2-х т.), под. ред. Кельнер Р., Мерме Ж.-М., Отто М., Видмер Г.М., пер. с анг., М., Мир ACT, 2004 Analytical Chemistry. The Approved Text to FECS Curriculum Analytical Chemistry, Wiley-VCH, Weinheim.
67. Марьянов Б.М. Избранные главы хемометрики. Томск: Из-во Том. ун-та, 2004
68. Эсбенсен К. Анализ многомерных данных. Сокр. пер. с англ. под ред. О.Родионовой, Из-во ИПХФ РАН, 2005 К.Н. Esbensen. Multivariate Data Analysis In Practice 4-th Ed., САМО, 2000.
69. Родионова O.E., Померанцев А.Л. Хемометрика: достижения и перспективы. Успехи химии, 75 (4) 302-317(2006)
70. The Unscramber. Доступно на http://www.camo.no/ 3 мая 2007.
71. Eigenvector Research, Inc. Доступно на http ://www. ei gen vector. com/ 3 мая 2007.
72. Umetrics. Доступно на http://www.umetrics.com/ 3 мая 2007.
73. SPSS. Доступно на http://www.spss.com/ 3 мая 2007.
74. STATISTIC А. Доступно на http://www.statsoftinc.com/ 3 мая 2007.
75. MATLAB. Доступно на http://www.mathworks.com/ 3 мая 2007.
76. Родионова О.Е. Хемометрический подход к исследованию больших массивов химических данных. Рос. хим. ж. (Рос. хим. об-ва им . Д.И. Менделеева), 50, 128 (2006)
77. ErikssonL., Johansson Е., Kettaneh-Wold N., Wold S. Multi- and Megavariate Data Analysis. Umetrics, Umea, 2001
78. Sanchez E., Kowalski B.R. Tensorial calibration: I. First-order calibration. J. Chemom., 2 247(1988)
79. Smilde A., Bro R., Geladi P. Multi-way Analysis with Applications in the Chemical Sciences. John Wiley & Sons, Chichester, 2004
80. Hoy M., Steen K., Martens H. Review of partial least squares regression prediction error in Unscrambler. Chemometrics Intell. Lab. Syst., 44, 123 (1998)
81. Wold S., Trygg J., Berglund A., Antti H. Some recent developments in PLS modeling. Chemom. Intell. Lab. Syst., 58 , 131 (2001)
82. Hoskuldsson A. Causal and path modelling. Hyperspectral imaging: calibration problems and solutions. Chemom. Intell. Lab. Syst., 58, 287 (2001)
83. Geladi P., Burger J., Lestanderet T. Hyperspectral imaging: calibration problems and solutions. Chemom. Intell. Lab. Syst., 72, 209 (2004)
84. Sander G.H.W., Manz A. Chip-based microsystems for genomic and proteomic analysis. Trends Anal. Chem., 19, 364 (2000)
85. Box G.E.P., Hunter W.G., Hunter J.S. Statistics for Experimenters. John Wiley & Sons Inc., NY, 1978
86. Демиденко Е.З. Линейная и нелинейная регрессии. Финансы и статистика, М, 1981
87. Jy P. Sampling for Analytical Purposes. John Wiley & Sons, Chichester, 1989
88. Kleingeld W., Ferreira J., Coward S. First World Conference on Sampling and Blending (WCSB1). J. Chemom., 18, 121 (2004)
89. Special Issue. : 50 years of Pierre Gy's Theory of Sampling Proceedings: First World Conference on Sampling and Blending (WCSB1) Tutorials on sampling. : Theory and Practice. Chemom. Intell. Lab. Syst., 14, 1 ( 2004)
90. Walczak В., Massart D.L. Tutorial. Dealing with missing data. Chemom. Intell. Lab. Syst., 58, 15 (2001)
91. Nelson P.R.C., Taylor P.A., MacGregor J.F. Missing data methods in PCA and PLS: Score calculations with incomplete observations. Chemom. Intell. Lab. Syst., 35, 45 (1996)
92. Haario H., Taavitsainen V.-M. Combining soft and hard modelling in chemical kinetic models. Chemom. Intell. Lab. Syst., 44, 77 (1998)
93. Брин Э.Ф., Померанцев A.JI. Классификация обратных задач кинетики гомогенных химических реакций. Хим. физика, 5, 1674 (1986)
94. Gurden S.P., Westerhuis J.A., Bijlsma S., Smilde A.K. Modelling of spectroscopic batch process data using grey models to incorporate external information. J. Chemom., 15, 101 (2001)
95. Померанцев А.Л. Методы нелинейного регрессионного анализа для моделирования кинетики химических и физических процессов. Дис. д-ра физ.-мат. наук, ИХФ РАН, Москва, 2003
96. Morales D. A. Mathematical modeling of titration curves. J. Chemom., 16, 247 (2002)100. de Juan A., Maeder M., MartSez M., Tauler R. Combining hard- and soft-modelling to solve kinetic problems. Chemom. Intell. Lab. Syst., 54, 123 (2000)
97. Эфрон Б. HempaduifuouHbie методы многомерного статистического анализа. Москва, Финансы и Статистика, 1988 В. Efron,^W7. Stat. , 7, 1 (1979).
98. EURACHEM/CITAC Guide, Quantifying Uncertainty in Analytical Measurement, 2nd ed., EURACHEM, Lisbon, Portugal, 2000
99. Faber K, Kowalski B. R. Prediction error in least squares regression: Further critique on the deviation used in The Unscrambler. Chemom. Intell. Lab. Syst., 34, 283 (1996)
100. Pomerantsev A.L. Confidence Intervals for Non-linear Regression Extrapolation. Chemom. Intell. Lab. Syst., 49, 41 (1999)
101. Pulido A., Ruisanchez I., Boque R., Rius F.X. Uncertainty of results in routine qualitative analysis. Trends Anal. Chem., 22, 647 (2003)
102. Vershinin V.I. A priori method of evaluating uncertainties in qualitative chromatographic analysis ^probabilistic approach). Accreditation and Quality Assurance, 9, 415 (2004)
103. Faber N.M. Uncertainty estimation for multivariate regression coefficients. Chemom. Intell. Lab. Syst., 64, 169 (2002)
104. Faber N.M.,. Bro R. Standard error of prediction for multiway PLS 1. Background and a simulation study. Chemom. Intell. Lab. Syst., 61, 133 (2002)
105. Olivieri A. C., Faber N.M., Ferre J. , Boque R., Kalivas J. H., Mark H. Ucertainy estimation and figures of merit for multivariate calibration. Pure Appl.Chem.,78, 633 (2006)
106. Lorber A. Error propagation and figures of merit for quantification by solving matrix equations. Anal. Chem., 58, 1167 (1986)
107. Ferre J., Faber N.M. Net analyte signal calculation for multivariate calibration. Chemom. Intell. Lab. Syst., 69, 123 (2003)
108. Boque R., Faber N.M., Xavier Rius F. Detection limits in classical multivariate calibration models. Anal. Chim. Acta, 423, 41 (2000)
109. Boque R., Faber N.M., Xavier Rius F. Limit of detection estimator for second-order bilinear calibration. Anal. Chim. Acta, 451, 313 (2002)
110. Berget I., Nass T. Using unclassified observations for improving classifiers. J. Chemom., 18, 103 (2004)
111. Jouan-Rimbaud D., Massart D.L., Saby C.A., Puel C. Characterization of the representativity of selected sets in multivariate calibration and pattern recognition. Anal. Chim. Acta, 350, 149 (1997)
112. Meloun M., Militky J., Hill M., Brereton R.G. Crucial problems in regression modelling and their solutions. Analyst, 127, 433 (2002)
113. Fernandez Pierna J.A., Wahl F., de Noord O.E., Massart D.L. Methods of outlier detection in prediction. Chemom. Intell. Lab. Syst., 63, 27 (2002)
114. K. Faber. Comparison of two recently proposed expressions for partial least squares regression prediction error. Chemom. Intell. Lab. Syst., 52, 123 (2000)
115. Faber N.M., Song X.-H., Норке P.K. Sample-speciCb standard error of prediction for partial least squares regression. Trends Anal. Chem., 22, 330 (2003)
116. Bouveresse E., Massart D.L. Standardization of near-infrared spectrometric instruments: A review. Vibrat. Spectrosc., 11, 3 (1996)
117. Westad F., Martens H. Variable selection in NIR based on significance testing in Partial Least Squares Regression (PLSR). J. Near Infrared Spectros., 8, 117 (2000)
118. Hubert M., Verboven S. A robust PCR method for high-dimensional regressors. J. Chemom., 17, 438 (2003)
119. Bro R., Smilde A.K. Centering and scaling in component analysis. J. Chemom., 17, 16 (2003)
120. Kubelka P., Munck F. Ein Beitrag zur Optik der Farbanstriche. Zeits. F. techn. Physik, 12, 593 (1931)
121. Savitzky A., Golay M.J.E. Smoothing and differentiation of data by simplified least squares procedures. Anal. Chem., 36, 1627 (1964)
122. Geladi P., MacDougall D., Martens II. Linearization and scatter-correction for near-infrared reflectance spectra of meat. Appl. Spectrosc., 3, 491 (1985)
123. Isaksson Т., Kowalski B. Piece-wise multiplicative scatter correction applied to near-infrared diffuse transmittance data from meat products. Appl. Spectrosc., 47, 702 (1993)
124. Trygg J., Wold S. 02-PLS, a two-block (X-Y) latent variable regression (LVR) method with an integral OSC filter. J. Chemom., 17, 53 (2003)
125. Wold S., Antti H., Lindgren F., Ohman J. Orthogonal signal correction of near-infrared spectra. Chemom. Intell. Lab. Syst., 44, 175 (1998)
126. Fearn T. On orthogonal signal correction. Chemom. Intell. Lab. Syst., 50, 47 (2000)
127. Hoskuldsson A. Variable and subset selection in PLS regression. Chemom. Intell. Lab. Syst., 55, 23 (2001)
128. Guo Q., Wu W., Massart D.L., Boucon C., de Jong S. Feature selection in principal component analysis of analytical data. Chemom. Intell. Lab. Syst., 61, 123 (2002)
129. Forina M., Lanteri S., Oliveros M.C. Selection of useful predictors in multivariate calibration. Anal. Bioanal. Chem., 380, 397 (2004)
130. Leardi R, Boggia R., Terrile M. Genetic algorithms as a strategy for feature selection. J. Chemom., 6, 267 (1992)
131. Kalivas J.H. Pareto calibration with built-in wavelength selection. Anal. Chim. Acta, 505, 9 (2004)
132. Benoudjit N., Cools E., Meurens M., Verleysen M. Chemometric calibration of infrared spectrometers: selection and validation of variables by non-linear models. Chemom. Intell. Lab. Syst., 70, 47 (2004)
133. Indahl U., Naes Т. A variable selection strategy for supervised classification with continuous spectroscopic data. J. Chemom., 18, 53 (2004)
134. Feudale R.N., Woody N.A., Tan H., A.J. Myles, S.D. Brown, J. Ferre. Transfer of multivariate calibration models: a review. Chemom. Intell. Lab. Syst., 64, 181 (2002)
135. Hansen P.W. Pre-processing method minimizing the need for reference analyses. ,/. Chemom., 15, 123 (2001)
136. Чуй К. Введение в вэйвлеты. М. Мир. 2001 С.К. Chui. An Introduction to wavelets, Academic Press, 1992.
137. Trygg J., Wold S. PLS regression on wavelet compressed NIR spectra. Chemom. Intell. Lab. Syst, 42, 209 (1998)
138. Reinikainen S.-P. Wavelets in Compressing Spectral Data В кн: Progress in Chemometrics Research (Ed: A.L. Pomerantsev) NovaScience Publishers, New York, pp. 21-36, 2005
139. Pan Y., Yoo C.K., Lee J.H., Lee I.-B. Process monitoring for continuous process with periodic characteristics. J. Chemom., 18, 69 (2004)
140. Keller H.R., Massart D.L. Evolving factor analysis. Chemom. Intell. Lab. Syst., 12, 209 (1992)
141. Malinowsk E.R. Window Factor Analysis: theoretical derivation and application to ow-injection analysis data. J. Chemom., 6, 29 (1992)
142. Gemperline P.J. Target transformation factor analysis with linear inequality constraints applied to spectroscopic-chromatographic data. Anal. Chem., 58, 2656 (1986)
143. Wold S. Pattern recognition by means of disjoint principal components models. Pattern Recognition, 8, 127 (1976)
144. Jiang J.-H., Liang, Y. Ozaki Y. Principles and methodologies in self-modeling curve resolution. Chemom. Intell. Lab. Syst., 71, 1 (2004)
145. Sanchez F.C., van de Borgaert В., Rutan S.C., Massart D.L. Multivariate peak purity approaches. Chemom.Intell. Lab. Syst., 34, 139 (1996)
146. Shen H., Grande В., Kvalheim O.M., Eide I. Automated curve resolution applied to data from multi-detection instruments. Anal. Chim. Acta, 446, 311 (2001)
147. WindigW., Guilment J. Interactive self-modeling mixture analysis. Anal. Chem., 63, 1425 (1991)
148. Bogomolov A., Hachey M., Williams A. Software for interactive curve resolution using SIMPLISMA. В кн: Progress in Chemometrics Research (Ed: A.L. Pomerantsev) NovaScience Publishers, New York, pp. 119-135, 2005
149. Diewok J., de Juan A., Marcel M., Tauler R., Lendl B. Application of a Combination of Hard and Soft Modeling for Equilibrium Systems to the Quantitative Analysis of pH-Modulated Mixture Samples. Anal Chem., 76, 641 (2003)
150. БогомоловА.Ю., Ростовщикова Т.Н., Смирнов В.В. Комплексообразование хлорида железа(Ш) с хлористым водородом и водой в хлорорганическом растворителе. Ж. Физ. Хим., 69, 1197(1995)
151. Seipel Н.А., Kalivas J.H. Effective rank for multivariate calibration methods. J. Chemom., 18, 306 (2004)
152. Shrager R.I. Chemical transitions measured by spectra and resolved using singular value decomposition. Chemom. Intell. Lab. Syst., 1, 59 (1986)
153. De Maesschalck R., Jouan-Rimbaud D., Massart D.L. Tutorial. The Mahalanobis distance. Chemom. Intell. Lab. Syst., 50, 1 (2000)
154. Andrade J.M., Gomez-Carracedo M. P., Krzanowski W., Kubista M. Procrustes rotation in analytical chemistry, a tutorial. Chemom. Intell. Lab. Syst., 72, 123 (2004)
155. RodionovaO.Ye., НошшПег L.P., Pomerantsev A.L., Gelad P., Burger J., Dorofeyev V.L., Arzamastsev A.P. NIR Spectrometry for Counterfeit Drug Detection. A Feasibility Study. Anal. Chim. Acta, 549, 151 (2005)
156. SunL.X., Danzer K. Fuzzy cluster analysis by simulated annealing. J. Chemom., 10, 325 (1996)
157. Myle A.J., Brown S.D. Induction of decision trees using fuzzy partitions. J. Chemom., 17, 531 (2003)
158. Gonzalez-ArjonaD., Lopez-Perez G., Gonzalez A.G. Performing procrustes discriminant analysis with HOLMES. Talanta, 49, 189 (1999)
159. Mark Н. Use of Mahalanobis distances to evaluate sample preparation methods for near-infrared reflectance analysis. Anal. Chem., 59, 790 (1987)
160. Gemperline P.J., Boyer N.R. Classification of near-infrared spectra using wavelength distances: comparison to the Mahalanobis distance and residual variance methods. Anal. Chem., 67, 160(1995)
161. Mark H.L., Tunnell D. Qualitative near-infrared reflectance analysis using Mahalanobis distances. Anal Chem., 57, 1449 (1985)
162. Indahl U., Sing N.S., Kirkhuus В., Naes T. Multivariate strategies for classification based on NIR-spectra—with application to mayonnaise. Chemom.Intell Lab. Syst., 49, 19 (1999)
163. Downey G., Boussion J., Beauchene D. Authentication of whole and ground coffee beans by near infrared reflectance spectroscopy. J.Near Infrared Spectrosc., 2, 85 (1994)
164. Flaten G.R., Grung В., Kvalheim O.M. A method for validation of reference sets in SIMCA modelling. Chemom. Intell. Lab. Syst., 72, 101 (2004)
165. Naes Т., Indahl U. A unified description of classical classification methods for multicollinear data. J. Chemom., 12, 205 (1998)
166. McElhinney J., Downey G., Fearn T. Chemometric processing of visible and near infrared reflectance spectra for species identification in selected raw homogenised meats. J.Near Infrared Spectrosc., 7, 145 (1999)
167. Zomer S., Brereton R., Carter J.F., Eckers C. Support vector machines for the discrimination of analytical chemical data: application to the determination of tablet production by pyrolysis-gas chromatography-mass spectrometry. Analyst, 129, 175 (2004)
168. Sarker M., Rayens W. Partial least squares for discrimination. J. Chemom., 17, 166 (2003)
169. Herrero A., Zamponi S., Marassi R.,. Conti P, Ortiz M.C., Sarabia L.A. Determination of the capability of detection of a hyphenated method: application to spectroelectrochemistry. Chemom. Intell. Lab. Syst., 61, 63 (2002)
170. Bijlsma S., Smilde A.K. Estimating reaction rate constants from two-step reaction: a comparison between two-way and three-way methods. J. Chemom., 14, 541 (2000)
171. Bro R. PARAFAC. Tutorial and applications. Chemom. Intell. Lab. Syst., 38, 149 (1997)
172. Kiers H. Some procedures for displaying results from three-way methods.J. Chemom., 14, 151 (2000)
173. Faber N.M., Bro R., Норке P.K. Recent developments in CANDECOMP/PARAFAC algorithms: a critical review. Chemom. Intell. Lab. Syst., 65, 119 (2003)
174. Andersson C.A. , Bro R. The N-way toolbox for MATLAB. Chemom. Intell. Lab. Syst., 52 , 1 (2000)184. del Rio F.J., Riu J., Rius F.X. Prediction intervals in linear regression taking into account errors on both axes. J. Chemom., 15, 773 (2001)
175. Brereton R.G. Introduction to multivariate calibration in analytical chemistry. Analyst, 125, 2125 (2000)
176. Hoskuldsson A. PLS Regression Methods. J. Chemom., 2, 211 (1988)187. de Jong S. SIMPLS: an alternative approach to partial least squares regression. Chemom. Intell. Lab. Syst., 18, 251 (1993)
177. Li В., Morris A.J.,. Martin E.B. Generalized partial least squares regression based on the penalized minimum norm projection. Chemom. Intell. Lab. Syst, 72, 21 (2004)
178. Hubert M.,Vanden Branden K. Robust methods for partial least squares regression. J. Chemom., 17, 537 (2003)
179. Vigneau E., Devaux M., Qannari M., Robert P. Principal component regression, ridge regression and ridge principal component regression in spectroscopy calibration. J. Chemom., 11,239 (1997)
180. Geladi P. Some recent trends in the calibration literature. Chemom. Intell. Lab. Syst., 60, 211 (2002)
181. Канторович JI.B. О некоторых новых подходах к вычислительным методам и обработке наблюдений. Сиб. мат. эюурн., 3 , 701 (1962)
182. Rodionova О. Ye., Pomerantsev A.L. Principles of Simple Interval Calculations, В кн: Progress in Chemometrics Research, Pomerantsev AL (ed.). Nova Science Publishers: New York, pp43-64, 2005
183. Белов В.М., Суханов В.А., Унгер Ф.Г. Теоретические и прикладные аспекты метода центра неопределенности. Новосибирск, Наука, 1995
184. Bro R. Multi-way calibration. Multi-linear PLS. J. Chemom., 10, 47 (1996)
185. Bro R., Andersson C.A. The N-way Toolbox for MATLAB, Version 2.02, 2003. Доступно на http://www.models.kvl.dk/source 3 мая 2007.
186. Ni Y., Huang C., Kokot S. Application of multivariate calibration and artificial neural networks to simultaneous kinetic-spectrophotometric determination of carbamate pesticides. Chemom. Intell. Lab. Syst., 71, 177 (2004)
187. Chen Z.P., Morris J., Martin E., Yu R.-Q., Liang Y.-Z., Gong F. Recursive evolving spectral projection for revealing the concentration windows of overlapping peaks in two-way chromatographic experiments. Chemom. Intell. Lab. Syst., 72, 9 (2004)
188. Fernandez F. M., Tudino M. В., Troccoli О. E. Multicomponent kinetic determination of Cu, Zn, Co, Ni and Fe at trace levels by first and second order multivariate calibration. Anal. Chim. Acta, 433, 119 (2001)
189. Бард Й. Нелинейное оценивание параметров. М.: Статистика, 1979. Y. Bard, Nonlinear Parameter Estimation, Academic Press, New York, 1974.
190. Barry D.M., Meites L. Titrimetric applications of multiparametric curve-fitting. Part 1 Potentiometric titrations of weak bases with strong acids at extreme dilutions. Anal. Chim. Acta, 68, 435 (1974)
191. Марьянов Б. В кн. Химики ТГУ на пороге третьего тысячелетия. Томск, Изд -во ТГУ, сс. 48-58, 1998
192. Berglund A., Wold S. INLR, implicit non-linear latent variable regression. J. Chemom., 11, 141 (1997)
193. Berglund A., Kettaneh N.L.U., Wold S., Bendwell N.,Cameron D.R. The GIFI approach to non-linear PLS modelling. J. Chemom., 15, 321 (2001)
194. Wold S. Nonlinear partial least squares modelling II. Spline inner relation. Chemom. Intell. Lab. Syst., 14, 71 (1992)
195. Zupan J., Gasteiger J. Neural networks: A new method for solving chemical problems or just a passing phase? Anal. Chim. Acta, 248, 1 (1991)
196. Zupan J., Gasteiger J. Neural Network for Chemists, An Introduction. VCH, Weinheim, 1993.
197. Wu W., Walczak В., Massart D.L., Heuerding E., Erni F.E., Last I.R., Prebble K.A. Artificial neural networks in classificafion of NIR spectral data: Design of the training set. Chemom. Intell. Lab. Syst., 33, 35 (1996)
198. Smits J.R.M., Meissen W.J., Buydens L.M.C., Kateman G. Using artificial neural networks for solving chemical problems. Part I. Multi-layer feed-forward networks. Chemom. Intell. Lab. Syst., 22, 165 (1994)
199. Meissen W.J., Smits J.R.M., Buydens L.M.C., Kateman G. Using artificial neural networks for solving chemical problems. Part II. Kohonen self-organising feature maps and Hopfield networks. Chemom. Intell. Lab. Syst., 23, 267 (1994)
200. Hibbert D.B. Genetic algorithms in chemistry. Chemom. Intell. Lab. Syst., 19, 277, (1993)
201. Leardi R. Genetic algorithms in chemometrics and chemistry: a review. J. Chemom., 15, 559 (2001)
202. Shao X., Chen Z., Lin X. Resolution of multicomponent overlapping chromatogram using an immune algorithm and genetic algorithm. Chemom. Intell. Lab. Syst., 50, 91 (2000)
203. Вощинин А.П., Бочков А.Ф., Сотиров Г.Р. Методы анализа данных при интервальной нестатистической ошибке. Завод, лаб., 56, 76 (1990)
204. Анисимов В.М., Померанцев A.JL, Новорадовский А.Г., Карпухин О.Н. Определение чувствительности объектов к полихроматическому световому воздействию. Жури, прикл. спектрос, 46, 117 (1987)
205. Спивак С.И., Тимошенко В.И., Слинько М.Г. Применение метода выравнивания по П.Л. Чебышеву при построении кинетических модели сложной химической реакции. Докл. АН СССР, 192, 580 (1970)
206. Слинько М.Г., Спивак С.И., Тимошенко В.И. О критериях определения параметров кинетических моделей. Кинетика и катализ, 13, 1570 (1972)
207. Ахунов И.Р., Ахмадишин 3. Ш., Спивак С.И. Математическая интерпретация кинетического эксперимента сложных реакций сопряженного окисления. Хим. физика, 12, 1660 (1982)
208. Бахитова Р.Х. ,Спивак С.И. Нечеткие интервальные оценки в кинетике химических реакций. Химия и хим. технол., 42, 92 (1999)
209. Хлебников А.И. О методе центра неопределенности. Ж. Аналит. химии, 51, 347 (1996)
210. Померанцев A.JL, Родионова О.Е. О двух подходах к анализу кинетических данных на примере предсказания активности антиоксидантов. Кинетика и катализ, 47, 553 (2006)
211. CookR.D. Detection of Influential Observations in Linear Regression. Technometrics-, 19, 15(1977)
212. Cook R.D. Influential Observations in Linear Regression J. Am. Statis. Ass., 74, 169 (1979)
213. Andrews D.F., Pregibon D. Finding the outliers that matter.J. Royal Statis. Soc.B, 40, 84 (1978)
214. Draper N.R., John J. A Influential Observations and Outliers in Regression. Technometrics, 23,21 (1981)
215. Naes T. The design of calibration in near infra-red reflectance analysis by clustering. J. Chemometrics, 1, 121 (1987)
216. Померанцев A.JI., Родионова О.Е. Построение многомерной калибровки методом простого интервального оценивания. Ж. Аналит. химии, 61, 1032 (2006)
217. Clancey V.J. Statistical methods in chemical analyses. Nature, 159, 339 (1947)
218. Rajko R. Treatment of model error in calibration by robust and fuzzy procedures. Anal. Letters, 27,215 (1994)
219. Боровков А.А. Математическая статистика (Оценки параметров. Проверка гипотез). М.: Наука, 1984
220. Гумбель Э. Статистика экстремальных значений. М. Мир, 1965 Gumbel Е Statistics of extremes, Columbia University Press: N.Y., 1962.
221. Gass S. Linear Programming (4-th ed.). McGow-Hill: New York, 1975
222. Kuhn H.W., Tucker A.W. Linear Inequalities and Related Systems. Ann. Math. Studies, 38, Princeton University Press: Princeton, N.J., 1956
223. Lehmann E.L. Testing Statistical Hypotheses. Wiley, New York, 1960
224. Eicker F. Asymptotic normality and consistency of the least squares estimators for families of linear regressions. Ann. Math. Stat., 34, 447 (1963)
225. Данциг Дж. Линейное программирование, его применение и обобщение. М. Прогресс, 1966 Dantzing G.B. linear Programming and Extensions, Princeton University Press, Princeton, New Jersey, 1963.
226. Таха X. Введение в исследование операций. М. Мир, 1985, т.1. Taha Н., Operations Research. An Introduction, (3-d ed), vol.1, MacMillan Publishing Co., N. Y., 1982.
227. Cook R.D. Detection of influential observations in linear regression. Technometrics, 21, 15(1977)
228. Belsley D.A., Kuh E., Welsch R.E. Regression diagnostics. Identifying influential data and sources of collinearity. John Wiley & Sons Ltd. New York, 1980
229. Walkenbach J. Excel 2000 Power Programming with VBA, 2001
230. Esbensen K.H., Halstensen M, Lied T.T., Saudland A, Svalestuen J., .de Silva S, Hope B. Acoustic chemometrics from noise to information. Chemom. Intell.Lab.Syst., 44, 61 (1998)
231. Лаврентьев M. M., Краева А.Г., Бухгейм A.B. Обратная задача химической кинетики. Новосибирск: ВЦ СО АН СССР, 1980
232. Спивак С.И, Горский В.Г. Неединственность решения задачи восстановления кинетических констант. Докл. АН СССР, 275, 412 (1981)
233. Применение вычислительной математики в химической и физической кинетике. Под ред. Л.С. Полака, М.: Наука, 1969
234. Павлов Б.В., Родионова О.Е. Математическое моделирование сложных самоускоряющихся реакций. Теор. основы хим. технологии, 28, 251 (1994)
235. Павлов Б.В., Родионова О.Е. Проблемы математического моделирования в неравновесной теории химических процессов. Хим. физика., 17, 27 (1998)
236. Павлов Б.В., Брин Э.Ф. Обратная задача химической кинетики. Хим. физика, 3(3), 393 (1984)
237. Павлов Б.В., Родионова О.Е. Численное решение систем линейных обыкновенных дифференциальных уравнений с постоянными коэффициентами. Ж. вычил. матем. иматем. физ., 34, 622 (1994)
238. Павлов Б.В., Родионова О.Е. Методика усреднения при дискретизации кинетического интегро-дифференциального уравнения. Ж. вычил. матем. и матем. физ., 36, 143 (1996)
239. Bijlsma S., Louwerse D.J., Windig W., Smilde А.К .Rapid estimation of rate constants using on-line SW-NIR and trilinear models. Anal.Chim.Acta, 376, 339 (1998)
240. Pomerantsev A.L., Rodionova O.Ye. Chemometrics in Russia. Chemom. Intell. Lab. Syst, 48, 121 (1999)
241. Pomerantsev A.L., Rodionova О.Ye. Prediction of antioxidants activity using DSC measurements. A feasibility study. В сб.: Zaikov et al (Eds) Aging of polymers, polymer blends and polymer composites, 1, NovaScience Publishers, NY, pp. 19-29, 2002,.
242. Shlyapnikov Yu.A In: Development in Polymer Stabilization, Applied Science Publishers, London, 5, 1 (1981)
243. Pomerantsev A.L. Successive Bayesian estimation of reaction rate constants from spectral data Chemometrics Intell.Lab.Syst., 66 , 127 (2003)
244. Померанцев A.Jl., Родионова O.E. Содержательный и формальный подход к анализу кинетических данных. В сб. Химическая и биологическая кинетика. Новые горизонты. М. Химия, 2005 (ISBN: 5-98109-035-9), 1, 124-172
245. Bystritskaya E.V., Pomerantsev A.L., Rodionova О.Ye. Conferentia chemometrica (CC-97), Budapest, Pos. 54, (1997)
246. Fitter Solutions On line., http://polycert.chph.ras.ru/solution.htm [3 мая 2007]
247. Павлов Б.В., Повзнер А.Я. Об одном методе численного интегрирования систем обыкновенных дифференциальных уравнений. Ж. Вычисл. Мат. Мат. Физ., 13, 1056 (1973)
248. Marquardt D.W. An algorithm for least-squares estimation of non-linear parameters. SIAMJ., 11,431 (1963)
249. Levenberg K. A Method for the Solution of Certain Problems in Last Squares. Quart. Appl. Math., 2, 164 (1944)
250. Pomerantsev A.L. Confidence intervals for nonlinear regression extrapolation. Chemom. Intell.Lab.Syst., 49, 41 (1999)
251. Родионова О.E.,Померанцев А.Л. Оценивание параметров в уравнении Аррениуса. Кинетика и катализ, 46, 329 (2005)
252. Counterfeit drugs. Guidelines for the development of measures to combat counterfeit drugs, WHO, Geneva (1999)
253. Counterfeit drugs: threat to Public Health. 55 World Health Assembly, Geneva (2002)
254. Arzamastsev A.P., Dorofeyev V.L., Kochin V.Yu, et al. Using Thin-Layer Chromatography for the Fast Identification of the Fluoroquinolone Drugs. World Congress of Pharmacy and Pharmaceutical Sciences 2002: 62nd International Congress ofFIP, 39 (2002)
255. Arzamastsev А.Р., Dorofeyev V.L., Konovalov A.A., KochinV.Yu., Titov I.V. Determining Adulterated Drugs by Modern Analytical Techniques. Pharmaceutical Chemistry Journal, 38, 166 (2004)
256. Shewhart W.A. Economic Control of Quality of Manufactured Product, Van Nostrand, New York, 1931
257. MacGregor J., Kourti Th. Statistical process Control of Multivariate Processes. Control Engineering Practice, 3, 403 (1995)
258. Померанцев A.JI., Родионова O.E. Многомерный статистический контроль процессов. Методы менеджмента качества, 6, 15 (2002)
259. Kourti Th., MacGregor J. Process analysis, monitoring and diagnosis, using multivariate projection methods. Tutorial. Chemom. Intell. Lab. Syst., 28, 3, (1995)
260. Westerhuis J.A., Kourti Th., MacGregor J. Analysis of multiblock and hierarchical PCA and PLS models. J. Chemom., 12, 301 (1998)
261. Hoskuldsson A., Rodionova O.Ye., PomerantsevA.L. Path Modelling and Process Control, Chemom. Intell. Lab.Syst., 88, 84 (2007)
262. Pomerantsev A.L., Rodionova O.Ye. Multivariate statistical process control and optimisation. В кн: Progress in Chemometrics Research (Ed: A.L. Pomerantsev) NovaScience Publishers, New York, pp. 209-227, 2005
263. Gabrielsson J., Lindberg N-O., Lundstedt T. Multivariate methods in pharmaceutical applications./ Chemom., 16, 141 (2002)
264. Bro R. Exploratory study of sugar production using fluorescence spectroscopy and multi-way analysis. Chemom. Intell. Lab. Syst., 46, 133 (1999 )
265. Yoo C.K.,Lee J.-M., Vanrolleghem P.A., Lee I.-B. On-line monitoring of batch processes using multiway independent component analysis. Chemom. Intell Lab. Syst., 71, 151 (2004)
266. Baroni M., Benedetti P., Fraternale S. Scialpi, F., Vix P., Clementi S. The CARSO procedure in process optimization. J. Chemom., 17, 9 (2003)
267. Martens H., Martens M. Multivariate Analysis of Quality: An Introduction, John Wiley & Sons Ltd., Chichester, 2001
268. Dyson R.M., Hazenkamp M., Kaufmann K.,. Maeder M, Studer M., Zilian A. Modern tools for reaction monitoring: hard and soft modelling of non-ideal, on-line acquired spectra.,/. Chemom., 14, 737 (2000)
269. Pollanen К., Hakkinen A., Reinikainen S.-P., Louhi-Kultanen M., Nystrom L. ATR-FTIR in monitoring of crystallization processes: comparison of indirect and direct OSC methods. Chemom. Intell. Lab. Syst., 76, 25 (2005)
270. Thurston T.J., Brereton R.G., Foord D.J., Escott R.E.A. Principal components plots for exploratory investigation of reactions using ultraviolet-visible spectroscopy: application to the formation of benzophenone phenylhydrazone. Talanta, 63, 757 (2004)
271. Bezemer E., Rutan S.C. Multivariate curve resolution with non-linear fitting of kinetic profiles. Chemom. Intell. Lab. Syst., 59, 19 (2001)
272. Workman Jr., Creasy K.E., Doherty S„ Bond L., Koch M., Ullman A., Veltkamp D.J. Process analytical chemistry. Anal. Chem., 73, 2705 (2001)
273. Gurden S.P., Martin E.B., Morris A.J. The introduction of process chemometrics into an industrial pilot plant laboratory. Chemom. Intell. Lab. Syst., 44, 319 (1998)
274. ASTM Standard El655. Standard Practices for Infrared Multivariate Quantitative Analysis, 1997
275. Pomerantsev A.L., Rodionova O.Ye., Hoskuldsson A. Process control and optimization with simple interval calculation method. Chemom. Intell. Lab.Syst., 81 (2), 165 (2006)
276. Wagen L.E., Kowalski B. A multiblock partial least squares algorithm for investigation complex chemical systems. J. Chemometrics, 3, 3 (1998)
277. Kennard R.W., Stone L.A. Computer Aided Design of Experiment. Technometrics, 11, 137(1969)
278. Федоров В.В. Теория оптимального эксперимента. Наука, Москва, 1971
279. Rodionova O.Ye., Pomerantsev A.L. Application of simple interval calculation method for representative subset selection. Тез.докл. на международной конф. ICAS 2006, Москва 2006
280. Rajer-Kanduc K.,Zupan J., Majcen N. Separation of data on the training and test set for modelling: a case study for modelling of five colour properties of a white pigment. Chemometrics Intell. Lab. Syst, 65,221 (2003)
281. Andersson P. M., Sjostro M., Wold S., Lundstedt T. Strategies for subset selection of parts of an in-house chemical library. J. Chemometrics, 15, 353 (2001)
282. Cruciani G., Baroni M., Carosati E., Clementi M., Valigi R., Clementi S. Peptide studies by means of principal properties of amino acids derived from MIF descriptors. J. Chemometrics, 18,146 (2004)