Методы нелинейного регрессионного анализа для моделирования кинетики химических и физических процессов тема автореферата и диссертации по физике, 01.04.17 ВАК РФ
Померанцев, Алексей Леонидович
АВТОР
|
||||
доктора физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
2003
ГОД ЗАЩИТЫ
|
|
01.04.17
КОД ВАК РФ
|
||
|
Оглавление
Введение
Некоторые теоретические вопросы нелинейного регрессионного анализа
1. Основы регрессионного анализа
1.1. Модель и данные 1.2. Метод максимума правдоподобия
1.3. Точность оценивания
1.4. Проверка гипотез
1.5. Результаты главы
2. Последовательное байесовское оценивание
2.1. Метод максимума правдоподобия с учетом априорной информации
2.2. Апостериорная информация
2.3. Общие и частные параметры
2.4. Обратное последовательное байесовское оценивание
2.5. Пример применения ПБО
2.6. Практическое использование метода ПБО
2.7. Результаты главы
3. Учет нелинейности регрессии
3.1. Традиционные методы построения доверительных интервалов
3.2. Новые методы построения доверительных интервалов
3.3. Модельный пример построения интервалов
3.4."Коэффициент нелинейности
3.5. Результаты главы
Вычислительные аспекты нелинейного регрессионного анализа
4. Алгоритмы
4.1. Минимизация целевой функции
4.2. Вычисление модели и ее производных
4.3. Тестирование программ
4.4. Мультиколлинеарность
4.5. Результаты главы
5. Описание программы Fitter
5.1. Основные свойства, возможности, требования и ограничения
5.2. Данные
5.3. Модель
5.4. Параметры
5.5. Априорная информация
5.6. Главный Диалог Fitter
5.7. Регистратор настроек
5.8. Регистратор данных
5.9. Регистратор модели
5.10. Регистратор априорной информации
5.11. Диалог дополнительных дей ствий
5.12. Функции Fitter
5.13. Результаты главы
Эта работа посвящена применению различных математико-статистических методов и, прежде всего, нелинейного регрессионного анализа (HJIPA) для обработки и интерпретации данных, получаемых в физико-химических экспериментах [1, 2, 3]. Термины «эксперимент» и «экспериментальные данные» являются одним из основных понятий регрессионного анализа, поэтому разъясним, что под ними понимается. Прежде всего, мы будем полагать, что состояние исследуемой системы можно исчерпывающе описать некоторым (возможно бесконечным) набором детерминированных величин. Часть этих величин известна априори (например, условия эксперимента), а другая часть - неизвестна. Известные величины принято называть предикторами (х), а неизвестные - параметрами (а). В результате эксперимента мы получаем другой (уже конечный) набор величин (у) - экспериментальные данные, которые являются реализацией случайных величин, т.е. выборкой из некоторой гипотетической генеральной совокупности. Случайность результатов измерений - это результат действия многих неизвестных факторов, действующих на исследуемую систему, которые принято называть ошибкой или шумом (е). Если удалить шум из данных, то оставшиеся детерминированные значения будут являться сигналом {/)- полезной информацией, получаемой в эксперименте. Принципиально важно, что различие между сигналом и шумом не является абсолютным и зависит от постановленной задачи и от возможностей прибора. То, что в одной задаче можно рассматривать как шум, в другом случае будет уже полезной информацией - сигналом.
Результаты эксперимента, называемые откликами, зависят от набора величин, характеризующих состояние системы - как от предикторов, так и параметров. В общем случае эту зависимость можно представить некоторым оператором y=T(x,a,f, е), который, собственно, и является математическим аналогом физического прибора. Этот оператор может представлять простую, линейную зависимость, но в чаще всего это -сложная, нелинейная функция.
Большинство приборов устроено таким образом, что оператор Т можно записать в виде у= fix, а)+е, (абсолютная ошибка измерения) или в виде у=/{х,а)(Пё) относительная ошибка измерения). Кроме того, обычно можно предполагать, что шум е является несмещенным, некоррелированным случайным процессом, т.е. ошибки в среднем равны нулю и в разных точках несвязанны друг с другом. Величины этих ошибок, естественно, неизвестны. Такое представление связи между измеряемым откликом и неизвестным сигналом называется регрессией, а математические методы анализа этих зависимостей носят название регрессионных.
Если модель сигнала fix, а) известна, то для решения задачи обработки экспериментальных данных нужно только оценить неизвестные параметры а, входящие в эту функцию. Для этого применяют различные методы, которые можно объединить одной схемой. Строится некоторая функция Q(y, а), называемая целевой, которая зависит от откликов у и от неизвестных параметров а. Затем ищется минимум этой функции по параметрам а при фиксированных значениях у. Точка а, в которой достигается этот минимум, и является искомой оценкой. Эта величина зависит от экспериментальных значений которые представляют реализацию случайных величин, поэтому и сама оценка является случайной. Выбирая разные целевые функции можно получать разные оценки. При этом предпочтение отдается оценкам, являющимся состоятельными, несмещенными и эффективными. Состоятельность означает, что при неограниченном увеличении числа экспериментов значение оценки а сходится к истинному значению а. Оценка называется несмещенной, если ее математическое ожидание равно истинному значению. Наконец оценка будет эффективной в классе некоторых оценок, если у нее будет минимальное отклонение от истинного значения.
Выбор вида регрессионной модели, т.е. функция fix, а) является центральным моментом при обработке экспериментальных данных. Если эта функция строится на основе базовых представлений о природе процессов, происходящих в исследуемой системе, то она, как правило, является сложной нелинейной зависимостью. Такой подход называется содержательным моделированием [2, 111] (hard modeling). Другой подход, называемый формальным моделированием [122, 123, 127] (soft modeling), используется в тех случаях, когда физико-химическое содержание исследуемого процесса либо неизвестно, либо слишком сложно. Тогда строится простейшая линейная зависимость сигнала от неизвестных параметров.
Оба подхода широко применяются на практике. При этом западные исследователи, в основном, предпочитают формальное моделирование. Этот факт подтверждается простым сравнением числа статей [4] об использовании линейного регрессионного анализа (во всех его разновидностях - РСА, PLS) с немногими публикациями о HJIPA. В то же время у российских ученых издавна существует традиция использовать именно содержательные модели для обработки результатов эксперимента [2, 95, 114]. Это связано с тем, что только нелинейное моделирование дает реальную возможность прогнозировать поведение сложной системы в условиях, которые сильно отличаются от условий, наблюдаемых в эксперименте.
Противопоставление линейного и нелинейного моделирования имеет важное методическое значение. В Табл. 1.1 в схематичном виде представлены некоторые ключевые свойства того и другого метода. Их сравнительный анализ помогает понять, в чем состоят особенности, недостатки и преимущества каждого подхода. Заметим, что существует стойкое убеждение, заключающееся в том, что использование линейного моделирования значительно проще, чем нелинейного. Одна из задач этой работы состоит в том, чтобы опровергнуть такое мнение. Мы покажем, что нелинейный регрессионный анализ данных ничуть не сложнее, а в некотором смысле даже проще, чем линейный.
Табл. 1.1 Свойства линейной и нелинейной регрессионных моделей
Свойства Линейное моделирование Нелинейное моделирование
Формула f=aI(pI(x)+ . +ар(р„(х) любая j[x, а)
Различие d2f/d2 а =0 d2f/d2 а ±0
Модель формальная содержательная
Построение легкое трудное
Интерпретация хорошо известна плохо исследована
Назначение интерполяция экстраполяция
Обработка обращение матрицы минимиза
Размерность большая маленькая
Мультиколлинеарность избыток параметров нехватка данных
Программы много мало
Рассмотрим, в чем проявляется различие между линейным и нелинейным моделированием. Линейная модель представляется уравнением f=aj(pj(x)+ .+ар(рр(х) в котором а, - это неизвестные параметры, а х, - это известные независимые переменные или их функции. Существенно то, что модель линейна именно по параметрам т.е. д 2f fd2 а = 0 .
При этом она зависимость от предикторов х может быть не линейной. Например, модель f=aexр( -2Ох) линейна, поскольку она линейна по параметру а, несмотря на нелинейную зависимость от х.
Формально говоря, линейная модель - это точка в пространстве всех возможных функций от р аргументов. Все остальное пространство занято нелинейными моделями. Поэтому понятно, что основная проблема нелинейного моделирования - это выбор функции для описания эксперимента. Только физико-химические соображения помогают понять, какая модель должна быть использована, и построить содержательное описание. В этой работе почти не затрагиваются вопросы построения содержательных физико-химических моделей. Исключение составляет глава 9, посвященная диффузионным процессам. Большинство моделей, использованных в работе, не является оригинальными. Они либо хорошо известны, либо создавались совместно с коллегами, имеющими более глубокие знания в областях, где эти задачи актуальны.
Работа имеет следующую структуру (см. Оглавление). Она разбита на три части, посвященные соответственно теоретическим, алгоритмическим и практическим проблемам HJIPA. В первой части имеются три главы (1-3), из которых первая посвящена введению в проблему нелинейного оценивания, а вторая и третья содержат оригинальные теоретические разработки в этой области. Вторая часть содержит две главы (4 и 5) - описание алгоритмов и системы Fitter. В третьей части работы, включающей шесть глав (6-11), представлены результаты применения разработанных методов и программ при решении некоторых практических задач.
Методы построения оценок - это центральная проблема статистической теории HJIPA. В главе 1 рассказывается о традиционных, хорошо известных подходах к этой проблеме -методе наименьших квадратов (МНК), методе максимума правдоподобия (ММП). Следующая глава 2 содержит описание оригинального метода последовательного байесовского оценивания (ПБО) [30]. Этот метод позволяет решать самые сложные проблемы обработки данных, разбивая одну большую задачу на последовательность маленьких задач, связанных между собой априорной информацией, передаваемой по цепочке. При этом можно решать как задачи с большим числом экспериментальных данных (п»1), так и задачи, в которых имеется большое число неизвестных параметров (р»1). Метод ПБО - это наш главный инструмент, применяемый при нелинейном статистическом моделировании. Многочисленные примеры таких приложений сосредоточены в третьей части работы. В главе 2 излагаются основные идеи этого метода, доказывается основная теорема, обосновывающая его применение, приводится простейший пример, и обсуждаются его преимущества и недостатки.
Нахождение оценок неизвестных параметров модели - это только половина работы. Необходимо также и интерпретировать полученные результаты, то есть вычислить точность оценок (стандартные отклонения, ковариации), проверить качество подгонки (проверить статистические гипотезы) и построить доверительные интервалы. Классическая теория линейной регрессии дает простые решения [1, 20] для всех этих задач. В случае нелинейной регрессии соответствующая теория разработана еще недостаточно. Здесь мы сталкиваемся с дилеммой: либо использовать линейное приближение, либо применять методы статистического моделирования [27, 56]. Первый вариант прост в вычислениях, но не гарантирует точных результатов. Второй вариант, как показала практика, дает очень точные результаты, но требует длительного времени для выполнения. В главе 3 изложен новый подход к учету нелинейности регрессионных оценок - построению доверительных интервалов, оценки степени нелинейности, который отличается от известных тем, что в нем моделируются не исходные данные, а оценки параметров. Притом, что этот метод дает ту же точность, что и традиционное статистическое моделирование, он примерно в 1000 раз быстрее. Важность решения задачи доверительного оценивания объясняется тем, что основное предназначение содержательных, нелинейных моделей - это прогнозирование на условия, значительно отличающиеся от условий эксперимента. Хорошо известно, что при такой экстраполяции ошибка предсказания резко возрастает. Поэтому правильное определение границ доверия необходимо для принятия практически важных решений при прогнозе.
В главе 4 рассказывается о том, какие вычислительные алгоритмы применяются в нелинейном моделировании. Опираясь на имеющийся опыт, мы можем утверждать, что поиск оценок параметров нелинейной модели не намного сложнее, чем линейной. Это определяется тем, что процедуры оптимизации целевой функции детально разработаны. Метод Марквардта [67] является сейчас самым популярным, но есть и более интересные методы, например алгоритм минимизации, основанный на обращении матричной экспоненты, который был предложен Б.В. Павловым и А.Я. Повзнером [74]. Специфика нелинейного моделирования проявляется в двух проблемах: выбор начальных значений параметров и расчет производных модели по параметрам. Проблема выбора стартовой точки не имеет простого решения (и, по-видимому, никогда не будет решена). Здесь можно рассчитывать на успешный выбор опытного исследователя, который понимает сущность проблемы. Кроме того, можно полагаться и на стабильность алгоритма минимизации, который сходится из широкой окрестности точки минимума целевой функции.
Суть проблемы вычисления производных состоит в следующем. Физико-химический эксперимент - это сложная и дорогостоящая процедура, в которой, подчас, имеются принципиальные ограничения, не позволяющие провести измерения в той области, которая была бы желательной с точки зрения математических доводов метода планирования эксперимента. Поэтому ключевым моментом, определяющим успех обработки данных, является точность вычисления модели и особенно ее производных. Производные модели по параметрам играют важную роль при поиске минимума целевой функции - чем точнее они вычисляются, тем точнее определяются оценки. Практический опыт и теоретические выкладки показывают, что для решения задач нелинейного моделирования физико-химических систем, необходимо проводить вычисления с точностью 10-12 десятичных порядков. Разумеется, достичь такой точности, используя разностные методы вычисления производных, невозможно. В этой главе излагаются оригинальные алгоритмы, позволяющие решить одновременно две важные задачи -упростить пользователю задание моделей и добиться высокой точности вычислений
При построении этих процедур мы исходили, прежде всего, из того, что исследователь, применяющий программное обеспечение, построенное на этих алгоритмах, должен иметь максимальные удобства для задания самых сложных моделей. Основное требование - это возможность вводить явные, неявные, а также функции, заданные дифференциальными уравнениями, в естественной форме, которая должна мало отличаться от общепринятых математических обозначений. Второе условие - это возможность использования промежуточных переменных и подстановок, которые сильно упрощают вид модели. И, наконец, третье требование сводилось к тому, что вычисление производных от функции fix, а) по параметрам а должно производиться автоматически, без участия человека, даже для самых сложных уравнений. Эти требования удалось удовлетворить, разработав специальные процедуры, интерпретирующие текст модели, задаваемый пользователем. Эти процедуры не только вычисляют (компилируют) результат, но и проводят символьное дифференцирование модели с последующей компиляцией результата дифференцирования.
Простота тривиального выбора линейной модели иллюзорна, так как эти модели всегда имеют большое число неизвестных параметров. Такая избыточность описания приводит к тому, что все эти параметры невозможно оценить и задача становится мулътиколлинеарной. Мультиколлинеарность [2, 3, 83] означает вырожденность регрессионной информационной матрицы. Такая проблема встречается и в нелинейной регрессии, но ее интерпретация совершенно другая. Это похоже на классический спор между пессимистом и оптимистом - эта бутылка наполовину пуста или наполовину полна? Линейный анализ представляет оптимистическую точку зрения. В нем всегда предполагается, что модель слишком полна, так что необходимо сократить число параметров [19, 123, 127] любыми способами (PLS, РСА). С другой стороны, в нелинейной модели, как правило, нет лишних параметров, так как все эти параметры продиктованы природой исследуемого процесса [54, 92]. Вот почему при использовании HJ1PA мы выбираем пессимистическую точку зрения и предполагаем нехватку экспериментальных данных. Такой подход ведет к специфическим методам борьбы с мультиколлинеарностью в нелинейных моделях (например, байесовский подход), что, тем не менее, не мешает нам использовать и традиционные методы. В конце главы 4 рассматриваются некоторые приемы, позволяющие простыми методами преодолеть проблему мультиколлинеарности.
Как правило, обычного пользователя мало интересуют теоретические и алгоритмические вопросы. Прежде всего, ему нужен простой инструмент, позволяющий быстро получить правильный результат. При этом у него должна быть возможность легко менять регрессионную модель «на лету», редактируя ее как текст. Кроме того, нужно предусмотреть и возможность «пакетной» обработки стандартных данных в рутинном процессе, который можно доверить даже неопытному оператору. Все это подводит к задаче создания соответствующего программного обеспечения, удовлетворяющего всем этим требованиям. Разработчики программного обеспечения решили все эти задачи, предоставив пользователям большой выбор программ для линейного моделирования [4], но вот с нелинейным дело обстоит значительно хуже. Конечно, существует несколько программных продуктов [84-90], но они, в большинстве, не отвечают подобным требованиям.
В главе 5 представлен новый инструмент НЛРА [5, 6], который практически реализует все теоретические и алгоритмические разработки, представленные в работе. Он называется Fitter, от английского глагола «to fit» - «подгонять, приспосабливать». При проектировании этой программы, мы следовали правилу "чем проще - тем лучше", и не стали создавать собственный интерфейс, а вместо этого воплотили все математические методы как надстройку для популярной программы Microsoft Excel. В некоторых аспектах система Fitter устроена подобно хорошо известному приложению Solver Add-In. Так же, как и в Solver все данные, необходимые для построения регрессии, размещаются на листе стандартной рабочей книги и затем регистрируются посредством диалоговых окон. Внутренний язык системы Microsoft Office - Visual Basic for Applications (VBA) [7] является очень медленным, поэтому все вычислительные процедуры системы Fitter написаны на языке С++ и собраны в отдельной, динамически подключаемой библиотеке (DLL). Таким образом, достигнута быстрота, удовлетворяющая пользователей. Что касается размера экспериментальных данных и числа неизвестных параметров в модели, то Fitter не имеет ограничений на эти величины - все зависит только от возможностей компьютера, который используется для расчетов.
Прототипом и, в какой-то степени, аналогом системы Fitter, является интегрированная компьютерная система Kinetic Trunk [8-10, 50]. Эта программа, работающая в среде DOS, была закончена в 1994 году и, до сих пор, используется несколькими научно-исследовательскими и производственными организациями, такими как, например, ВНИИ Эластомерных Материалов и Изделий, Московский Институт Тонкой Химической Технологии, НИИ Шинной Промышленности, Алтайский Университет, Кировский шинный завод, НИИ Кабельной Промышленности, ЦНИИ Точного Машиностроения, НИИ Приборов, Охтинский НПО Пластполимер, Казанский Инженерно Строительный Институт. Опыт эксплуатации программы Kinetic Trunk помог при разработке и написании более современной системы - Fitter Add-In, хотя нужно отметить, что многие практические задачи, описанные в третьей части работы, исходно решались еще с использованием системы Kinetic Trunk.
В этой части представлены практические приложения методов и алгоритмов, описанные в работе. Подбор этих примеров проводился, в основном, по соображениям методического характера. При этом задачи следуют в дидактическом порядке - по возрастанию сложности, с точки зрения использования приемов HJ1PA. Каждая из этих глав раскрывает один или несколько методических приемов, применяемых в нелинейном моделировании.
Содержательная, физико-химическая суть этих примеров очень разная. В них рассматриваются и традиционные методы аналитической химии (глава 10), и сложные задачи обработки кинетических данных, полученных с помощью современных инструментальных методов (глава 7), и проблемы прогнозирования эксплуатационной устойчивости полимеров (главы 6 и 8). Все эти задачи наглядно показывают, как проводится нелинейное моделирование в различных ситуациях.
Для всех численных расчетов использовалась система Fitter, поэтому экспериментальные данные и модели почти всегда представляются в форме, которая является стандартной для этой программы. Рабочие книги, в которых содержатся решения этих задач, можно найти в [126].
В главе 6 собраны три практических примера, объединенные общей темой - обработка термограмм (ТГА, ТМА и ДСК) полимеров. Эти примеры служат цели введения в проблематику нелинейного моделирования и демонстрации практических приемов работы в системе Fitter. Во всех этих задачах активно используется метод последовательного байесовского оценивания (ПБО).
Глава 7 посвящена актуальной задаче оценки кинетических параметров по спектральным данным. Метод последовательного байесовского оценивания, примененный к этой проблеме, позволил получить результаты с высокой точностью. С методической точки зрения пример, рассмотренный в этой главе, важен, прежде всего, потому, что он показывает, как проводится обработка однородных данных в задачах с большим количеством параметров.
Другую сторону метода ПБО раскрывает задача, разобранная в главе 8, где демонстрируется, как обрабатываются разнородные экспериментальные данные, описываемые разными моделями, зависящими от общих параметров. Это сделано на примере практически важной задачи прогнозирования старения эластомерных материалов.
Следующая глава 9 посвящена проблемам моделирования нормальной и аномальной диффузии. Хорошо известно [129, 130], что модели, описывающие эти процессы, имеют сложную математическую форму и требуют специальных усилий по их программированию. Прямыми выкладками удалось получить точные и достаточно удобные формулы для расчета кинетики сорбции в нефиковских моделях релаксационной и конвекционной диффузии, а также кинетики цикла «увлажнение-сушка». Оригинальная форма этих моделей позволяет использовать их в системе Fitter, что радикально облегчает процесс подбора параметров. Материал, изложенный в этой главе, показывает, что разработанное программное обеспечение может легко оперировать с очень большими и сложными моделями.
Заключение
В работе были рассмотрены теоретические, алгоритмические и методологические аспекты математического моделирования сложных физико-химических процессов. Изложенный материал позволяет сделать следующие выводы.
Регрессионный анализ по-прежнему является основным инструментом для нелинейного моделирования и прогнозирования поведения сложных систем. Однако широкое использование этого метода затруднено наличием нескольких плохо исследованных вопросов. В частности имеется три главные проблемы. Во-первых, это теоретические проблемы — одновременная обработка разнородных экспериментальных данных больших размеров с использованием различных моделей, имеющих общие и частные параметры и построение доверительных интервалов при прогнозировании. Помимо теоретических задач, имеется и практическая проблема - создание современной компьютерной системы для интерактивной обработки данных и подбора описаний. Последний вопрос, рассматриваемый в работе, это разработка методологии применения методов НЛРА.
В теоретической части работы были получены следующие результаты.
1. Разработан новый метод оценивания параметров регрессионных моделей -последовательное байесовское оценивание (ПБО). Доказано, что оценки, построенные этим способом - ПБО-оценки - обладают следующими свойствами. Для линейных моделей они совпадают с оценками метода максимума правдоподобия (ММП), а для нелинейных моделей асимптотически сходятся к ММП-оценкам.
2. Предложен новый способ построения доверительных интервалов для прогноза по нелинейной регрессии, названный "связанное моделирование". Показано, что при той же точности этот метод работает примерно в 1000 раз быстрее и дает хорошие результаты даже для сильно нелинейных моделей.
3. Дано новое определение коэффициента нелинейности у, который характеризует внутреннюю нелинейность регрессионной задачи. Показано, что коэффициент нелинейности у зависит как от вида модели, так и от плана эксперимента.
Получены следующие практические результаты.
4. Создан алгоритм, позволяющий интерпретировать и компилировать модели, задаваемые пользователем в текстовом виде в естественной математической форме записи -как систему явных, неявных и дифференциальных уравнений.
5. Для точного вычисления производных модели по параметрам был разработан другой алгоритм, который автоматически находит эти производные в аналитической форме.
6. Создана программа для регрессионного анализа сложных данных - компьютерная системы Fitter - надстройка для программы Excel. Эффективность работы системы Fitter была проверена с помощью стандартного, общепризнанного набора тестовых данных, разработанного Национальным институтом стандартов США (NIST).
Создана методология применения методов HJIPA для математического моделирования сложных физико-химических процессов, которую можно представить следующим набором практических рекомендаций.
7. Сложность модели определяется не ее внешним видом, а комплексом свойств, зависящих от многих, подчас сложных обстоятельств. Трудная для вычисления модель может оказаться простой в оценивании, и наоборот, (см. раздел 6.1)
8. Использование упрощенных методов для обработки данных: линеаризация, анаморфозы и т.п., не позволяет оценить все требуемые параметры, не дает нужной точности и может приводить к грубым ошибкам, (см. главу 10)
9. Метод ПБО является корректной процедурой, упрощающей моделирование и позволяющей достичь тех же результатов, которые дали бы традиционные подходы - МНК и ММП. В некоторых случаях ПБО позволяет получить результат, который невозможно достичь другими методами, (см. главы 6, 7 и 8)
10. Для интерполяции допустимы формальные, линейные модели, но для экстраполяции - только содержательные, нелинейные модели, (см. раздел 6.2)
11. При экстраполяции всегда необходимо оценивать точность прогноза - строить доверительный интервал. Метод связанного моделирования позволяет сделать это также точно, как и традиционные методы (например, bootstrap), но во много раз быстрее. Однако он медленнее, чем грубые, приближенные методы (например, стохастическая аппроксимация).
12. Построение доверительных интервалов для прогноза требует предварительной оценки сложности, нелинейности модели. Коэффициент нелинейности характеризует эту сложность и определяет метод, которым надо пользоваться. Если этот коэффициент близок к единице, то можно использовать быстрые и грубые методы, а если нет - то медленные и точные, (см. раздел 7.4)
13. Коэффициент нелинейности зависит как от формы модели, так и от плана эксперимента. Изменив план эксперимента, можно приблизить нелинейную модель к линейной и наоборот.(см. раздел 3.4)
14. Результаты оценивания часто становятся исходными данными на следующем этапе моделирования. Для их правильной интерпретации нужно использовать метод ПБО, который учитывает погрешности в этих оценках, (см. раздел 6.3)
15. Большие, но однородные экспериментальные данные (например, спектры), описываемые одной моделью с большим числом неизвестных параметров, можно разбивать на части и обрабатывать последовательно, используя метод ПБО. (см. главу 7)
16. Многооткликовые и разнородные данные, описываемые разными моделями, зависящими от общих параметров, можно обрабатывать методом ПБО. При этом каждый отклик оценивается отдельно, но с учетом уже имеющейся априорной информации об общих параметрах, (см. главу 8)
17. Отдельные части экспериментальных данных можно обрабатывать по несколько раз с помощью ПБО и ОПБО. При этом необходимо следить за тем, чтобы одни и те же параметры не оценивались по тем же данным еще раз. (см. разделы 7.3 и 8.3)
18. Мультиколлинеарность — это главная проблема в нелинейном моделировании. Для ее решения необходимо так преобразовать исходные данные и модель, чтобы уменьшить разброс собственных значений информационной матрицы. Центрирование, шкалирование и перепараметризация - это основные методы таких преобразований, (см. раздел 4.4)
19. Уравнение Аррениуса всегда нужно использовать в модифицированном виде. Одно это может уменьшить разброс собственных значений на 5-10 порядков, (см. разделы 6.1 и 8.2)
20. Часто для достижения цели нужно изменить исходную, простую модель, заменив ее более сложной, состоящей из нескольких, «склеенных» формул. В такой форме она может лучше и, главное, стабильнее описывать данные. Это также является и методом борьбы с мультиколлинеарностью. (см. главу 9)
21. Подбор содержательной модели для описания экспериментальных данных - это основная проблема нелинейного моделирования. Конечный выбор зависит, конечно, от опыта и знаний исследователя. Однако применение простого и эффективного инструмента упрощает эту задачу, позволяет быстро проверить различные варианты. Компьютерная система Fitter является именно таким инструментом.
22. Набор моделей, приведенных в работе, можно использовать как базовый для построения других аналогичных моделей. Основные приемы, используемые в системе Fitter для модификации моделей это - «склейка» формул, устранение неопределенностей, дифференцирование по предиктору, (см. главу 9)
23. Используя систему Fitter, можно не только проводить интерактивную интерпретацию данных, но и строить «шаблоны» - программы для автоматической, пакетной обработки стандартных наборов данных, (см. главу 11).
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ,. - М.: Статистика, 1973.
2. Горский В.Г., Зейналов М.З. Физико-химические и математические основы феноменологической кинетики сложных реакций, Махачкала, ИПЦ ДГУ, 1997.
3. Бард И. Нелинейное оценивание параметров. М.: Статистика, 1979.
4. Brown S.D., Sum S.T., Despagne F., Lavine B.K., Chernometrics, Anal.Chem.,68, 21R-61R (1996)
5. Померанцев A.Jl., Родионова O.E. Надстройка FITTER (FITTER). Свидетельство об официальной регистрации № 2002611562 от 11.09.02
6. Fitter Add-Inn. On line., http://polycert.chph.ras.ru/fitter.htm [1 января 2002]
7. Walkenbach J. Excel 2000 Power Programming with VBA, 2001
8. Померанцев А.Л. Интегрированная компьютерная система Kinetic Trunk. Свидетельство об официальной регистрации № 940061 от 28.02.94
9. Быстрицкая Е.В., Максимова Г.А., Померанцев А.Л. Интегрированная компьютерная система Kinetic Trunk. EMRS 1993 Fall Meeting 4th European East-West Conference & Exhibition on Materials and Process: Тезисы докладов. С.-Петербург, 1, 117, (1993)
10. Померанцев А.Л. Интегрированная система Kinetic Trunk, Материалы I рабочей школы-совещания КЦ "Эксплуатационная устойчивость", Моженка,. 196-207, (1991).
11. Райфа Г., Шлейфер Р. Прикладная теория статистических решений, М. Статистика, 1977
12. Крамер Г. Математические методы статистики, М., Мир, 1975
13. Джонс Н., Лион Ф., Статистика и планирование эксперимента в технике и науке. Методы обработки данных. М., Мир, 1980
14. Боровиков А.А. Математическая статистика, М., Наука, 1984
15. Rodionova О.Ye., Pomerantsev A.L. SIC (Simple Interval Calculation) a new approach for linear modeling. J. Chernometrics (submitted), 2001
16. Carney T.M., Goldwyn R.M. Numerical experiments with various optimal estimators. J. Optimization Theory Appl. 1, 113-130, (1967)
17. Chow G.C. A comparison of alternative estimators for simultaneous equations. Econometrics, 32,532-553(1964)
18. Cragg J.G. On the relative small sample properties of several structural-relative estimators. Econometrics, 35, 89-110, 1967
19. Демиденко E. 3. Линейная и нелинейная регрессии, М, Финансы и статистика, 1981
20. Chambers J.R. Fitting nonlinear models: numerical techniques, Biometrica, 60, 1-13, (1973)
21. Efron B. Bootstrap methods: another look at the jackknife, Ann. Statist., 7, 1-26, (1979)
22. Efron B. Better bootstrap confidence intervals, J.Amer.Statist.Ass., 81,(1987)
23. Эфрон Б. Нетрадиционные методы многомерного статистического анализа, Москва, Финансы и Статистика (1988)
24. Breiman, L. Bagging predictors, Machine Learning 24,123-140, (1996).
25. Kong E. В., Dietterich T. G. Error correcting output coding corrects bias and variance. In Proc. Twelfth International Conference on Machine Learning, Tahoe City, CA: Morgan Kaufmann. 313-321, (1995)
26. Madigan D., Raftery A.E., Volinsky C.T., Hoeting J.A. Bayesian model averaging. In Proc. AAAI-96 Workshop on Integrating Multiple Learned Models, Portland, OR: AAAI Press, 77-83 (1996).
27. Клейнен Дж. Статистические методы в имитационном моделировании, М, Статистика, 1978
28. Quenouille М. Approximate tests of correlation in time series, J.Roy.Statist.Soc., Ser B, 11, 18-84
29. Cornfield J. Bayes Theorem, Rev. Inst. Internal Statist. 35, 34-49 (1967)
30. Максимова Г.А., Померанцев A.JL, Последовательное байесовское оценивание параметров регрессии, Зав. Лав., 61,432-435 , (1995)
31. Померанцев A.JI. Байесовское оценивание параметров химических моделей на ПЭВМ. VI Всесоюзная конференция "Математические методы в химии", Тезисы докладов. Новочеркасск, 1989,68-69
32. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye., Non-linear regression analysis: new approach to traditional implementations J. Chemometrics, 14 (2000), 667-692.
33. Karpukhin O.N., Pomerantsev A.L. The Harmonization of Analytical Study, Proc. of III Inter. Symp. on the Harmonization of Quality Assurance Systems in Chemical Analysis, Washington, D.C. ,1989.
34. Карпухин О.Н. Использование априорной информации о кинетике и механизме старения полимерного материала при оценке и регулировании его эксплуатационной устойчивости, Там же с. 94-95.
35. Karpukhin O.N. Physico-Chemical Problems in Estimation of Service Steadiness (SS) of Polymer Materials. Intern. J. Polymeric Mater., 13, 21-33., (1990)
36. Айвазян C.A., Енюков И.С., Мешалкин Л.Д. Прикладная статистика основы моделирования и первичная обработка данных., М., Финансы и статистика, 1983.
37. Померанцев A.JL, Карпухин О.Н., Брин Э.Ф. Кинетический подход к прогнозированию надежности материалов в изделии. Кинетика и катализ. 24 ,1233-1238 (1983)
38. Померанцев A.JL, Брин Э.Ф., Карпухин О.Н. Математические проблемы прогнозирования надежности материалов в изделии по результатам кинетических исследований. Зав. лаб., 5,.48-52. (1986)
39. Быстрицкая Е.В., Максимова Г.А., Померанцев A.JI. Интегрированная компьютерная система Kinetic Trunk. EMRS 1993 Fall Meeting 4th European East-West Conference. Тезисы докладов, С.-Петербург, .1,117, 1993,
40. Карпухин О.Н., Померанцев A.JI Банк первичных экспериментальных данных. Всесоюзное совещание "Создание сети автоматизированных банков о свойствах и применении полимерных материалов. Тезисы докладов. Ленинград, 7, 19-20, (1987).
41. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Prediction the behavior of polymer materials at different conditions, Chemometrics and Intell. Lab. Syst., 47, 175-179, (1999)
42. Pomerantsev A.L., Successive estimating of reaction rate constants from spectral data: a case study of two-step kinetics. Представлено в J.Chemometrics, (2000)
43. Быстрицкая E.B., Карпухин O.H., Максимова Г.А., Прогнозирование срока службы резин методом последовательного байесовского оценивания,, Межд. Конференция "Rubber-94", тезисы докладов Москва., 2, 605-612, (1994).
44. Померанцев А.Л , Применение интегрированной компьютерной системы Kinetic Trunk для прогнозирования срока службы РТИ, Там же,.4, 291-297
45. Быстрицкая Е.В., Померанцев А.Л., Прогнозирование сроков хранения шинных резин методом последовательного байесовского оценивания, Труды 2-ой межд. кон-фер. ЭМФ-1,1, 52-61, Барнаул, (2001)47.