Анализ данных в условиях неадекватности аппроксимационных моделей тема автореферата и диссертации по математике, 01.01.07 ВАК РФ
Чебраков, Юрий Владимирович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Санкт-Петербург
МЕСТО ЗАЩИТЫ
|
||||
1992
ГОД ЗАЩИТЫ
|
|
01.01.07
КОД ВАК РФ
|
||
|
8 11 9 1
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи
ЧЕБРАКОВ ЮРИЙ ВЛАДИМИРОВИЧ
УДК 519.237.5:31-73.537
АНАЛИЗ ДАННЫХ В УСЛОВИЯХ НЕАДЕКВАТНОСТИ ' АППРОКСИМАИИОННЫХ МОДЕЛЕЙ
Специальность: 01.01.07 - вычислительная
математика
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата Физико-математических наук
САНКТ-ПЕТЕРБУРГ - 1992
Работа выполнена на кафедре теории систем управления Факультета прикладной математики - процессов управления Санкт-Петербургского государственного университета
Научный руководитель: доктор технических наук, профессор Р. А. Нелепин
Официальные оппоненты: доктор физико-математических наук,
Е. В. Седунов
кандидат Физико-математических наук, В.А. Петрова
Ведущая организация: Санкт-Петербургский институт информатики и автоматизации Российской Академии наук
Защита состоится ноября 1992 г. в .{С часов на
заседании специализированного совета К-063.57.16 по присуждение ученой степени кандидата Физико-математических наук в Санкт-Петербургском государственном университете по адресу: г. Санкт-Петербург, В.О., 10-я линия. ¿3.
С диссертацией можно ознакомиться в научной библиотеке км. М.Горького при Санкт-Петербургском "государственном университете по адресу: г. Санкт-Петербург, Университетская наб.. 7/9.
Автореферат разослан "16 " 199.itг.
Ученый секретарь специализированного совета кандидат физико-математических наук,
доаент В.Ф.Горьковой
■ 1 ' -Г.'^.Гл.. '
з
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. За последние 20-30 лет для решения задач регрессионного анализа создано большое число новых алгоритмов и критериев. Очевидно, что факт существования большого количества алгоритмов и критериев анализа данных превращает проблему их выбора в сложную задачу. Выбор усложняется также тем, что в общем случае результаты регрессионного анализа экспериментальных данных сильно зависят от положенной в основу анализа данных модели, вида выбранного алгоритма и критерия оптимизации. Все это приводит к тому, что исследователи начинают чувствовать себя неуверенно в области регрессионного анализа из-за присущей его результатам неопределенности и субъективности.
Особенно большое значение правильный выбор алгоритмов регрессионного анализа данных имеет в естествознании, где по результатам количественной обработки экспериментальных массивов судят о механизме исследуемого явления.
Цель работы - провести теоретическое и экспериментальное исследование наиболее часто используемых в естествознании алгоритмов и критериев регрессионного анализа данных для: а) выявления истинных причин зависимости результатов количественной обработки экспериментальных данных от используемых критериев и алгоритмов; б) уточнения области их применимости; в) составления четких рекомендаций по их выбору и использованию.
Задачи исследования:
- проведение сравнительного анализа ряда схем и моделей, используемых в настоящее время в естествознании при количественной обработке экспериментальных массивов;
- анализ проблемы выбора алгоритмов оценивания для линейных и нелинейных по параметрам моделей с учетом точности, предъявляемой к современным естественнонаучным исследованиям;
- анализ проблем, связанных с разработкой, сертификацией и эксплуатацией программных систем, предназначенных для проведения регрессионного анализа результатов естественнонаучных исследований;
- разработка и создание процедур, алгоритмов, схем и программных комплексов, предназначенных для анализа данных в условиях неадекватности ряда регрессионных моделей.
Научная новизна. Разработана современная концепция системно-операционального подхода к проведение количественного анализа результатов прецизионных экспериментальных исследований, благодаря которой
а) построена модель анализа данных, позволяющая при проведении аппроксимации экспериментальных зависимостей регрессионными уравнениями учитывать операциональные ошибки эксперимента;
б) введено Формализованное понятие прецизионности эксперимента;
в) разработаны оригинальные алгоритмы и схемы количественного анализа данных, позволяющие проводить идентификацию параметров регрессионных моделей в условиях их неадекватности (например, в условиях малой выборки и неоднородности массивов данных) с одновременным уточнением исходной модели;
г) для линейного и нелинейного регрессионных уравнений определены правила выбора алгоритмов оценивания их параметров;
д) определены правила выбора алгоритмов количественной обработки (дискриминанткый, корреляционный и регрессионный анализы) результатов прецизионных исследований в условиях отсутствия теоретических моделей;
е) разработаны рекомендации по созданию, сертификации и эксплуатации программных систем анализа данных, учитывающих неадекватное?ч регрессионных моделей;
Практическая ценность работы. На основании развитой концепции системно-операционального подхода к количественному анализу результатов современных естественнонаучных исследований
- Разработаны новые схемы и алгоритмы для решения задач множественного линейного регрессионного анализа в условиях неадекватности аппроксимационных моделей. Предложенные алгоритмы использованы для разработки операциональной программной системы анализа данных АЛИСА и реализованы в виде набора программ на алгоритмическом языке Фортран.
- Разработаны алгоритмы, позволяющие в условиях малой выборки и неоднородности экспериментальных массивов проводить аппроксимацию экспериментальных данных дробно-линейными
функциями (обобщенный закон Кюри - Вейсса). Предложенные алгоритмы использованы для разработки операциональной программной системы анализа данных ИЗА и реализованы в виде набора программ на алгоритмическом языке Фортран.
- С использованием программной системы ИЗА выявлена магнитная неоднородность ряда систем на основе оксидных Фаз переменного состава, что позволило предложить и обосновать новый подход к Физическому описанию дисперсных слабомагнитных систем.
Основные защищаемые положения:
1. Модель анализа данных, позволяющая при проведении аппроксимации экспериментальных зависимостей теоретическими уравнениями учитывать возможные операциональные ошибки эксперимента.
2. Формулировки условий и критериев прецизионности естественнонаучного эксперимента.
3. Схемы, алгоритмы и программная система для решения задач множественного линейного регрессионного анализа в условиях неадекватности аппроксимационных моделей.
4. Схемы, алгоритмы и программная система для проведения в условиях малой выборки и неоднородности массивов аппроксимации экспериментальных данных дробно-линейными функциями (обобщенный закон Кори - Вейсса).
3. Модель для аппроксимации температурной зависимости магнитной восприимчивости слабомагнитных систем, позволяющая учесть магнитную неоднородность исследуемых образцов.
Апробация работы. Результаты работы докладывались на VIII Всесоюзной конференции по планированию, и автоматизации в научных исследованиях (1986), VI Всесоюзном симпозиуме по изоморфизму (1988), X симпозиуме по проблеме избыточности в информационных системах (1989), Научно-техничёской конференции "Технология проектирования программных и аппаратных средств вычислительных систем" (1989), Научно-практическом семинаре "Технология проектирования программных и аппаратных средств вычислительных систем" (1990), III Всесоюзном семинаре "Качество прог^ раммного обеспечения" (1991), Международной конференции "Взаимодействие Человека с Компьютером" (1992).
Публикации. Основное содержание диссертации отражено в 13 печатных работах.
Структура и объем работы. Работа состоит из введения, 3 глав, приложения, заключения и указателя литературы, содержащего 94 библиографические ссылки. Содержит 130 страниц, 17 рисунков, 2 таблицы.
СОДЕРЖАНИЕ РАБОТЫ
Введение.
Лапа краткая характеристика современного состояния дел в области количественной обработки данных■ Сформулирована основная цель данной работы. Обоснован выбор наиболее важных иллюстративных примеров. Обсуждены особенности использования системного и операционального подходов в современных экспериментальных естественнонаучных исследованиях.
При проведении регрессионного анализа экспериментальных результатов исследователь, как правило, сталкивается с проблемами, во-первых, анализа существования и единственности решения и. во-вторых, выбора алгоритма и критерия, с помощью которых это решение можно получить. Проблема выбора нужного алгоритма и критерия анализа данных усложнена тем. что на практике часто бывает трудно проверить выполнимость теоретических положений. на основании которых создавался данный алгоритм, а использование разных алгоритмов или критериев для решения одной и той же задачи анализа данных дает в большинстве случаев разные результаты (Дилер Ю,П. (1982). Айвазян С. А. с соавторами (1983). Алимов Ю.И. (1980). Демиденко Е.З. (1986)).
Особенно большое значение правильный выбор алгоритмов количественного анализа данных имеет в естествознании, где по результатам количественной обработки прецизионных экспериментальных массивов судят о механизме исследуемого явления. По этой причине в данной работе рассматриваются проблемы анализа данных, характерные более всего для прецизионных естественнонаучных исследований.
С точки зрения системного и операционального подходов современные естественнонаучные экспериментальные исследования представляют из себя сложные системы, которые можно условно подразделить на сложные объектную, приборную и субъектную подсистемы. Из этих представлений далее несложно вывести, что при проведении современных научных исследований как на стадии получения экспери-
ментальных зависимостей, так и на стадии обработки и интерпретации полученных результатов необходимо использование специальных методов, позволяющих учесть искажения от каждой из указанных выше сложных подсистем.
Среди приводимых в данной работе иллюстративных примеров особое место занимают данные Хальда (К=13, М=4) (Хальд А. (1956)) и Функция Ш)=А1/(А2+Х)+А3. где А1.А2.АЗ - параметры. Повышенное внимание к данным Хальда объясняется тем, что в литературе, посвященной различным проблемам множественного линейного регрессионного анализа, существуит саше разные мнения о том, какое регрессионное уравнение является для этих данных наилучшим и, следовательно, эти данные удобны для проведения сравнительного анализа различных подходов к анализу данных. Что касается указанной функции, то в Физике, когда ее аргументом является температура, эта функция носит название обобщенного закона Кюри - Вейсса и активно используется при анализе экспериментальных температурных зависимостей магнитной' восприимчивости, диэлектрической проницаемости, электропроводности и других. С точки же зрения вычислительной математики она представляет интерес по той причине, что вклвчена в список контрольных примеров для сертификации программ нелинейного регрессионного анализа и при соответствующих значениях параметров и аргументов может иметь несколько локальных минимумов (Лемиденко Е.З.(1984)).
Глава 1. Операциональный подход к построению моделей и схем количественного анализа данных.
Сформулирована основная задача регрессионного естественнонаучного исследования. Построена операциональная модель анализа данных. На ее основе выведены условия прецизионности исследования и возможные подходы к количественному анализу данных прецизионных исследования. Проведен сравнительный анализ этих подходов на конкретных примерах, взятых из литературы по статистике и оригинальных научных работ.
Основной задачей регрессионного научного эксперимента является исследование зависимости некоторой характеристики У данного объекта от набора признаков Х-(Х }, .....М. При этом
сначала определяется экспериментальная зависимость
У * УСХ) * ( УкСХк1,Хъ.....ХкМ>>к=и2.....К. (1)
а затем найденная зависимость аппроксимируется аналитической криьой
гугл,х) = г;сл1 ,а2.....^;,х2,... ,хм>. (г)
тип 7 которой выбирается на основании экспериментальных или теоретических соображений. Здесь А = (А^) 2 ^ - набор
параметров кривой (2), значение которых требуется оценить по заданному экспериментальному массиву (1).
С точки зрения системно-операционального подхода при проведении количественного анализа данных необходим учет различных возможных "операциональных" ошибок эксперимента. Осуществить это на практике можно в том случае, если заложить указанные ошибки в начальную (операциональную) модель данных;
У = Г^А.Х) + Н^Ш + Е] , (3)
где У^Х) - неизвестная Функция от X, появление которой связано с возможными отличиями реального объекта исследования от принятого теоретического представления об этом объекте, » ( 2,... К " вект°Р случайных отклонений.
Для того чтобы модель (3) имела физический смысл, необходимо выполнение двух условий:
В1. Существуют такие значения вектора параметров А, что при почти всех Л имеет место следующее соотношение между нормами:
|| Т^АЛ^ 1 » II У/Х^) + Е]к\\. (4)
В2. При выполнении условия В1 существует такое к0, что при почти всех Ь *
|| || » Ц Е]к ||. (5)
Условия В1.В2 можно рассматривать и как некоторые требования, предъявляемые непосредственно к научному исследованию, цель которого не только аппроксимация зависимости У = УСХ) се-
мейством кривых (2), но и оценка степени соответствия реального объекта исследования принятому теоретическому представление о нем. Научное исследование, для которого выполнены указанные условия, в дальнейшем будем называть прецизионным.
Анализируя с помощью модели (3) используемые в настояаео время в естествознании подходы к обработке экспериментальных данных, шжяо заключить, что их существует четыре типа-'
1) Классический - полагаем в модели (3) ^СХХ);
2) Непоследовательный параметрический - представляем У^Ю
в виде суммы двух Функций ¥}<Х>* И}'СХ.) + И^'ш, где Ь^'ОО -
неизвестная Функция, а для У(у00 имеется количественная оценка. При этом под непоследовательным параметрическим подходом понимаем классический подход, примененный к зависимости
у*сх.)=гао-Иусю);
3) Параметрический подход - на основании теоретических рассуждений найдено аналитическое выражение для части функции
У;Ш=У(усс,}0 + И^ОО, где Н^-'ОО - неизвестная Функция, а
\>/[у(С,ХЭ - некоторая аналитическая кривая о вектором параметров С. При этом под параметрическим подходом понимаем классический подход к аппроксимации зависимости У-УСЮ функцией
{*(А,С,ХЭ=Г СА.Ю+ )*{у(С,Х));
4) Робастно-параметрический подход - реализация пошаговой процедуры аппроксимации, которая базируется на классическом, либо на параметрическом подходе. В этом случае аппроксимация (1) функциями ГуГЛ.Х^ или ,С,X) производится на каждом ¿-м шаге и
только для К-1+1 экспериментальных наборов зависимости У-УСЮ. При этом на каждом 1-м шаге из К-1+1 наборов удаляется тот, для
которого норма ^У-Г^А' ,Х)|| или соответственно ,С'
имеет максимальное значение (штрих у А и С означает, что вместо
параметров в аналитические выражения Г, и подставляются най-
денные на i-м шаге оценки этих параметров).
Заметим, что из перечисленных выше четырех подходов только робастно-параметрический подход позволяет в полной мере учесть операциональную природу данных. Это связано с тем, что все остальные подходы либо полностью, либо частично (что не меняет существа дела) игнорируют присутствие ^j(X) в модели (3).
Для того чтобы показать, к каким последствиям приводит игнорирование присутствия Wj(X) в модели (3). проведено сравнение
4-х перечисленных подходов к анализу результатов: 1) Физического эксперимента по обнаружению эффекта распада ^-мезона на два п-мезона (Боровков A.A. (1984)); 2) данных Хальда - поиск наилучшей регрессионной модели; 3) экспериментальной зависимости магнитной восприимчивости D для системы LaSrFexAlt. х04
(х = 0,0042) (Рябков D.U. (1986)); 4) данных о магнитном поведении системы VjjAIj.^j 5 (Бобрышева Н.П. (1974)). Использование робастно-параметрической процедуры позволило; а) для первого примера найти новое "более физическое" доказательство распада р-мезона; б) доказать, что для данных Хальда наилучшей является модель, содержащая переменные 1,2,3; в) обнаружить, что в области температур 4 - И К в система LaSrFe^lj. х04 (х=0,0042)
имеет место магнитный Фазовый переход; г) доказать наличие магнитных Фа^ьых переходов в сильно раздавленных поликристал-.чических системах У20з-Л12°з- Если Учесть, что все полученные
результаты достигнуты лишь за счет изменения подхода к анализу данных, то уже отсюда следует большая научная и практическая ценность робастно-параметрического подхода, а значит, и лежащего в его основе операционального подхода к выбору моделей регрессионного анализа данных.
Глава 2. Операциональный подход к выбору алгоритмов количественного анализа данных.
Приведена одшая запись линейного и нелинейного по параметрам регрессионных уравнений■ Сформулированы условия, при выполнении которых существуют их решения■ Рассмотрены методы решения регрессионных задач в тех случаях, когда необходимые для их решения условия не выполняются. Проведен сравнительный анализ
алгоритмов оиенивания параметров пробно-линепноя функции (обобщенного закона Кюри - Вейсса). Обсуждены проблемы выбора алгоритмов количественного анализа, прецизионных данных )дискрими-нантныа, корреляционный и регрессионный анализы( при отсутствии теоретических моделей.
Пусть для массива данных (1) выполнено соотношение:
yk*iKtWxki'*h2.....W + Ек- <б>
где А^- неизвестные коэффициента; - некоторые функции
Факторов X; - к-я составляющая вектора случайных отклонений
Е (ср. с Формулой (3)). Тогда соотношение (6) является наиболее общей записью линейной модели, на основании которой в традиционном линейном регрессионном анализе производится количественный анализ экспериментального массива (1).
Из очевидных соображений следует, что для существования решения уравнения (6), имеющего физический смысл, необходимо выполнение следующих трех условий:
С1. Массив (1) получен в результате проведения прецизионного научного исследования;
С2, На вектор неизвестных параметров регрессии (3) не наложено никаких ограничения, т.е. множество допустимых параметров
AeR?--.
СЗ. Ранг матрицы Г равен числу коэффициентов в модели (2), т.е. rank F-L.
При выполнении этих условий решение имеет вид:
А = (FrFfiF1y . (7)
Будем называть нестандартными или нетрадиционными методами линейного регрессионного анализа алгоритмы, позволяющие эффективно решать линейную аппрохсимационную задачу при невыполнении приведенных выше условий С1-СЗ. Обсудим особенности использования этих методов при анализе данных прецизионных исследований.
1. Пусть среди условий С1-СЗ не выполнено условие С2, т.е. множество возможных значений параметра А в (6) является
лишь частью пространства R^. Заметим, что, вообие говоря, невы-
полнение указанного условия выводит количественный анализ массива (1) за рамки параметрического подхода, который, как показано в главе 1, является наиболее правильным при анализе данных прецизионного исследования. Поэтому, если полученные с помощью традиционной процедуры оценки А (см. выражение(7)) не удовлетворяют предсказанным ограничениям на параметры, то объяснение этому с точки зрения операционального подхода следует искать прежде всего в отличии модели (6) от реальной модели прецизионного исследования. Практически это осуществляется исследованием зависимости оценки (7) от номера шага N в робастно-параметрическоя процедуре.
Если при номере шага М0 << W удалось удовлетворить заданным ограничениям на параметры и одновременно достигнуть независимости оценок параметров от N при N > HQ, то можно считать решенной задачу нахождения оптимальных оценок А, и в этом случае даже при нарушении условия С2 не имеет смысла использовать нетрадиционные алгоритмы оценивания. Во всех других случаях приходится в качестве основного или вспомогательного использовать нетрадиционный алгоритм оценивания (см., например, Вучков И. и др. (1987), Демиденко Е.З. (1981)).
2. Пусть среди условий С1 - СЗ не выполнено условие СЗ, т.е. rank F -L\ L, или, другими словами, имеется линейная зависимость мезду столбцами матрицы F.
Так как в ходе проведения реального прецизионного научного исследования независимые переменные X измеряются с конечной точностью, т.е. при определении их значений всегда существует некоторая, пусть и малая ошибка округления, то даже при
наличии мультиколлинеарности на практике L* = L. При этом использование уравнения (7) для получения оценок вектора
параметров А может иногда приводить к значительным отличиям А от действительных значений коэффициентов (Вучков И. и др.
(1987)). Для того чтобы уменьшить эффект искажения значений А,
т
возникающий при плохой обусловленности матрицы Г F, используют метод характеристического корня (Вучков И. и др. (1987)).
Заметим, что отличие А (7) и подсчитанного с помоаьо
метода характеристического корня, может быть вызвано не только мультиколлинеарностыз. но и присутствием, например, аномальных наборов в экспериментальном waccv.Be данных- Вследствие этого, при использовании в робастно-параметрической процедуре нетрадиционных алгоритмов оценивания необходимо осторожно подходить к вопросам интерпретации полученных результатов и для осуществления правильного выбора прибегать к помощи имитационного моделирования.
3. Пусть среди условий С1 - СЗ не выполнено условие С1. Для того чтобы оставаться в рамках прецизионного исследования, будем полагать, что в исходном массиве данных на самом деле условие С1 нарушено только для небольшого числа экспериментальных наборов, которые в дальнейшем будем называть "аномальными".
Если учесть, что в общем случае "аномальные" наборы могут быть как резко выделявшимися, так и визуально неотличимыми от основной массы наблюдений, то с точки зрения теории анализа данных при невыполнении условия С1 требуется либо из экспериментально определенного массива (1) удалить "аномальные" наборы, либо для оценивания параметров использовать специальные робастнне алгоритмы (Смоляк С.А.. Титаренко Б.П. (1980), Хьс-бер П. (1984)). В действительности из-за специфики количественного анализа результатов прецизионных исследований для нахождения оценок параметров, обладавших минимальными искажениями, независимо от типа "аномальных" наборов необходимо их удаление из исходного массива данных. Таким образом, при невыполнении условия С1 следует решать задачу о выделении в массиве (1) "аномальных" наборов. Для решении этой задачи в настоящей работа предлагается использовать комбинаторные методы.
Пусть по аналогии с (6) для массива (1) считается выполненным соотношение
= ..........Х^ + Е*. (8)
где Г - некоторая нелинейная по параметрам А^ функция; Тогда (8) есть наиболее общая форма записи нелинейной модели, на ос-
новании которой в традиционном нелинейном регрессионном анализе производится количественный анализ экспериментального массива (1).
Как и в случае линейной регрессии, в стандартных процедурах нелинейного регресионного анализа для оценивания неизвестного вектора параметров А используется метод наименьших
квадратов, т.е. минимизируется сумма квадратов отклонений ОСА):
к ?
КЮ = ^CYk-FkCA)^2. (9)
Однако в отличие от линейных по параметрам моделей в обсуждаемом случае система уравнений dU/dA-0 нелинейна, и поэтому вместо ее решения обычно идут непосредственно минимум ЛГА).
Наиболее распространенные в настоящее время способы минимизации (9) основаны на итерационном методе Ньютона - Гаусса, главная идея которого заключается в линейной аппроксимации функции регрессии FCA).
Очевидно, что помимо общих алгоритмов, которые в дальнейшем будем называть универсальными, для нелинейного оценивания параметров можно использовать также алгоритмы, разработанные с учетом специфики аналитического вида данной аппроксимационной функции FCAJ. В отличие от универсальных подобные алгоритмы, приспособленные для оценивания параметров строго определенного вида Функций, будем называть специальными.
Так как в специальных алгоритмах оценивания в большей мере, чем в универсальных алгоритмах, учитывается индивидуальный характер Функции FCA), то с точки зрения операционального подхода следует ожидать, что на практике специальные алгоритмы в большинстве случаев будут "работать" лучше универсальных. Для иллюстрации высказанного положения проведен сравнительный анализ некоторых универсальных и специальных методов оценивания параметров дробно-линейной функции.
При обсуждении проблем количественного анализа данных естественнонаучных исследований в условиях отсутствия теоретических моделей приведены формулировки основных задач и способы их решения с помощью методов корреляционного, дискриминантного и per-
Таблица
Результаты аппроксимации зависимостей для твердых
растворов У^! 1_х01 5 уравнением Ох(Т)- ^ИМСТ-Г^
Номер X кг/м А, 1/К V К 5x109, 3 кг/м
1 0,010 0,134 0.094 111,4 0,0068
2 0,019 0.469 0.043 78,0 0,0155
3 0,045 0,047 0.161 134,9 0,0051
4 0,059 0,467 0,040 129.6 0,0079
5 0,069 0,211 0,081 143,3 0,0221
б 0,078 1,775 0,017 101.9 0,0393
7 0,142 4.141 0.016 89,2 0,0647
8 0,193 3,488 0.016 91,8 0,0313
9 0,788 3,756 0,025 138,4 0,0876
10 0,848 4,415 0.028 142,3 0,132
11 0.908 4,462 0.051 151,6 0,232
12 1,00 3,294 0,143 170.6 0,330
рессионного анализов. При этом указано на связь всех методов с регрессионным анализом.
На основании полученных в главе 1 результатов предложено для твердых растворов ^ХА11_Х01 5 экспериментальную зависимость
магнитной восприимчивости х-Х.(ТЭ описывать не дробно-линейной Функцией (обо'ценным законом Кюри - Вейсса), а уравнением
ХСТ) = х0 + С/СТ+Ю + Х1ШАСТ-Т01, (10)
которое содержит шесть параметров: Х0, С, 9, ^, А и Г0. Выбор
вида уравнения (10) обосновывается достигнутой точностью аппроксимации найденных в главе 1 зависимостей йх(Т) (см. в таблице значения среднеквадратических отклонений И) и физическим смыслом. который имеет функция (10).
Глава 3. Операциональный подход к разработке, сертификации и эксплуатации программных систем анализа данных.
Лано определение программных систем анализа данных. Приведены алгоритмы их конструирования и рекомендации по выбору их форма. Обсуждены проблемы сертификации и эксплуатации операциональных систем анализа данных.
Под программными системами анализа данных обычно понимает некоторое множество взаимоувязанных программных продуктов, которое. будучи внедрено на ЭВМ. помогает последователе решить определенный круг задач количественного анализа данных и представить результаты обработки в удобной для него Форме.
С точки зрения операционального подхода наилучшие системы обработки данных прецизионных исследований должны быть специальным«, то есть ориентированы на решение задач по обработке данных определенного конкретного класса количественных научных исследований и определенного типа объектов в этом конкретном классе научных исследований. Главный выигрыш от подобной узкой специализации систем обработки данных состоит в том, что для них с помощью методов имитационного моделирования на уровне нефундаментального теоретического исследования можно провести выбор алгоритмов оценивания, критериев качества аппроксимации и схем обработки данных, а также свести к минимуму информацию о промежуточных результатах вычислений. на основании которых исследователь вмешивается в работу интерактивной системы. Отсюда появляется возможность создать компактную, эффективную и удобную в работе систему обработки данных, максимально приближенную по принципам функционирования к автоматическим системам. В главе 3 рассмотрены проблемы разработок именно таких интерактивных систем анализа данных и, в частности, разработаны для ЕС-1045 две программные системы анализа данных: АЛИСА - для решения задач множественного линейного регрессионного анализа в условиях неадекватности аппроксимационных моделей и ИЗА - для аппроксимации 'экспериментальных зависимостей дробно-линейной Функцией (обобщенный закон Кюри - Бейсса) в условиях малой выборки и неоднородных массивов данных.
Приложения.
Приведены описания применении и тексты программ.
В приложении приведены разработанные на языке ФОРТРАН для ЕС-1045: 1. Набор программ для генерирования семейства наилучших линейных моделей; 2. Набор программ для выявления аномальных наблюдений в экспериментальном массиве данных; 3. Набор программ для аппроксимации исследуемых зависимостей обобщенным законом Кюри - Вейсса. Для каждого набора приведены-' а) функциональное назначение, б) логическая структура программ, в) входные и выходные данные, г) тексты программ.
Заключение.
Подведены итоги работы. Перечислены основные результаты диссертации. Сформулированы основные выводы.
Основные выводы диссертации заключаются в том. что для прецизионных эмпирических исследований
1) зависимость результатов количественной обработки экспериментальных данных от используемых критериев и алгоритмов в большинстве случаев (например, практически всегда в случае одкофактсрного эксперимента) можно объяснить неадекватностью аппроксимационных моделей;
2) для идентификации параметров регрессионных уравнений по прецизионным экспериментальным данным требуется а) разработка новых алгоритмов и процедур оценивания, которые инициируются реальной (операциональной) моделью данных, б) особый (системно-операциональный) подход к разработке, сертификации и эксплуатации программных систем анализа данных;
3) использование разработанных в диссертации схем, процедур и алгоритмов количественного анализа данных позволяет проводить для ряда регрессионных моделей не только идентификацию параметров, но и одновременное уточнение исходных моделей с учетом индивидуальных особенностей объектной, приборной и субъектной подсистем исследования.
Список основных публикаций по теме диссертации:
1. Чедраков Ю.В. Выявление в экспериментальном массиве данных аномальных наблюдений // Информационный бюллетень. Алгоритмы и программы. М., 1990. N 9. С.10.
2. Чедраков Ю.В■ Генерирование семейства наилучших линейных по параметрам регрессий // Информационный бюллетень. Алгоритмы и программы. М., 1990. N 8. С.7.
3. Чедраков Ü.B. Операциональный подход к количественному анализу результатов прецизионных Физических экспериментов //Изв. вузов. Физика. 1991. N2. С. 127.
4. Чедраков Ю. В.. Гусаров В. В■ Анализ экспериментальных данных при малом числе наблюдений // Тез.докл. VIII Всесоюз. конф. по планированию и автоматизации в научных исследованиях. Л., 1986. 4.1. С. 11-12.
5. Чедраков Ю.В.. Гусаров В.В. Магнетохимическое исследование состояния ионов железа в берилле // Геохимия. 1987. N 8. С.1206-1208.
6. Чедраков Ю.В., Гусаров В.В. Анализ отклонения экспериментальных данных магнитной восприимчивости от закона Кюри -Вейсса // Изв. вузов. Физика. 1988. N 1. С.128.
7. Чедраков Ю.В., Гусаров В. В. Магнетохимический анализ Фаз переменного состава в системах a-A10jз5-МеОг 5 (Ме = V, Cr.Fe) // Журн. прикл. хим. 1988. К 7. С.1694.'
8. Чедраков Ю.В. , Гусаров В.В. Магнитное состояние 3<2-зле-менгов в поликристаллических системах // Тез. докл. VI Всесоюз. симпозиума по изоморфизму. М., 1988. С.217.
8. Чедраков Р.В., Гусаров В.В. Использование операциональных представлений для повышения эффективности и инФорматив-йости количественных научных исследований // Материалы научно-технич. конф. 15-16 апреля: Технология проектирования программных и аппаратных средств вычислительных систем. Л., 1989. С.91.
10. Чедраков Ю.В., Гусаров В-В. Аппроксимация исследуемых зависимостей одним и двумя обобщенными законами Кюри -Вейсса // Информационный бюллетень. Алгоритмы и программы. М., 1990. N8. С. 7.
11. Чебраков Ю-В-, Гусаров В-В. Сравнение различных подходов к анализу данных прецизионного Физического эксперимента // Изв. вузов. Физика. 1990. N 1. С.126.
12. Чебраксв Ю.В., Савельева 3.С. Операциональный подход к создание систем автоматизированной обработки данных // Материалы научно-практич. семинара 19-20 октября: Технология проектирования программных и аппаратных средств вычислительных систем. .Т., 1990. С.55-58.
13. Чебракоа В.В., Шмагин В.В. Особенности проведения регрессионного и дискриминантного анализов в условиях малой выборки. Деп. в ВИНИТИ 27.06.91, К 2735 - В 91. М., 1991. 48 с.
14. Чебракоа Ю.В., Шыагян В. В. Программные системы для обработки результатов прецизионных физических экспериментов // Изв. вузов. Физика. 1991. N10. С. 128.
15. Чебраков Ю.В., Шшгин В.В. Особенности проведения системного анализа данных в условиях отсутствия параметрических моделей // Тез. докл. III Всесоюз. семинара 18-22 ноября: Качество программного обеспечения. Дагомыс, 1991. С.129-130.
Подписано к печати 12.10.92. Формат печати 60x84 1/16. Заказ N275* - 100 экз. объем 1.25 п.л. печать офсетная.
Бесплатно
ЛИАП 19C0Q0. у п.Герцене. 67.
Ротапринт