Нижние границы для среднего объёма наблюдений в процедурах отбора и упорядочивания тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Кареев, Искандер Амирович
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Казань
МЕСТО ЗАЩИТЫ
|
||||
2013
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
На правах рукописи
Кареев Искандер Амирович
Нижние границы для среднего объёма наблюдений в процедурах отбора и упорядочивания
Специальность 01.01.05 — теория вероятностей и математическая статистика
АВТОРЕФЕРАТ
диссертации на соискание учёной степени кандидата физико-математических наук
2 г МАЙ 2014
Москва — 2014
005548786
Работа выполнена на кафедре математической статистики Института вычислительной математики и информационных технологий Казанского (Приволжского) федерального университета.
Научный руководитель: доктор физико-математических наук,
профессор
Володин Игорь Николаевич
Официальные оппоненты:
Ведущая организация:
доктор физико-математических наук, зав. лаб. «Когнитивные методы анализа данных и моделирования» ИСА РАН, профессор
Бернштейн Александр Владимирович
кандидат физико-математических наук, старший научный сотрудник кафедры математической статистики фак. ВМК МГУ, старший научный сотрудник Пагурова Вера Игнатьевна
Вологодский государственный университет
Защита диссертации состоится 10 июня 2014 года в 11 часов 00 минут на заседании диссертационного совета Д 501.001.44 при Московском государственном университете имени М.В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет ВМК, аудитория 685.
Желающие присутствовать на заседании диссертационного совета должны сообщить об этом за 2 дня по тел. (495) 939-30-10 (для оформления заявки на пропуск).
С диссертацией можно ознакомиться в Фундаментальной библиотеке МГУ.
С текстом автореферата и диссертации можно ознакомиться на официальном сайте факультета ВМК МГУ http://cs.msu.ru/ в разделе «Диссертации».
Автореферат разослан _ 30.04.2014
Ученый секретарь
диссертационного совета,
к. т. н, ведущий научный сотрудник
В. А. Костенко
Общая характеристика работы
Актуальность темы исследования:
В теории статистических выводов существует класс особых многовыборочных проблем, при решении которых требуется выполнение заданных ограничений на вероятность корректного решения, принятого после проведения наблюдений. Одна из таких проблем - отбор „наилучшей" популяции или упорядочивание популяций в соответствии с определенным показателем их предпочтения. Естественно, для реализации этого требования необходимо предварительно, до постановки статистического эксперимента, планировать объем испытаний. В связи с этим возникает актуальная и важная в практических применениях процедур отбора и упорядочивания задача нахождения минимального (среднего) объема наблюдений, ниже которого процедур с заданной вероятностью корректного решения не существует. Решению этой задачи посвящена представляемая диссертация.
Степень разработанности:
В математической статистике существует ряд неравенств, устанавливающих нижние границы для различных характеристик процедур статистического вывода. Обзор таких границ следует начать с неравенства Рао-Крамера и его обобщения на последовательные процедуры, данные Хёфдингом1. Неравенство Хёфдинга, разрешённое относительно среднего объёма наблюдений, позволяет построить нижние границы для среднего объёма выборки, необходимого для несмещённого оценивания с заданными ограничениями на дисперсию. Другое, не менее известное, неравенство Вальда2 для среднего объёма выборки при проверке гипотез легко обобщается на случай различения сложных гипотез и позволяет строить нижние границы для среднего объёма выборки, необходимого для различения двух односторонних гипотез, разделённых областью безразличия, с заданными ограничениями на вероятность ошибок первого и второго рода.
В последующим Саймоне3 обобщил границы Вальда на случай различения более, чем двух простых гипотез. Аналог границ Саймонса для случая многовыборочных проблем приводятся в монографии Бекхофера-Кифера-
1Hoeffding, W, A lower bound for the average sample number of a sequential test / W. Hoeffding // The Annals of Mathematical Statistics. 1953. Vol. 24, №1. pp. 127-130.
2 Wali, A. Statistical decision functions / A. Wald. Oxford, England: Wiley. 1950. 179 p.
3Simons, G. Lower bounds for average sample number of sequential multihypothesis tests / G. Simons // The Annals of Mathematical Statistics. 1967. Vol. 38, №5. pp. 1343-1364.
Собеля4 и приписываются к неопубликованным на тот момент результатам Хёфдинга. Использование этих границ для построения процедур различения многих простых гипотез с заданными ограничениями на все элементы матрицы ошибок дано в работах Володина5,6.
Наконец, Володиным были получены универсальные нижние границы для среднего объёма наблюдений в процедурах статистического вывода7,8, справедливые для любой статистической проблемы. Такие границы содержат как частный случай границы Хёфдинга, Вальда и Саймонса. Реализация этих границ для гарантийных процедур статистического вывода связана с решением достаточно сложных задач на экстремум. Решая такие задачи, Володин получил нижние границы для среднего объёма наблюдений в критериях согласия, однородности9, инвариантности10 и независимости. В дальнейшем Мал ютовым11 эти границы были распространены на случай управления наблюдениями, с семейством наблюдаемых случайных величин произвольной мощности. Это позволило улучшить нижние границы Володина в проблеме проверки однородности более чем двух распределений12, а также построил границы объёма наблюдений в задачах регрессии и планирования статистических экспериментов13. Указанные результаты Володина и Малютова содержатся в обзорной статье Володина14.
4Bechhofer, R.E. Sequential identification and ranking procedures / R.E. Bechhofer, J. Kiefer, M. Sobel. Chicago: University of Chicago Press. 1968. 420 p.
5Володин, И.Н. Оценки необходимого объема наблюдений в задачах статистической классификации. I / И.Н. Володин // М.: ТВП. 1977. 22:2. С. 347-357.
6Володин, И.Н. Оценки необходимого объема наблюдений в задачах статистической классификации. II / И.Н. Володин // М.: ТВП. 1977. 22:4. С. 749-765.
7Володин, И.Н. Нижние границы для среднего объёма выборки и эффективность процедур статистического вывода / И.Н. Володин ,/ М.: ТВП. 1979. т. 24. вып. 1. С. 119-129.
^ Володин, И.Н. Нижние границы для среднего объёма выборки в процедурах с управлением / И.Н. Володин // М.: ТВП. 1981. т. 26. вып. 3. С. 630-631.
9Володин, И.Н. Нижние границы для среднего объёма выборки в критериях согласия а однородности / И.Н. Володин // М.: ТВП. 1979. т. 24. вып. 3. С. 637-С45.
10Володин, И.Н. Нижние границы доя среднего объёма выборки в критериях инвариантности / И.Н. Володин // М.: ТВП. 1980. т. 25. вып. 2. С. 359-364.
11 Малютов, М.Б. Нижние границы для средней длительности последовательно планируемых экспериментов / М.Б. Малютов // Изв. ВУЗов, сер. матем.. 1983. №11. С. 19-41.
12Malyutov, M.B. One bound for the mean duration on sequential testing homogeneity / L.I. Galtchouk, M.B. Malyutov // MODA4 — Advances in model-oriented data analysis contributions to statistics. 1995. Part 1. pp. 49-56.
13Малютов, М.Б. Нижние границы для средней длительности последовательно планируемых экспериментов / М.Б. Малютов // Изв. ВУЗов, сер. матем.. 1983. JVU1. С. 19-41.
14Володин, И.Н. Нижние границы для среднего объёма наблюдений в гарантийных процедурах статистического вывода / И.Н. Володип // Исследования по прикладной математике и информатике, Казань:
Построение нижних границ для среднего объёма наблюдений в гарантийных процедурах отбора и упорядочивания было очередной задачей в рамках этих исследований. В этом направлении имелась единственная статья Новикова15, в которой получены границы в случае отбора наилучшей нормальной популяции и исследована эффективность процедуры Бекхофера. Цель данной диссертации — дать полное решение задачи нижней оценки среднего числа наблюдений в гарантийных процедурах отбора и упорядочивания.
Проведём небольшой обзор существующих методов отбора и упорядочивания статистических популяций.
Обзор следует начать с основополагающих работ Бекхофера16 (1954) и Гупты17 (1956). Суть подхода Бекхофера к построению гарантийных процедур отбора и упорядочивания заключается в введении так называемой зоны безразличия: от таких процедур требуется гарантировать заданный уровень вероятности корректного решения лишь при таких конфигурациях популяций, при которых их значения параметров находятся на достаточном расстоянии друг от друга. Это ограничение на степень близости значений параметров у разных популяций и называют зоной безразличия. Гарантия вероятности корректного отбора достигается посредством выбора требуемого числа наблюдений. Заметим, что эта работа Бекхофера представляет наиболее ранние результаты в области отбора и упорядочивания и впервые формулирует в современном виде проблему отбора и упорядочивания.
Другой подход в построении гарантийных процедур отбора, который не будет рассматриваться в диссертации, — это подход Гупты18. Здесь заданная вероятность корректного отбора гарантируется при любом числе наблюдений, и представляет собой вероятность отбора некоторого множества популяций, содержащего наилучшую. Согласно этому подходу, в результате применения процедуры отбора формируется некоторое „доверительное" множество, которое с заданной вероятностью накрывает наилучшую популяцию; увеличение объёма наблюдений позволяет сузить это множество, увеличивая, таким об-
Изд-во Казан, ун-та. 2011. Вып. 27. С. 70-116.
15Новиков, A.A. Эффективность процедур отбора / A.A. Новиков // Казань: Исслед. по прикл. матем.. 1084. Т. 11, Х>2. С. 43-31.
16Bechhofen R.E. A single-sample multiple decision procedure for ranking means of normal populations with known variances / R.E. Bechhofer // The Annals of Mathematical Statistics. 1954. Vol. 25, .\4. pp. 16-39.
17Gupta, S.S. On a decision rule for a problem in ranking means / S.S. Gupta. University of North Carolina at Chapel Hill. 1956. 208 p.
18 Gupta, S.S. On a decision rule for a problem in ranking means / S.S. Gupta. University of North Carolina at Chapel Hill. 1956. 208 p.
разом, точность отбора.
Задачи отбора и упорядочивания в основном рассматривались только для наиболее распространённых вероятностных моделей наблюдаемых характеристик популяций. Это нормальная модель, при которой популяции распределены согласно нормальному закону с общей известной дисперсией, а целевым неизвестным параметром является среднее. В экспоненциальной модели целевым является масштабный параметр показательного распределения. В биномиальной модели, естественно, отбирается популяция с наибольшей вероятностью успешного исхода, или популяции упорядочиваются по величине этой вероятности. Для пуассоновской модели, очевидно, целевым параметром является интенсивность пуассоновского потока. Наконец, особый случай представляет мультиномиальная модель, в которой каждая популяция соответствует некоторой компоненте мультиномиального случайного вектора, и задачей является выявление компоненты с наибольшей вероятностью успеха.
Все указанные задачи рассматриваются при различных способах введения зоны безразличия. Например, для параметра сдвига нормальной модели чаще всего рассматривается зона безразличия, основанная на разности параметров. С другой стороны, для параметров масштаба или, например, вероятности успеха в биномиальной модели зачастую используется зона безразличия, основанная на отношении значений параметров популяций.
В процедурах отбора и упорядочивания можно фиксировать объём наблюдения заранее или использовать последовательные схемы выбора с управлением обхода популяций. Обычно последовательные процедуры требуют в среднем меньшего суммарного объёма наблюдений, чем процедуры с фиксированным числом наблюдений, и в этом отношении являются более предпочтительными. Заметим, однако, что на практике процедуры с фиксированным числом наблюдений зачастую являются значительно более удобными с организационной точки зрения, что с избытком компенсирует их меньшую эффективность в отношении требуемого объёма наблюдений.
Опишем некоторые процедуры, выполняющие отбора и упорядочивания в рамках различных моделей. Первая процедура, решающая задачу отбора в случае нормальной модели, когда дисперсии популяций известны и равны, была построена Бекхофером19. Эта процедура требовала фиксированного числа наблюдений и по окончании эксперимента выбирала в качестве наилуч-
lsBechhofer, R.E. A single-sample multiple decision procedure for ranking means of normal populations with known variances / R.E. Bechhofer // The Annals of Mathematical Statistics. 1954. Vol. 25, №1. pp. 16-39.
шей популяцию с наибольшим значением выборочного среднего. Требуемый объём наблюдений в этой процедуре определяется на основании оценки вероятности корректного отбора при наименее благоприятном случае, то-есть когда параметры популяций находятся настолько близко друг от друга, насколько позволяет введённая зона безразличия.
Некоторым усовершенствованием этой процедуры с фиксированным числом наблюдением стала последовательная процедура Бекхофера-Кифера-Собеля. В этой процедуре используется довольно простое управление — на каждом шаге эксперимента из каждой популяции берётся по одному наблюдению, после чего решается вопрос о продолжении эксперимента. Такого рода управление часто обозначается термином vector-at-once (вектор за раз). По окончании эксперимента в качестве наилучшей выбирается популяция с наибольшим значением выборочного среднего.
Важной положительной особенностью процедур Бекхофера с фиксированным числом наблюдений и последовательных процедур Бекхофера-Кифера-Собеля является их универсальность. Этими процедурами могут решаться как задачи отбора, так и задачи упорядочивания для широкого класса моделей популяции. В частности, они применимы ко всем рассматриваемым в данной работе моделям: нормальной, экспоненциальной, биномиальной, пуас-соновской, мультиномиальной.
Вероятно, наиболее экономичной процедурой отбора нормальной популяции, с точки числа наблюдений, можно назвать последовательную процедуру Kao-Lai20. Она во многом схожа с последовательной процедурой Бекхофера-Кифера-Собеля, однако в ней представлен механизм раннего экранирования популяций с наименьшими значениями параметра. На первом шаге эксперимента процедура производит по одному наблюдению в каждой популяции. После этого на основании полученных данных выявляются популяции, которые с достаточно малой вероятностью являются наилучшими. Такие процедуры исключаются из дальнейшего рассмотрения. На следующем шаге процедура вновь берёт по наблюдению из каждой популяции, кроме уже исключённых. И так далее. Наконец, эксперимент заканчивается, когда в рассмотрении остаётся лишь одна, последняя популяций, которая и объявляется наилучшей. Заметим, что наибольший выйгрыш такого экранирования достигается при сильно различающихся значениях параметров популяций. На-
20Као, S. С. Sequential selection procedures based on confidcnce sequences for normal populations / S.C. Kao, T.L. Lai // Communications in Statistics — Theory and Methods.- 1980. Vol. 9, №16. pp. 1657-1676.
против, как показывают результаты статьи, при наименее благоприятном для отбора случае, когда популяции максимально похожи, асимптотический средний объём наблюдений процедуры Kao-Lai оказывается на том же уровне, что и у более простой последовательной процедуры Бекхофера-Кифера-Собеля.
Ряд процедур упорядочивания по параметрам масштаба и сдвига для широкого класса распределений представлены в статьях Скафера и Рутемил-лера21, Бишопа и Дудовича22. Бейрлант, Дудевич и ван дер Меулен23 предложили двухступенчатую процедуру упорядочивания нормальных популяций по средним значениям при неизвестных дисперсиях и привели примеры её использования на реальных данных. Проблема использования различных функций потерь в задачах упорядочивания обсуждается в статье Собела24.
Отметим процедуру отбора биномиальной популяции, предложенную Бекхофером и Кулкарни25. Эта последовательная процедура основана на принципе, схожем с выбором по последнему успеху (play-the-winner). В их работе было показана, что эта процедура обеспечивает не меньшую вероятность корректного успеха, чем процедура отбора с фиксированным числом наблюдений, требуя при этом меньшее число наблюдений.
Мулекар и Матежик26 предложили процедуру отбора популяции с наименьшим средним среди пуассоновских популяций с фиксированным числом наблюдений. Для построения такой процедуры им понадобилось рассматривать зону безразличия, контролирующую как разность между параметрами популяции, так и отношение между ними. Мулекар и Матежик определили точное выражение для вероятности корректного решения при наименее благоприятном для отбора случая, на использовании которого и построен выбор
21 Schaf er, R.E. Some characteristics of a ranking procedure for population parameters based on сЫ-square statistics / R.E. Schafer, H.C. Rutemiller // Technometrics. 1975. Vol. 17, Jf>3. pp. 327-331.
22 Dudewicz, E.J Complete ranking of reliability-related distributions / E.J. Dudewicz, T.A. Bishop 11 IEEE TVansactions on Reliability. 1977. Vol. R-26, №5. pp. 362-365. (подробное изложение сы. в Stanford university, Technical report No. 114. 1976)
23Dudewicz, E.J. Complete Statistical ranking of populations, with tables and applications / E.J. Dudewicz, J. Beirlant, E.C. van der Meulen // Journal of Computational and Applied Mathematics. 1982. Vol. 8, №3. pp. 187-201.
24Sobel, M.J. Complete ranking procedures with appropriate loss functions / M.J. Sobel // Communications in Statistics - Theory and Methods. 1990. Vol. 19, №12. pp. 4525-4544.
25Bechhofer, R.E. On the performance characteristics of a closed adaptive sequential procedure for selecting the best bemoulli population / R.E. Bechhofer, R.V. Kulkarni // Communications in Statistics. Part C: Sequential Analysis: Design Methods and Applications. 1983. Vol. 1, .V-4. pp. 315-354.
2BMulekar, M.S. Determination of sample size for selecting the smallest of k possible population means / M.S. Mulekar, F.J. Matejcik // Communications in Statistics — Simulation and Computation. 2000. Vol. 29, №1. pp. 37-48.
объёма наблюдения в процедуре27. Кроме того, Мулекар и Собэл построили аналогичную процедуру для отбора пуассоновской популяции с наибольшим среднем28.
Для решения задачи отбора в мультиномиальной модели, Бекхофер, Элмаграби и Морсе29 была предложена процедура с фиксированном числом наблюдений.Объём выборки в этой классической процедуре отбора определяется как наименьшее целое, при котором при наименее благоприятном для отбора случае ещё соблюдается ограничение на вероятность корректного отбора. По окончании наблюдений в качестве наилучшей выбирается компонента с наибольшим числом успехов.
В дальнейшем, для ещё большего повышения эффективности отбора в мультиномиальной модели Бекхофером и Голдсманом30 была предложена последовательная процедура, являющаяся модификацией процедуры отбора Бекхофера-Кифера-Собеля31. В процедуре Бекхофера-Голдсманома дополнительно к оригинальному правилу остановки добавляется ограничение сверху по на объём наблюдений, по достижению которого процедура прекращает наблюдение и выносит вердикт. По определению, По выбирается как число наблюдений, гарантирующего заданную вероятность корректного отбора. Такой простой приём позволяет существенно сократить число наблюдений. В последующей статье32 Бекхофер и Голдсман предложили ещё более эффективную последовательную процедуру отбора.
В книгах Гиббонса, Олкина, Собеля33 и Гупты, Панчапакесана34 пред-
27Mulekar, M.S. On selecting a process with the smallest number of unfortunate events / M.S. Mulekar, F.J. Matejcik // The Journal of the Operational Research Society. 2006. Vol. 57, №4. P. 416-422.
28Mulekar, M.S. Fixed-sample-size selection problem for Poisson populations /' M.S. Mulekar, M. Sobel // Statistics & Decisions. Supplemental Issue No. 4. 1999. pp. 69-85.
29Bechhofer, R.E. A single-sample multiple-decision procedure for selecting the multinomial event which has the highest probability / R.E. Bechhofer, S. Elmaghraby, N. Morse // The Annals of Mathematical Statistics. 1959. Vol. 30, .VU— pp. 102-119.
30Bechhofer, R.E. Truncation of the Bechhofer-Kiefer-Sobel sequential procedure for selecting the multinomial event which has the largest probability / R.E. Bechhofer, D.M. Goldsman // Communications in Statistics — Simulation and Computation. 1985. Vol. 14, №2. P. 283-315.
31 Bechhofer, R.E. Sequential identification and ranking procedures / R.E. Bechhofer, J. Kiefer, M. Sobel. Chicago: University of Chicago Press. 1968. 420 p.
32 Bechhofer, R.E. Truncation of the Bechhofer-Kiefer-Sobel sequeutial procedure for selecting the multinomial event which has the largest probability (II): extended tables and an improved procedure / R.E. Bechhofer, D.M. Goldsman // Communications in Statistics — Simulation and Computation. 1986. Vol. 15, №3. pp. 829-851.
33 Gibbons, J. D. Selecting and ordering populations / J. D. Gibbons, I. Olkin, M. Sobel. New York: Wiley. 1977. 569 p.
34 Gupta, S.S. Multiple decision procedures: theory and methodology of selecting and ranking populations / S. S. Gupta, S. Panchapakesan. New York: Wiley. 1979. 573 p.
ставлен обширный и детальный обзор задач отбора и упорядочивания. В них рассматриваются различные подходы к постановке и решению этих задач, производится их детальное описание и исследование, представлены наиболее значимые процедуры отбора и упорядочивания. Научная новизна:
1. Впервые получены нижние границы для среднего объёма наблюдений в широком классе задач отбора и упорядочивания. Полученные результаты представляют решение нового класса статистических задач по планированию объёма испытаний.
2. Построенные границы получили применение к новому подходу в исследовании эффективности существующих процедур отбора и упорядочивания для различных моделей задач отбора и упорядочивания. Цели и задачи:
Целью данной работы является построение нижних границ для среднего объёма наблюдений последовательных гарантийных процедур отбора и упорядочивание, изучение их основных свойств, а также их применение для исследования эффективности некоторых из наиболее значимых процедур отбора и упорядочивания.
Методология и методы исследования:
Решение поставленных задач в диссертации производилось с привлечением методов математического анализа, теории вероятностей. Главным инструментом, на котором базируется вывод основных результатов диссертации, явилась универсальная нижняя граница для среднего объёма наблюдений последовательных гарантийных процедур статистического вывода Володина-Малютова.
В дополнение к аналитическим результатам, приведены и различные численные исследования, выполненные с использованием языков программирования Python, С++ (с использованием компилятора GNU GCC), пакета статистических вычислений GNU R.
Теоретическая и практическая значимость: Практическая ценность построенных нижних границ состоит в их использовании как критерия недостаточности имеющегося у экспериментатора объёма наблюдений для существования гарантийных процедур. Кроме того, такие границы являются некоторым ориентиром в поиске оптимальных с точки зрения объёма наблюдений гарантийных процедур отбора и упорядочивания, что говорит о теоретической ценности работы.
Степень достоверности и апробация результатов:
Степень достоверности полученных результатов определяется строгим математическим доказательством всех утверждений, присутствующих в диссертации. Результаты работы докладывались на всероссийской научной конференции "XII Всероссийский симпозиум по прикладной и промышленной математике" (Казань, 1-8 мая 2011 г.), на международной конференции "XXX Международный семинар по проблемам устойчивости стохастических моделей" (Светлогорск, 24-30 сентября 2012 г.), на всероссийской конференции "XIV Всероссийский симпозиум по прикладной и промышленной математике" (Йошкар-Ола, 12-18 мая 2013 г.), на научном семинаре кафедры Математической статистики факультета ВМК МГУ (2013 г.). Кроме того, работа многократно докладывалась на семинарах кафедры Математической статистики и итоговых научных конференциях института ВМиИТ КФУ (2011 -2013 гг.).
Публикации:
Материалы диссертации опубликованы в 6 печатных работах ([1]-[6]), из них 2 статьи опубликованы в журналах, включённых в перечень ВАК ([3], [6])-
Положения, выносимые на защиту
На защиту выносятся следующие результаты:
1. Нижние границы для среднего объёма наблюдений в задачах отбора и упорядочивания общего вида, применимые к классу проблем со строго монотонной информацией по Кульбаку-Лейблеру.
2. Применение нижних границы общего вида к конкретным задачам отбора и упорядочивания. Построены границы для нормальной, экспоненциальной, биномиальной и пуассоновской моделей.
3. Результаты исследования эффективности некоторых из наиболее значимых процедур отбора и упорядочивания, основанного на использовании полученных в диссертации нижних границ.
Структура и объём диссертации:
Диссертация состоит из введения, трёх глав и списка литературы, содержащего 33 наименований. В диссертации присутствуют 2 рисунка и 11 таблиц. Общий объём работы составляет 113 страниц.
Содержание работы
Первая глава диссертации посвящена введению основных определений, а также вопросу построения нижних границ для среднего объёма наблюдений в последовательных процедурах отбора и упорядочивания, применимых для широкого класса распределений наблюдаемых характеристик популяций. В этой главе формулируются задачи отбора и упорядоч^ания в общем виде, вводится основной инструмент, на котором базируются результаты диссертации — универсальная нижняя граница Володина-Малютова для среднего объёма наблюдений в последовательных процедурах статистического вывода. Здесь же формулируются и доказываются основополагающие результаты диссертации, представляющие нижние границы для среднего объёма наблюдений в задачах отбора и упорядочивания, применяемые для широкого класса моделей со строго монотонной различающей информацией по Кульбаку-Лейблеру.
В параграфе 1.1 формулируются задачи отбора и упорядочивания то > 2 статистических популяций. Все т популяций имеют распределение общего вида и отличаются только значениями скалярного параметра в 6 0. Таким образом, значение в{ параметра в полностью определяет распределение наблюдаемого случайного элемента относящегося к ¿-ой популяции, 1 < г < то. Задача отбора "наилучшей" популяции состоит в выборе популяции с наибольшим (наименьшим) значением параметра.
В ходе статистического эксперимента с управлением наблюдений последовательные процедуры отбора и упорядочивания доставляют в каждой популяции случайное число наблюдений щ, 1 < г < то с суммарным объёмом выборки V = VI-\-----1- 1Ут, представляющим момент остановки статистического эксперимента.
Значения параметра популяций составляют вектор значений в = (91,..., вт) £ ©т. Пусть также бщ < • • • < 9щ — упорядоченные по возрастанию значения параметров. С целью сокращения обозначений, квадратные скобки в индексах в иногда будут убираться, так что в дальнейшем всегда будет подразумеваться, что вг <•■■ <9т.
Формулируется задача построения нижней границы для среднего объёма выборки Еди в процедурах отбора или упорядочивания, гарантирующих заданное ограничение 1 — а на вероятность корректного решения — отбора наилучшей популяции, отделённой от остальных популяций некоторой "зоной безразличия" размера Д. Используются универсальные нижние границы Володина-Малютова. Основная техническая сторона проблемы состоит в ре-
шении достаточно сложной задачи на минимакс. Идея решения состоит в некотором аккуратном сужении параметрического пространства 0™ с убранной зоной безразличия. Сужение осуществляется таким образом, чтобы полученная нижняя граница была не слишком далека от границы, получаемой при точном решении задачи на минимакс, а иногда и совпадала с такой точной границей.
При формулировки последующих результатов диссертации будут использоваться следующие обозначения и понятия. Пусть 1(В, д) — различающая информация по Кульбаку-Лейблеру между распределениями, индексируемыми параметрами 0 и Информация 1{9, д) будет называться строго монотонной, если при каждом фиксированном 9 она строго убывает по ■& < в и строго возрастает, когда х) > 9.
Параграф 1.2 состоит в построении нижней границы для среднего объёма наблюдений в процедурах отбора и исследовании случаев, при которых эта граница является точной — совпадает с исходной нижней границей.
Параметрическое пространство с зоной безразличия в задачах отбора вводится как
где гд(б) — определяющая вид зоны безразличия функция, сдвигающая аргумент 9 на величину Д влево.
Основной результат параграфа состоит в доказательстве следующего утверждения.
ТЕОРЕМА 1.1. Пусть семейство распределений в популяциях таково, что различающая информация строго монотонна. Тогда для любого в 6 ©д справедливо неравенство
е°А = {вевт: 0[т_1] < гд(0[т])},
где ( > 0 должно удовлетворять условиям:
П(вт) > ет-ь
Таким образом, всё сводится к выбору значения удовлетворяющего сформулированным условиям. Эти условия не однозначно определяют значение Заметим, что наибольшее значение í соответствует наибольшему значению нижней границе.
К сожалению, результат теоремы 1.1 существенным образом основан на некотором огрублении исходной универсальной нижней границы Володина-Малютова. С другой стороны, в некоторых ситуациях её точность всё же остаётся не меньшей, чем исходная граница.
Пусть выполняются условия Теоремы 1.1 и: (О 01 = ■■■ — 9т-1 ;
(и) замкнутый интервал [гд^О;^1 (#,„)] С 9 ;
(ш) выполняется более строгий вариант условия на Ь Теоремы 1.1:
(Ш - \)1{вт,п{вт)) = т,г1хЫ1и);
(гу) существует значение и)* € [0; 1] такое, что
и* =/(0т>г((бт))-
!?ев ^ т — 1 /
Тогда граница, указанная в теореме 1.1, представляет точное решение задачи на минимакс в границе Володина-Малютова.
Вкратце, это предложение утверждает следующие: при некоторых условиях на распределение популяций (например, если различающая информация выпукла по второму аргументу) и если параметры всех популяций, кроме наилучшей, совпадают (то-есть в\ — ■■■ = вт-{), то значение нижней границы, полученной в этом параграфе, совпадает со значением исходной универсальной нижней границы Володина-Малютова.
Наконец, в конце параграфа приводятся некоторые технические утверждения, касающиеся свойств условий, наложенных на £ в теореме 1.1. Они применяются в главе 2 при рассмотрении некоторых задач отбора с конкретными распределениями.
В параграфе 1.3 рассматривается вопрос построения нижних границ для среднего объёма наблюдений в процедурах упорядочивания, а также приводятся некоторые вспомогательные результаты, упрощающие применение этих границ в дальнейшем.
Параграф начинается с описание параметрического пространства с зоной безразличия, соответствующей задаче упорядочивания. Аналогично параграфу 1.2, для некоторого обобщения вида зоны безразличия это пространство определяется через функцию гд(0) и имеет вид
©^ = {9 € 9т: % < гд(%+11), 1 < » < m - 1}.
Далее определяются некоторые объекты, необходимые при формулировке основного результата параграфа. Это Д\(0) — множество векторов G 0д, корректное решение для которых отличается от корректного решения для вектора 9. Иными словами, в рамках задачи упорядочивания, это множество векторов, у которых порядок элементов по возрастанию отличается от порядка элементов по возрастанию у вектора в. Исходя из множества Вь{9) определяется множество -Вд(б) (где 1 < г < т — 1) значений 1? 6 \0{; г-д^бг+х)] таких, что выполняется условие
(01,..., 0, гд(0), в1+2,вт) € Ва{9).
Наконец ввиде теоремы формулируется основной результат параграфа — нижние границы для среднего объёма наблюдений в процедурах упорядочивания популяций.
Теорема 1.2. Пусть семейство распределений 2? таково, что различающая информация I(u, v) строго монотонна. Тогда для любого в 6 6д справедлива оценка:
если m = 2, то
Е >_u(a>a)_.
6 ~ sup inf (wl(e1,^) + (l-w)l(e2,r^)))' uieM^siW
если m > 3, то
¿=i 1
где
Vi= sup inf +2(1-го)7(02, гд(0)));
weloal^iW
Ц — sup inf 2(wl(6i,'&) + (1 — ги)7(0^1,гд(т?))), 2 < г < m — 2; we[0;i] «6 Bi(0)
ym_i= sup inf (2w7(0m_btf) + (l-w)7(0m,rA(tf))).
Полученная нижняя граница является существенно более простой в
вычислительном отношении, чем универсальная нижняя граница Володина-Малютова. Однако, как и в случае нижних границ для задачи отбора, её вывод существенным образом основан на огрублении исходной границы.
В окончании параграфа приводятся некоторые вспомогательные результаты, несколько облегчающие вычисление величин V; в дальнейшем.
Во второй главе рассматривается вопрос построения нижних границ для среднего объёма наблюдений в конкретных задачах отбора и упорядочивания с заданными распределениями популяций.
В параграфе 2.1 рассматриваются задачи отбора и упорядочивания при нормальном распределении популяций. При этом отбор и упорядочивание производятся относительно среднего с зоной безразличия, основанной на разности параметров. Дисперсии популяций полагаются совпадающими и известными, равными а1. Детализируется вид параметрического пространства с зоной безразличия:
Нижняя граница для среднего объёма наблюдений в задаче отбора, основанная на теореме 1.1, имеет следующий вид:
I — + ^
~ л/т -1 + 1
В случае наименее благоприятной для отбора конфигурации она является не менее точной, чем граница Володина-Малютова, и имеет вид
Рассмотрим теперь задачу упорядочивания популяций. Этой задачи соответствует параметрическое пространство
©д = {в е 0™: - в[т_ч > Д}.
где
Еви>
{у/т- 1 + 1 )2ы(а,а) 2Д2
©^ = {в € 0т: вм - 0,- > Д, 1 < г < т - 1}.
Имеет место неравенство. Если тп > 3, то
т-1 л 2 I
Л л» /-и I
Параграфы 2.2, 2.3, 2.4 посвящёны построению нижних границ для среднего объёма выборки в задачах отбора и упорядочивания для, соответственно, показательной, биномиальной и пуассоновской моделей. Результаты этих параграфов в целом аналогичны нормальной модели
В параграфе 2.5 рассматривается задача отбора наиболее вероятного исхода в мультиномиальной схеме испытаний М(в, т, и), где в — вероятности соответствующих т исходов, и — момент остановки в мультиномиальной схеме наблюдений.
Нижняя граница здесь строится при зоне безразличия, основанной на отношении значений параметра:
Рассматриваемая в этом параграфе задача отбора представляет собой особый случай, концептуально несколько отличающийся от ранее рассматриваемых задач. Здесь деление на популяции носит условный характер, так как по-сути присутствует лишь одна популяция, из которой наблюдается векторная случайная характеристика.
Устанавливается, что
Заметим, что, в отличие от других построенных в этой главе нижних границ, нижняя граница для указанной мультиномиальной модели строится путём непосредственного решения максиминной задачи в универсальной нижней границе Володина-Малютова. Этот результат, таким образом, является точным в том смысле, что полученная нижняя граница принимает в точности те же значения, что и исходная универсальная граница.
В третьей главе полученные нижние границы применяются для исследования эффективности некоторых процедур отбора и упорядочивания для различных моделей. Исследование в основном касается понятия асимптотической эффективности при а —> 0. Эта величина будет обозначаться как:
0д = {в: Ав[т^ < в[т]}.
где (р — гарантийная процедура отбора или упорядочивания, эффективность которой рассматривается, а Н(а) — множество всех гарантийных процедур, вероятность корректного отбора или упорядочивания в которых не меньше 1 — а для любого в, принадлежащий соответствующему параметрическому пространству с зоной безразличия.
В параграфе 3.1 оценивается эффективность процедур отбора для нормальной модели. Заметим, что, обычно, наибольший интерес вызывает поведение процедур при наименее благоприятной для отбора конфигурации, которая в данном нормальном случае имеет вид:
в\ = ■ ■ • = вт-\ — вт — Д.
В первую очередь исследуется классическая процедура отбора Бекхо-фера с фиксированным числом наблюдений, объёма наблюдений в которой имеет следующее асимптотическое (при а —0) поведение:
= (1 + 0(1)).
Применяя соответствующую нижнюю границу, получаем оценку асимптотической эффективности вида:
1 "* *
т_1 д2 г = вт-вт-1 + А
и, в частности, для наименее благоприятной конфигурации
Далее рассматривается эффективность последовательной процедуры отбора Бекхофаера-Кифера-Собеля, обладающей достаточно простым управлением: на каждом шаге эксперимента из каждой популяции берётся ровно по одному наблюдению, после чего решается вопрос о продолжении эксперимента (ьес1ог-аЬ-опсе). Для среднего объёма наблюдений этой процедуры верна следующая асимптотическая (при а —»■ 0) формула:
Е" = -дКо1"«^0™'
Таким образом, исходя из полученной нижней границ получаем оценку для асимптотической эффективности:
т 1 А 9т-})__ £ _ втп. — + А
777. (а _ а. л
или , в случае наименее благоприятной конфигурации:
> (V^T+D2
sup §(в) >-—-•
вев'л zm
Ещё более совершенная последовательная процедура отбора была предложена Као и Lai. Её управление основано на экранировании: в процессе эксперимента процедура может исключать из дальнейшего рассмотрения популяции, маловероятно являющиеся наилучшими. Средний объём наблюдений этой процедуры имеет следующий асимптотический (при а -» 0) вид:
Р /У 4"2 , 4"2
\ti(^ + om-ei)2 +(А + вт-е^у
■\па (1 + 0(1)).
Применение нижней границы позволяет построить следующую оценку асимптотической эффективности:
т— 1 1
1 '
2ti (вт-ei + A-ty
1
ш-1 1 j
U (Д + вт - 9if + (Д + вт - em-i)' где
t _ вт - От-1 + Д Vm-1+1
В частном случае наименее благоприятной конфигурации это принимает вид:
^ (v^T + 1)2
sup £{в) >-—-.
вев'А гт
Кроме того, была получена оценка в наглядной форме, показывающая поведение эффективности процедуры при большом количестве рассматриваемых популяций. Пусть дана последовательность векторов
в* = С) €=е k&t
такая, что тпк ->■ оо при к -» оо и существует константа С > 0 такая, что
<С, 1 <hj<mk. 19
Тогда
lim £{вк) >
m-> оо 2
В рамках параграфа 3.2 производится исследование асимптотической эффективности последовательной процедуры упорядочивания Бекхофера-Кифера-Собеля. Для этой процедуры верна асимптотическая (при а —> 0) формула:
mina „ Д min №+1-fr)(1 + 0(1))-
l<t<TTl—1
Применяя нижнюю границу для рассматриваемой задачи упорядочивания нормальных популяций по значениям их средних, построенную во второй главе, немедленно получаем оценку асимптотической эффективности процедуры при ni > 3:
771— 1 ,д
¿°(6>) > У^-77-ñ-TT? min (Pi+i-Oi),
или для наименее благоприятной конфигурации:
sup т > веех т
Аналогично, в параграфах 3.3 и 3.4 исследуется эффективность процедур отбора и упорядочивания для биномиальной и мультиномиальной моделей. Эти исследования осуществляются в основном численными методами.
Параграф 3.5 изучает эффективность процедур отбора для мультиномиальной модели при фиксированном ограничении на вероятность корректного отбора. Получены численные результаты об эффективности классической процедуры отбора Бекхофера-Элмаграби-Морсе, а также более эффективной последовательной процедуры отбора Бекхофера-Голдсмана.
Заключение
В диссертации выполнены следующие основные задачи: 1. Получены нижние границы для среднего объёма наблюдений в задачах отбора и упорядочивания общего вида, применимые для широкого класса проблем, распределение популяции которых удовлетворяет условию строгой монотонности различающей информации по Кульбаку-Лейблеру.
2. С помощью общих границ получены нижние границы для нескольких конкретных, наиболее часто рассматриваемых, моделей: нормальной, экспоненциальной, биномиальной, пуассоновской, мультиномиальной. Установлены их основные свойства.
3. В качестве приложения сконструированных во второй главе нижних границ, рассмотрено исследование эффективности нескольких процедур отбора и упорядочивания для различных моделей. Полученные нижние границы можно рекомендовать практикам в качества, например, критерия недостаточности для гарантийного отбора или упорядочивания объёма наблюдений, которым располагает статистик.
В перспективе могут быть решены следующие задачи:
1. Получение нижних границ для среднего объёма наблюдений в гарантийных процедурах отбора, построенных согласно подходу Гупты.
2. Построение нижних границ для задач отбора и упорядочивания в непараметрической модели.
3. Решение аналогичных задач в байесовском подходе проблемы статистического вывода.
Работа выполнена под руководством доктора физико-математических наук, профессора Игоря Николаевича Володина, которому автор выражает искреннюю благодарность.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Кареев, И.А. Нижняя граница для среднего объёма выборки и эффективность процедур отбора / И.А. Кареев // Обозрение прикладной и промышленной математики.— 2011.— Т. 18, №1.— С. 84-85.
2. Кареев, И.А. Нижняя граница для среднего объёма выборки и эффективность процедур отбора / И.А. Кареев // Итоговая научно-образовательная конференция студентов КФУ 2011.— С. 107-108.
3. Кареев, И.А. Нижние границы для среднего объёма выборки и эффективность последовательных процедур отбора / И.А. Кареев // Теория вероятностей и её применения.— 2012.— Т. 57, №2.— С. 278-295.
4. Kareev, I.A. Lower bounds for average observations number in selection and ranking of binomial and Poisson populations / I.A. Kareev // XXX International Seminar on Stability Problems for Stochastic Models and VI International Workshop ,Applied Problems in Theory of Probabilities and Mathematical Statistics Related to Modeling of Information Systems", Book of abstracts — 2012 — pp. 29-31.
5. Кареев, И.А. Нижние границы для среднего объёма наблюдений / И.А. Кареев, И.Н. Володин // Обозрение прикладной и промышленной математики,— 2013.— Т. 20, №2— С. 139.
6. Кареев, И.А. Нижние границы для среднего объёма выборки и эффективность последовательных процедур упорядочивания / И.А. Кареев // Теория вероятностей и её применения,— 2013.— Т. 58, №3.— С. 591-597.
Напечатано с готового оригинал-макета
Подписано в печать 18.03.2014 г. Формат 60x90 1/16. Усл.печ.л. 1,0. Тираж 70 экз. Заказ 040.
Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 527 к. Тел. 8(495)939-3890/91. Тел./факс 8(495)939-3891.
КАЗАНСКИЙ (ПРИВОЛЖСКИЙ) ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ
На правах рукописи
04201457754
КАРЕЕВ ИСКАНДЕР АМИРОВИЧ
НИЖНИЕ ГРАНИЦЫ ДЛЯ СРЕДНЕГО ОБЪЁМА НАБЛЮДЕНИЙ В ПРОЦЕДУРАХ ОТБОРА И
УПОРЯДОЧИВАНИЯ
Специальность 01.01.05 Теория вероятностей и математическая статистика
Диссертация на соискание учёной степени кандидата физико-математических наук
Научный руководитель: доктор физико-математических наук, профессор
Володин И.Н.
Казань - 2013
Оглавление
Введение..........................................................................4
Глава 1. Нижние границы для среднего объёма наблюдений................38
1.1 Постановка задачи ....................................................38
1.2 Процедуры отбора......................................................40
1.3 Процедуры упорядочивания..........................................51
Глава 2. Нижние границы для конкретных распределений..................58
2.1 Нормальное распределение............................................58
2.1.1 Отбор............................................................58
2.1.2 Упорядочивание................................................64
2.2 Показательное распределение........................................65
2.2.1 Отбор............................................................65
2.2.2 Упорядочивание................................................68
2.3 Биномиальное распределение ........................................71
2.3.1 Отбор............................................................71
2.3.2 Упорядочивание................................................76
2.4 Пуассоновское распределение ........................................78
2.4.1 Отбор............................................................79
2.4.2 Упорядочивание................................................84
2.5 Мультиномиальное распределение....................................85
Глава 3. Эффективность процедур отбора и упорядочивания................91
3.1 Отбор нормальной популяции........................................92
3.1.1 Процедура Бекхофера с фиксированным числом наблюдений ..............................................................92
3.1.2 Последовательная процедура Бекхофера-Кифера-Собеля . 94
3.1.3 Процедура Као-Лай............................................95
3.2 Упорядочивание нормальных популяций............................99
3.3 Отбор и упорядочивание биномиальных популяций........100
3.4 Отбор и упорядочивание пуассоновских популяций........102
3.5 Отбор при мультиномиальной модели................103
3.5.1 Процедура отбора с фиксированным числом наблюдений Бекхофера-Элмаграби-Морсе.................105
3.5.2 Последовательная процедура отбора Бекхофера-Голдсмана 107 Заключение....................................109
Введение
Актуальность темы исследования:
В теории статистических выводов существует класс особых многовыборочных проблем, при решении которых требуется выполнение заданных ограничений на вероятность корректного решения, принятого после проведения наблюдений. Одна из таких проблем - отбор „наилучшей" популяции или упорядочивание популяций в соответствии с определенным показателем их предпочтения. Естественно, для реализации этого требования необходимо предварительно, до постановки статистического эксперимента, планировать объем испытаний. В связи с этим возникает актуальная и важная в практических применениях процедур отбора и упорядочивания задача нахождения минимального (среднего) объема наблюдений, ниже которого процедур с заданной вероятностью корректного решения не существует. Решению этой задачи посвящена представляемая диссертация.
Степень разработанности:
В математической статистике существует ряд неравенств, устанавливающих нижние границы для различных характеристик процедур статистического вывода. Обзор таких границ следует начать с неравенства Рао-Крамера и его обобщения на последовательные процедуры, данные Хёфдингом [24]. Неравенство Хёфдинга. разрешённое относительно среднего объёма наблюдений, позволяет построить нижние границы для среднего объёма выборки, необходимого для несмещённого оценивания с заданными ограничениями на дисперсию. Другое, не менее известное, неравенство Вальда [33] для среднего объёма выборки при проверке гипотез легко обобщается на случай различения сложных гипотез и позволяет строить нижние границы для среднего объёма выборки, необходимого для различения двух односторонних гипотез, разделённых областью безразличия, с заданными ограничениями на вероятность ошибок первого и второго рода.
В последующем Саймоне [31] обобщил границы Вальда на случай различения более, чем двух простых гипотез. Аналог границ Саймонса для случая многовыборочных проблем приводятся в монографии [12] и приписываются к неопубликованным на тот момент результатам Хёфдинга. Использование этих границ для построения процедур различения многих простых гипотез с заданными ограничениями на все элементы матрицы ошибок дано в работах Володина [1] и [2].
Наконец, Володиным были получены универсальные нижние границы для среднего объёма наблюдений в процедурах статистического вывода (см. [3] и [6]), справедливые для любой статистической проблемы. Такие границы содержат как частный случай границы Хёфдинга, Вальда и Саймонса. Реализация этих границ для гарантийных процедур статистического вывода связана с решением достаточно сложных задач на экстремум. Решая такие задачи, Володин получил нижние границы для среднего объёма наблюдений в критериях согласия, однородности [4], инвариантности [5] и независимости. В дальнейшем Мал ютовым [10] эти границы были распространены на случай управления наблюдениями, с семейством наблюдаемых случайных величин произвольной мощности. Это позволило улучшить нижние границы Володина в проблеме проверки однородности более чем двух распределений [26], а также построил границы объёма наблюдений в задачах регрессии и планирования статистических экспериментов [10]. Указанные результаты Володина и Малютова содержатся в обзорной статье Володина [7].
Построение нижних границ для среднего объёма наблюдений в гарантийных процедурах отбора и упорядочивания было очередной задачей в рамках этих исследований. В этом направлении имелась единственная статья Новикова [11], в которой получены границы в случае отбора наилучшей нормальной популяции и исследована эффективность процедуры Бекхофера. Цель данной диссертации — дать полное решение задачи нижней оценки среднего числа наблюдений в гарантийных процедурах отбора и упорядочивания.
Проведём небольшой обзор существующих методов отбора и упорядочивания статистических популяций.
Обзор следует начать с основополагающих работ Бекхофера [13, 1954] и Гупты [22, 1956]. Суть подхода Бекхофера к построению гарантийных процедур отбора и упорядочивания заключается в введении так называемой зоны безразличия: от таких процедур требуется гарантировать заданный уровень вероятности корректного решения лишь при таких конфигурациях популяций, при которых их значения параметров находятся на достаточном расстоянии друг от друга. Это ограничение на степень близости значений параметров у разных популяций и называют зоной безразличия. Гарантия вероятности корректного отбора достигается посредством выбора требуемого числа наблюдений. Заметим, что эта работа Бекхофера представляет наиболее ранние результаты в области отбора и упорядочивания и впервые формулирует в современном виде проблему отбора и упорядочивания.
Другой подход в построении гарантийных процедур отбора, который не будет рассматриваться в диссертации, — это подход Гупты [22]. Здесь заданная вероятность корректного отбора гарантируется при любом числе наблюдений, и представляет собой вероятность отбора некоторого множества популяций, содержащего наилучшую. Согласно этому подходу, в результате применения процедуры отбора формируется некоторое „доверительное" множество, которое с заданной вероятностью накрывает наилучшую популяцию; увеличение объёма наблюдений позволяет сузить это множество, увеличивая, таким образом, точность отбора.
Задачи отбора и упорядочивания в основном рассматривались только для наиболее распространённых вероятностных моделей наблюдаемых характеристик популяций. Это нормальная модель, при которой популяции распределены согласно нормальному закону с общей известной дисперсией, а целевым неизвестным параметром является среднее. В экспоненциальной модели целевым является масштабный параметр показательного распределения. В биномиаль-
ной модели, естественно, отбирается популяция с наибольшей вероятностью успешного исхода, или популяции упорядочиваются по величине этой вероятности. Для пуассоновской модели, очевидно, целевым параметром является интенсивность пуассоновского потока. Наконец, особый случай представляет мультиномиальная модель, в которой каждая популяция соответствует некоторой компоненте мультиномиального случайного вектора, и задачей является выявление компоненты с наибольшей вероятностью успеха.
Все указанные задачи рассматриваются при различных способах введения зоны безразличия. Например, для параметра сдвига нормальной модели чаще всего рассматривается зона безразличия, основанная на разности параметров. С другой стороны, для параметров масштаба или, например, вероятности успеха в биномиальной модели зачастую используется зона безразличия, основанная на отношении значений параметров популяций.
В процедурах отбора и упорядочивания можно фиксировать объём наблюдения заранее или использовать последовательные схемы выбора с управлением обхода популяций. Обычно последовательные процедуры требуют в среднем меньшего суммарного объёма наблюдений, чем процедуры с фиксированным числом наблюдений, и в этом отношении являются более предпочтительными. Заметим, однако, что на практике процедуры с фиксированным числом наблюдений зачастую являются значительно более удобными с организационной точки зрения, что с избытком компенсирует их меньшую эффективность в отношении требуемого объёма наблюдений.
Опишем некоторые процедуры, выполняющие отбора и упорядочивания в рамках различных моделей. Первая процедура, решающая задачу отбора в случае нормальной модели, когда дисперсии популяций известны и равны, была построена Бекхофером [13]. Эта процедура требовала фиксированного числа наблюдений и по окончании эксперимента выбирала в качестве наилучшей популяцию с наибольшим значением выборочного среднего. Требуемый объём наблюдений в этой процедуре определяется на основании оценки вероятности
корректного отбора при наименее благоприятном случае, то-есть когда параметры популяций находятся настолько близко друг от друга, насколько позволяет введённая зона безразличия.
Некоторым усовершенствованием этой процедуры с фиксированным числом наблюдением стала последовательная процедура Бекхофера-Кифера-Собеля. В этой процедуре используется довольно простое управление — на каждом шаге эксперимента из каждой популяции берётся по одному наблюдению, после чего решается вопрос о продолжении эксперимента. Такого рода управление часто обозначается термином vector-at-once (вектор за раз). По окончании эксперимента в качестве наилучшей выбирается популяция с наибольшим значением выборочного среднего.
Важной положительной особенностью процедур Бекхофера с фиксированным числом наблюдений и последовательных процедур Бекхофера-Кифера-Собеля является их универсальность. Этими процедурами могут решаться как задачи отбора, так и задачи упорядочивания для широкого класса моделей популяции. В частности, они применимы ко всем рассматриваемым в данной работе моделям: нормальной, экспоненциальной, биномиальной, пуассоновской, мультиномиальной.
Вероятно, наиболее экономичной процедурой отбора нормальной популяции, с точки числа наблюдений, можно назвать последовательную процедуру Kao-Lai [25]. Она во многом схожа с последовательной процедурой Бекхофера-Кифера-Собеля, однако в ней представлен механизм раннего экранирования популяций с наименьшими значениями параметра. На первом шаге эксперимента процедура производит по одному наблюдению в каждой популяции. После этого на основании полученных данных выявляются популяции, которые с достаточно малой вероятностью являются наилучшими. Такие процедуры исключаются из дальнейшего рассмотрения. На следующем шаге процедура вновь берёт по наблюдению из каждой популяции, кроме уже исключённых. И так далее. Наконец, эксперимент заканчивается, когда в рассмотрении остаётся лишь
одна, последняя популяций, которая и объявляется наилучшей. Заметим, что наибольший выйгрыш такого экранирования достигается при сильно различающихся значениях параметров популяций. Напротив, как показывают результаты статьи, при наименее благоприятном для отбора случае, когда популяции максимально похожи, асимптотический средний объём наблюдений процедуры Као-Ьа1 оказывается на том же уровне, что и у более простой последовательной процедуры Бекхофера-Кифера-Собеля.
Ряд процедур упорядочивания по параметрам масштаба и сдвига для широкого класса распределений представлены в статьях Скафера и Рутемилле-ра [30], Бишопа и Дудовича [19]. Бейрлант, Дудевич и ван дер Меулен [18] предложили двухступенчатую процедуру упорядочивания нормальных популяций по средним значениям при неизвестных дисперсиях и привели примеры её использования на реальных данных. Проблема использования различных функций потерь в задачах упорядочивания обсуждается в статье Собела [32].
Отметим процедуру отбора биномиальной популяции, предложенную Бек-хофером и Кулкарни [14]. Эта последовательная процедура основана на принципе, схожем с выбором по последнему успеху {р1ау-Ше-штпег). В их работе было показана, что эта процедура обеспечивает не меньшую вероятность корректного успеха, чем процедура отбора с фиксированным числом наблюдений, требуя при этом меньшее число наблюдений.
Мулекар и Матежик [27] предложили процедуру отбора популяции с наименьшим средним среди пуассоновских популяций с фиксированным числом наблюдений. Для построения такой процедуры им понадобилось рассматривать зону безразличия, контролирующую как разность между параметрами популяции, так и отношение между ними. Мулекар и Матежик определили точное выражение для вероятности корректного решения при наименее благоприятном для отбора случая, на использовании которого и построен выбор объёма наблюдения в процедуре. Примеры применения этой процедуры приведены в [28]. Кроме того, Мулекар и Собэл построили аналогичную процедуру для отбора
пуассоновской популяции с наибольшим среднем [29].
Для решения задачи отбора в мультиномиальной модели, Бекхофер, Эл-маграби и Морсе [17] была предложена процедура с фиксированном числом наблюдений. Объём выборки в этой классической процедуре отбора определяется как наименьшее целое, при котором при наименее благоприятном для отбора случае ещё соблюдается ограничение на вероятность корректного отбора. По окончании наблюдений в качестве наилучшей выбирается компонента с наибольшим числом успехов.
В дальнейшем, для ещё большего повышения эффективности отбора в мультиномиальной модели Бекхофером и Голдсманом [15] была предложена последовательная процедура, являющаяся модификацией процедуры отбора Бекхофера-Кифера-Собеля [12]. В процедуре Бекхофера-Голдсманома дополнительно к оригинальному правилу остановки добавляется ограничение сверху по на объём наблюдений, по достижению которого процедура прекращает наблюдение и выносит вердикт. По определению, щ выбирается как число наблюдений, гарантирующего заданную вероятность корректного отбора. Такой простой приём позволяет существенно сократить число наблюдений. В последующей статье [16] Бекхофер и Голдсман предложили ещё более эффективную последовательную процедуру отбора.
В книгах Гиббонса, Олкина, Собеля [20] и Гупты, Панчапакесана [23] представлен обширный и детальный обзор задач отбора и упорядочивания. В них рассматриваются различные подходы к постановке и решению этих задач, производится их детальное описание и исследование, представлены наиболее значимые процедуры отбора и упорядочивания.
Цели и задачи:
Целью данной работы является построение нижних границ для среднего объёма наблюдений последовательных гарантийных процедур отбора и упорядочивания, изучение их основных свойств, а также их применение для исследования эффективности некоторых из наиболее значимых процедур отбора и
упорядочивания.
Научная новизна:
1. Впервые получены нижние границы для среднего объёма наблюдений в широком классе задач отбора и упорядочивания. Полученные результаты представляют решение нового класса статистических задач по планированию объёма испытаний.
2. Построенные границы получили применение к новому подходу в исследовании эффективности существующих процедур отбора и упорядочивания для различных моделей задач отбора и упорядочивания. Теоретическая и практическая значимость:
Практическая ценность построенных нижних границ состоит в их использовании как критерия недостаточности имеющегося у экспериментатора объёма наблю�