Некоторые задачи статистического вывода для конечных совокупностей тема автореферата и диссертации по математике, 01.01.05 ВАК РФ
Тимонина, Елена Евгеньевна
АВТОР
|
||||
кандидата физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
1984
ГОД ЗАЩИТЫ
|
|
01.01.05
КОД ВАК РФ
|
||
|
Введение.
Глава I, Точечное и интервальное оценивание для конечных совокупностей, размер которых неизвестен.
§ 1,1. Обобщенная схема выбора и достаточная статистика для нее.
§ 1.2. Оптимальное оценивание параметрических функций.
§ 1.3. Оценка максимального правдоподобия. ф - * '
§ 1.4. Линейное оценивание параметрических функций.
§ 1.5. Доверительное оценивание размера совокупности.
Глава П. Асимптотическая теория оценивания.
§ 2.1. Статистические выводы, основанные на асимптотической нормальности линейных оценок.
§ 2.2. Асимптотические статистические выводы ( продол> жение ).
§ 2.3. Асимптотически оптимальная оценка ( выбор без возвращения ).
§ 2.4. Асимптотически оптимальная оценка ( выбор с возвращением ).
§ 2.5. Эффективность оценивания размера совокупности.
Глава Ш. Некоторые специальные задачи оценивания для конечных совокупностей.
§ 3.1. Оценивание параметрических функций для конечной совокупности, состоящей из неизвестного числа классов одинакового объема.
§ 3.2. Оценивание вероятности появления нового элемента при выборе из конечной совокупности.
В ряде прикладных задач, возникающих, например, в биологии, социологии, лингвистике, и связанных с выборочным обследованием конечных совокупностей, часто имеют дело с ситуацией, когда число элементов (объем) N исследуемой совокупности ЪС является априори либо неизвестной величиной, либо о нем известно лишь, что его значение находится в некоторых заданных пределах А/± & А/* 4 /V,. В этом случае естественно возникают задачи получения тех или иных статистических выводов (построение точечных оценок, расчет доверительных интервалов, проверка статистических гипотез) относительно как самого неизвестного параметра /V , так и произвольных параметрических функций z(A/) от него, на основе имеющейся статистической информации об U . Такая информация представляет собой обычно выборку элементов из ЪС » извлеченную по некоторому заданному стохастическому закону,и, естественно, решение соответствующих задач существенно зависит от типа этого закона. Чаще всего в приложениях имеют дело со схемами повторной и бесповторной выборки с фиксированным или случайным объемом. Достаточно общая схема выбора может быть описана следующим образом: из совокупности извлекается 2, независимых выборок объемами hi* соответственно ( т = пъсмс /72/ ^ /V), каждая из которых получена по схеме простого случайного выбора без возвращения (любая из С^ возможных комбинаций элементов совокупности может быть извлечена с равной вероятностью). В дальнейшем такую схему будем для краткости обозначать символом J^ =■ Г4 (/г; гп±1.} /?г3) (здесь /г = т^ - ^/п^ - общий объем выборки) и называть обобщенной схемой выбора. Обозначим че-рез400110 элементов совокупности, каждый из которых вошел.ровно в 2 некоторых выборок, 1= .} -i , а через
••• + ~ число различных элементов совокупности в выборке.
Частным случаем схемы при • •• •smi=s±i = И> , является классическая схема простой повторной выборки объема Jb , когда каждая из /V возможных комбинаций элементов совокупности может быть извлечена с равной вероятностью N . Для этого случая можно представлять себе (и на практике это часто реализуется), что выборка формируется последовательно, в /Ъ этапов, причем на каждом этапе из совокупности с равной вероятностью и независимо от предистории может быть извлечен любой из А/ ее элементов (объем выборки может быть как фиксированным, так и случайным, определяемым некоторым правилом остановки). Далее такую схему будем обозначать кратко символом , а случайные величины, аналогичные введенным выше для схемы (ft) , обозначим Ъ = Ш • ,
Имеется большое число работ как математических, так и сугубо прикладного характера, посвященных задаче оценивания неизвестного размера конечной совокупности (их список только за последние несколько лет насчитывает несколько десятков названий), в которых рассматриваются те или иные статистические эксперименты (как укладывающиеся в описанные схемы выбора, так и весьма специфические), "высвечивающие" некоторое случайное подмножество элементов совокупности Ц, . Не претендуя на исчерпывающую полноту изложения, дадим краткий обзор соответствующих результатов, ограничившись, в основном, работами, примыкающими к тематике диссертации.
Схема Л (/А . Данная схема выбора рассматривалась в работах [2, 12, 15, 19-22, 24-26, 28-30, 33, 34 ] . В [l2, 15, 20-22, 25, 26, 28, 29, 33, 34] предполагается, что число испытаний (объем выборки) ft фиксирован, а в работах [2, 19, 24, 29, 30] рассматриваются последовательные цроцедуры, в которых КЬ является случайной величиной, определяемым некоторым правилом остановки. Б [29] предлагаются следующие планы превдащения выборочного обследования (цравила остановки).
План А. Объем выборки fb фиксирован. План В. Задано целое число "В . Момент остановки /2,-/2, определяется условием:
План С. Задано целое число С . Момент остановки /2 - /2С определяется следующим соотношением
Пе = uif{H: П-М?Ср'(л)]
План Д. Выбирается число - оа < 2) .
Момент остановки hi = fb имеет вид: ft-fa)? '((г) (Щ.
План Е. Задана последовательность чисел 4)j такая, что
1Ям, % со . Момент остановки /£=/£ определяется
J-ЪОо </ t следующим образом:
П,Е = ^[/г- п-^Щ? fa^ffay^*)
Оценка максимального правдоподобия (о.м.п.) /V -для /V , как показано в [29] , не зависит от цравила остановки и приближенно равна ь N о V И. 1 где fi^o^i^) ~ Функция обратная к (ot) ~ (V-6 Таблицы для вычисления /71 Q (^j приведены в [l2 ] .
Перечислим основные результаты, полученные при использовании указанных планов выборочного обследования.
План А. Распределение статистики ^ = в данном случае имеет вид
TN (f-x) - {N)KS(K, N)N~* к-1,2,., тн(л,А/), где S(tn, t) - числа Стирлинга 2-го рода, N(N-J}-(N~K+l)
Для такой схемы в [22] найдена о.м.п. определяемая из условия где
В [22] приведена также таблица наименьших целых, больших или равных jS± (tj , для 6=1(1)50; J = , позволяющая находить N для тех случаев, когда значение статистики ^ не превосходит 50.
В работе [2l] предлагается более простая оценка /V для N
N*~ if и показывается, что потеря эффективности при использовании N А вместо М мала.
Как показано в работах [20] и [25] , случайная величина ' является полной достаточной статистикой для параметра /V , и оптимальная, т.е. несмещенная с минимальной дисперсией, оценка N= Nдля А/ существует лишь в случае, когда ft? ^ , и имеет вид
Асимптотическое поведение данной оценки исследовано в работе(25], где показано, что при ^ с вероятностью I ьА, . у чХ и Иг*определено в (I).
Некоторые воцросы доверительного оценивания параметра А/ рассматривались в работах [26] и [33] .
Б ряде случаев требуется оценить не сам неизвестный параметр N , а некоторую параметрическую функцию . Такая задача рассматривалась в работах [15, 28, 34] . С—'
Пусть Л обозначает популяцию, состоящую из некоторого числа различных видов, pi - вероятность того, что случайно выбранный из объект принадлежит L -му виду , Х- (/г)- число объек тов L -го вида, оказавшихся в извлеченной из Jt выборке объема /2. ( i = 1, . ) , наконец,
- условная вероятность ( при заданных ) того, что в дополнительном i) -м испытании будет обнаружен новый вид ( здесь 1С-) - индикатор ). Предполагается, что как число видов, так и вероятности р±)рг). , неизвестны, и рассматривается задача предсказания ненаблюдаемой величины Ц^ на основе информации, доставляемой расширенной выборкой объема /71 ( к исходной выборке добавляются результаты d независимых испытаний ). Пусть Ji/^(h,*Ш) - число видов, каждый из которых имеет в расширенной выборке ровно К представителей, К=1,2.1. п>+т,.
В работе [28] показано, что оценка
У± ° fa {n-i)/(n+±) является "хорошим" предиктором для U~n в том смысле, что L и , ч-i n+i).
В [34] вводится класс линейных относительно (/Z+ftz), K=i,2r. .jH+tUi оценок и показывается, что в этом классе существует единственная статистика.
М, ъ-ZC (СГХм.
K=1 а среднее которой совпадает с (7^ .
Случай yb1= •• • = N 1 (здесь N - число видов) рассматривается в работе [15] , в которой строится несмещенная оценка с минимальной дисперсией (н.о.м.д.) для ?(/V)= , имеющая вид т-1 т г 1 т fJ\- У Г к Si^K't'-1) к- ш^у 2-* здесь ^ = + " полная достаточная статистика для N ).
В этой же работе исследовано асимптотическое поведение оценки VJm при ft N —^ 00, (г/N dLt O^oL^ , и показано, что с вероятностью 1 е 0 UW + (P(i)t где 7П* определено в (I).
План В. Распределение числа испытаний /£ до момента ос
23 тановки для данного плана выборочного обследования получено в работе [29] :
VN(V*) = (N\B (к-Ъ)6(к-В,K-1)N*K= Ц.B+N.
В этой же работе^исследовалось асимптотическое распределение ТЬ& и о.м.п. A/a= для N и показано, что
V-т» ЬО ' CO где FZB (ос) - функция распределения ouc -квадрат с 2В степе нягли свободы ( Y2(2£)) •
В работе [24Jпоказано, = является полной достаточной статистикой для параметра N и существует н.о.м.д, /У0= для N , которая имеет вид где и полиномы от -т? степени гв-i.
Другое выражение для получено в [21] : а в [25J исследовано асимптотическое поведение данной оценки в предположении, что /V , В - фиксировано. В этих условиях с вероятностью I
План С. Распределение числа испытаний tt до прекращения выборочного обследования в данном случае имеет вид [29] :
Мк> где - наименьшее целое, большее или равное X , и ^с(^) определяется следующим рекуррентным соотношением: к , (<(си)кУ
J'* л/
Для данного плана также существует н.о.м.д. для /V , являющаяся функцией от статистики^ * Асимпготическое распределение и о.м.п. Nc = /Ус изучены в этой же работе : ро -М у/77б; / л л V iN% J где 1- функция распределения стандартного нормального закона, = /По( С^У1) , П-с (^с СУ* И frl^ft) - определено в (I).
Планы Д и Е. При использовании плана Д, как показано в [19], для любого oLt О ^ oi< i , можно найти такое ?) , что равномерно по N
Асимптотическое распределение и о.м.п. N \Ъ tl^) для /V получено в работе [29]: 9
Я» ^jf'J^
А/-* оо V • оо ' ~ где А = е и [ - целая часть числа .
Для плана Е
V -> Оо
Сравнение планов В, С и Д с точки зрения эффективности оценивания параметра N проведено в [30].
Схема L (#). Частный случай такой схемы для двуступенчатого выбора (l= Z) , рассматривается в работах [10, 17 , 32 , 35]. О.м.п. /V = N(ji) для /V находится из соотношения [17] :
L/a т± /72: Л ± и является смещенной оценкой. В этой же работе предложено использовать оценку д) = (m±+i)(mz +i) ± Л которая, как показано в [35] , при Л/ является несмещенной. Ее смещение цри N равно
1 (N-m±)\(N-m2)\ N\(N-n,'l)\ и о при т± mz /А/
Если N , то несмещенной оценкой для дисперсии N± является статистика
Схема двуступенчатой выборки рассматривается и в работе [32], в которой предполагается, что между первым и вторым выбором возможна потеря "метки" с вероятностью & = 1~~ О , при этом каждый объект теряет свою "метку" независимо от других ( объекты, извлеченные на 1-ом этапе метятся и возвращаются в совокупность ). Обозначим tlT и ft0 /£г число элементов во второй выборке, которые сохранили и потеряли свои "метки" соответственно. Заменяя л л л в выражениях для ЛЛ и (Г М на получаем оценки N л J- J 2. Т ~Г и If соответственно. Показано, что
ENt-N+J$N t где уЗ = 6c/(l-e0).
Рассматривается также влияние потери "метки" на дисперсию Nr и обсуждается схема, когда /72, и /72 являются биномиальны
JL Л ми случайными величинами.
Б работах [13, 14, 16, 20, 24, 27, 3l] рассматривается случай 3 > 2 . Как показано в [27] , распределение статистики ^ имеет вид
Ш ') fl сщ
А Г1 isi N и н.о.м.д. для /V , являющаяся функцией от , определяется следующим образом:
1 п Л- Snr*-'* £ п с"11
В случае /2 Ъ N для /V также существует н.о.м.д., имеющая вид ас- ?дс
-2
Асимптотическое поведение ( при N ht^ /V ~ Л
COhAt) ) среднего и дисперсии о.м.п. N исследовалось в работе [20] , где показано, что
EN-N
1 2 ы N Л V
J-i V i'i m dn
-i
L П (N-m) i-1 v 1=1 / "
Несколько модифицированная схема выбора рассматривается в
3l] • Предполагается, что перед тем, как будет извлечена с -ая выборка, к совокупности добавляется Ci-L меченных объектов и ttli - на зависимые биномиальные случайные величины В L ( N + л \ d'
Pi}, c=lJ£) --t 6. Б работе строятся о.м.п. N и для /V и pi соответственно, 6 , которые являются функциями от статистики , где 1С с "" ^сло непомеченных элементов в L -ой выборке.
Последовательная процедура выбора, в которой число выборок ■6 является случайной величиной, определяемой некоторым правилом остановки, рассматривается в работах [16] и [24] . Б [24] выборочная процедура заканчивается, когда число помеченных элементов Ц- ^ (ft) в объединенной выборке станет равным L > О. Показано, что статистика ^ = ^(ft) - ft-L является достаточной для параметра N и существует н.о.м.д. NL~ для N являющаяся функцией от
СС к ы ч
4ч тагде
У, г- ,
C(tn^i-i, tnsj-i) . jfc727o- ' L^-tn^i,
П C(mem±y-i)
0 , в остальных случаях, и - наименьшее целое cj[ кое, что JEL ht^ ^ ^ +
В [16] данная процедура выбора несколько модифицирована, а именно, процедура нанесения меток производится независимо от процедуры выбора и детерминирована. Обозначим через 7} - число помеченных элементов в совокупности в момент, когда извлекается i -ая выборка ( последовательность {Т}}, С= } задана ), . Процедура заканчивается, когда будет выбрано L помеченных элементов. Для такой схемы выбора в предположении, что Л/-* 00 таким образом, что О , а 21 M,'Tit/N>0 получена ( асимптотическая ) н.о.м.д. для N :
J>1 т при этом ъш - Nz/L (здесь -6 - число выборок, извлеченных до остановки).
В работе [13] вводится модель, в которой вероятности выбора элементов различны. Множество вероятностей выбора элементов моделируется как случайная выборка из произвольного распределения вероятностей на единичном интервале. Предлагается непараметрическая оценка размера совокупности, основанная на статистике " складного ножа"; оказывается, что эта оценка является линейной комбинацией выборочных частот.
Байесовский подход к решению задачи оценивания /У рассматривается в работе [м] .
Расслоенные совокупности. Пусть элементы конечной совокупности "It разбиты по некоторому признаку на К классов (сло-/ / \ ев) /tC±).) Юк ( Ui П Uj = <р} , и Ut- =11) и при этом размеры классов A/i} .; Nк , их число, так же как и размер всей совокупности N~ - + Nк (или часть этих параметров), неизвестны и должны быть оценены по имеющейся информации об 1L.
В работе [з] рассматривается ситуация, когда размеры классов N±).} и размер совокупности N неизвестны (параметр К известен) и из совокупности извлекается простая повторная выборка объема . Пусть JJji, означает число элементов из класса , появившихся в выборке ровно ^ раз % j'ij., К, £=^-<,.,/2. Показано, что вектор ^ = ( ^ к) 9 г,це ^ " =J^i*" J^/H" J= 1 > ' > & » является полной достаточной статистикой для N = (N±iА/с) » и, основываясь на этом, строятся оптимальные 1 н.о.м.д.) оценки для параметрических функций
Если возможные значения параметра N ограничены условием N ^ ft , то оптимальные оценки существуют для произвольных функций и имеют вид: где У^-^к, (xi"" +Хк) ^(х) j Д - оператор разности: bj(X)= f(x-tl)-<f(x)) X - единичный оператор: и оператор Л/ определяется следующим образом:
Если 0 может быть любым целочисленным вектором, то оптимальные оценки могут быть построены только для функций ^(Л/)^ = f(^) N Л , где - многочлен от NK степени не выше /2, и = О . Если - такая функция, то оптимальная оценка для нее дается формулой: - 4* {(Ф*о*
В работах [l, II, 18, 23] подобная задача решается на основе простой случайной выборки без возвращения объема /г . Обозначим через JJ* - число классов, каждый из которых имеет ровно L элементов в выборке, /= О, l^ftf* /г, НЪ&Х, Nj ) , а через ^ - число различных классов в выборке, так что ^^
В работе [^рассматривается случай, когда совокупность состоит из неизвестного числа К классов одинакового объема 1 (здесь % - известное фиксированное число). Показано, что при
К для параметра К существует н.о.м.д., которая имеет вид: р- р-л.) У'* Л г' где
В [2з] рассматривается ситуация, когда известным является только объем совокупности Л/ и строятся несмещенные оценки для К и Kfy , где Kj - число классов, содержащих J элементов, j,- d.,., ^ /тиж N* . Если выполняется условие то несмещенная оценка 1< для К имеет вид:
L =1 ^ Л а несмещенные оценки Дл., sSh для К. К являются решениями
D' 'J ft, системы линейных уравнений
9 'л, fi-ZJ^b. г1 N
Наконец, в работе [ll] находятся некоторые асимтотические (при NjK-^o^, tb/M-^oC ) оценки для К и
Из приведенного обзора видно, что в литературе рассматривались в основном вопросы построения различных точечных оценок для параметра /V - неизвестного размера совокупности и сравнение эффективности этих оценок для различных схем выбора. Вопросы же оценивания произвольных параметрических функций А/) , а также вопросы доверительного оценивания и проверки гипотез исследованы в гораздо меньшей степени - здесь имеются лишь отдельные разрозненные результаты. Настоящая диссертация посвящена систематическому исследованию этих задач для схемы обобщенной Тъ (/г) и классической повторной Jl (ft) выборок.
Следует отметить также следующее обстоятельство. На практике, как правило, объем исследуемой совокупности представляет собой априори весьма болыцую величину, и потому использование точных решений для практических расчетов требует трудоемких вычислений. Чтобы облегчить практическую сторону использования соответствующих результатов, в диссертации, с одной стороны, рассчитан ряд подробных таблиц для возникающих в данной теории функций и характеристик (эти таблицы приводятся в Приложении), а с другой стороны, систематически используется асимптотический подход, предполагающий неограниченное возрастание как параметра А/ , так и объема выборки KL . 9тот подход опирается на хорошо развитую в настоящее время асимптотическую теорию задач размещения частиц по ячейкам [4-7] и позволяет получать имеющие достаточно простую форму асимптотические решения. Перейдем к изложению полученных в диссертации результатов.
Первая глава диссертации посвящена построению точечных и интервальных оценок для параметра А/ и душ произвольных функций Г (Л/) от него в схемах и Jl{/t) . Основные результаты этой главы базируются на положениях теории достаточных статистик. В § I.I доказывается, что в схеме (/г) статистика
- JU^"'- + JM^ " ^исло различных элементов совокупности в выборке, является полной достаточной статистикой для параметра N.
В § 1.2 строятся оптимальные (н.о.м.д.) оценки для произвольных параметрических функций . Доказаны следующие две теоремы.
Теорема 1.2. Если N ^ П/ , то оптимальная оценка существует для произвольной функции T(/v) и имеет вид: где lff(N)= П С™£ и А оператор разности:
- f(x). LH
Теорема 1.3. Если может быть любым натуральным числом, то оптимальная оценка существует лишь для функций r(/V) вида ?(N) = где Д/v) -многочлен степени не выше /2- , удовлетворяющий дополнительным условиям f(x) = 0J Х= Otl} hZ-l . Если r(/V) - такая функция, то оптимальная оценка для нее дается выражением = Atl/r(0)r(0)
Що)
Приведенные теоремы обобщают результат работы [27] на случай оценивания произвольных функций T(/V) • л
X = л Основываясь на распределении ^ в § 1.3 строится о.м.п. Н для N . Эта оценка определяется при ? Ш из соотношения 4 где функция Дя ( А/] определяется следующим образом: о N-Hl; +1 } 7 j N-K+i при N^ К и (к-1, К)=0 , а цри = т, оценка А/= /71.
Этот результат обобщает результат работы [22] на случай более общей выборочной схемы.
В § 1.4 вводится класс £ линейных относительно^^ ^^ оценок и доказывается, что в нем существует единственная несмещенная оценка для Т(А/) - N 1 , которая имеет вид: где a(fii)= 21 т. иг;.
Случай подвыборок равных объемов ( = • • • = tit^ = Юъ ) рассматривается в теореме 1.6.
Теорема 1.6. Несмещенная оценка- для f(A/) в классе I существует лишь в с^чае, когда Г (А/)
- полином от N степени К ^ . В этом случае, если 22, Ci- /V f то единственной несмещенной оценкой для T(/V) является статистика
Г - 7
В частности, в классе cL существует единственная несмещенная оценка для р = — У(?) кп/4) JzJ г
Аналогичный результат для схемы Л (ft) формулируется следующим образом: единственной несмещенной оценкой для функции T(N)= ^ = оС в классе £ линейных относительно > J^'ti оценок является статистика fv i
Методика построения доверительного интервала для /V в схеме с одинаковыми объемами подвыборок: УП^ ■■ ■ =/?£=/?£ описана в § 1.5.
Асимптотическая теория оценивания, предполагающая неограниченное возрастание как объема N совокупности, так и объема /7, выборки, развивается в главе П.
В § 2.1 предполагается, что в схеме Т^ (/г) frl = ■■■ = = ftij N00 таким образом, что р =■ Нг/Ы£ Lр1} P^lj О ^ р± <pz < 1 , где р± и рг - заданные фиксированные числа ( - фиксировано ). В этом случае статистика асимптотически нормальна (р} } =
При этом сходимость к предельному закону равномерна по параметру р •
Пусть - непрерывно дифференцируемая функция, удовлетворяющая условию: Ъ(/э)ф О , fDG(0,£) . Справедлива
Теорема 2.3. В указанных асимптотических предположениях статистика ^{p^j является состоятельной равномерно асимптотически нормальной iaTZft^ [?'(р)]//7г{5)^ощккож да ; более того случайная величина fn6)<
Г6о) и асимптотически нормальна улГ{0} Is) и сходимость к предельному закону равномерна по параметру р>6 [р1} р^ ~\ , а интервал t
ZP, Ш где » является асимптотическим доверительным интервалом для с доверительным уровнем i ~ ^
В § 2.1 рассматриваются также задачи проверки гипотез о значении параметра р . Так с ?(Р°)1 Jm&T^i I r 1 zPo Ц задает критическую область уровня значимости ff для проверки простой гипотезы р~ро ' а ta/O- {пкучьуъЩ^} и щв t*(р)-(еь(±+тр))(Щ1-vp)
- 1фитическую область уровня значимости £" для проверки сложной гипотезы
Р е ^ pi j X 0< Pz< ^ • Критерий (£>Х) ^является асимптотически несмещенным и выписывается вид его мощности для близких альтернатив порядка
Аналогичные задачи для схемы рассматриваются в §
2.2. Предполагается, что /2, /V —^ с>о таким образом, что oL= jj € ^2.1 j 0<ct±< otz< со фиксированные числа. В о»/ —j/ . j этом случае статистика cL^ ~ /2 (Is)асимптотически нормальна при этом сходимость к предельному закону равномерна по параметру cL . Пусть oi)
- непрерывно-дифференцируемая функция и тогда в сделанных асимптотических предположениях справедлива
Теорема 2.6. Статистика является состоятельной асимптотически нормальной оценкой для ТР~(оС) . Более того, случайная величина
ТГ7 Vff) zK ГЩ асимптотически нормальна jf(o, 1) , и асимптотическим (V-^)
- доверительным интервалом для l/f(oC) является интервал - 4 YK) Г л П
Так же, как и в § 2.1, рассматриваются задачи проверки гипотез относительно значений параметра cL
Задача построения асимптотически оптимальной оценки для параметра уЪ в схеме Т^ ('/г) с одинаковыми объемами подвыборок УП рассматривается в § 2.3. Оценка является единственной состоятельной оценкой для yb в классе L^ [С^ = ft? 2L. ] . Выделим в классе Ле подкласс Z ^ LQ статистик с монотонной (noyb) функцией = ft 1 ^f(X) , где X - биномиальная случайная величина с параметрами 3 и ft и ^'(ft) * ^
Ojl). Рассмотрим класс статистик ЖГ - ^ = Ol* tf^ € J ^ Д; £ ) , тогда произвольная статистика из класса асимптотически нормальна при этом и равенство достигается тогда и только тогда, когда
4 оптимальная оценка для параметра /э , кото* - с м. ^ (<-fl/t>. oj б остальных случаях .
Справедлива
Теорема 2.8. Б классе ЦТС^ существует и притом единственная асимптотически рая имеет вид ^ э
Используя этот результат, далее решаются задачи интервального оценивания параметра р , а также проверки гипотез о значении р .
Аналогичные результаты для^схемы 1 получены в § 2.4. Пусть L± С {^/2, ~ ^ /^l/4'J -подкласс статистик с монотонной (по оС ) функцией пуассоновская случайная величина с параметром cL, №> ^ ®> О, ьо^ . Рассмотрим класс статистик : 4,' е } ( • Доказана
Теорема 2.II. В классе Wt существует и притом единственная асимптотически оптимальная оценка параметра cL . Эта оценка порождается функцией ^ (х) = 1 при X^ljZ,. } и имеет вид TnJ-^'ri1) , где определено в (I).
Асимптотическим (V-j") - доверительным интервалом для Л является интервал .—j где <e(oL)- d3 (e^l-oLff
В этом параграфе решаются также задачи проверки статистических гипотез о значении параметра oL на основе асмиптотичесн» * ки оптимальной оценки
Сравнению схем ^(ft) и 11 (ft) с точки зрения эффективности оценивания параметра N посвящен § 2.5.^В качестве соответствующих оценок рассматриваются статистики ^г ~ ^ Ifim, (схема (ft) с подвыборками одинакового объема /71 ) и Hj = /2'/cL^ (схема' с 71 = ^171 ). Показано, что при (основной случай в приложениях) оценка /Vj асимптотически более эффективная, чем /V^. , но при /г>/У/2 всегда можно указать значение 3 , при котором более эффективной является оценка АЛ- . Аналогичное сравнение схем выбо
• / ра проводится, когда в качестве оценок для N рассматриваются статистики А/х= > где - асимптотически оптимальная оценка для Jb - 171 / N в схеме -Z"3 (/г) и - /z/j-^,
- асимптотически оптимальная оценка для cL~ fi/N в схеме —(ft) .
В главе Ш рассматриваются некоторые специальные задачи оценивания для конечных совокупностей.
§ 3.1 посвящен решению некоторых задач оценивания для конечной совокупности, состоящей из неизвестного числа А/ классов, каждый из которых включает в себя элементов (параметр £ известен). Из совокупности извлекается выборка по схеме и пусть JU^ обозначает число классов, каждый из которых имеет ровно ^ представителей в объединенной выборке, ^'Q^J tJ^j а J^i* ' число различных классов в выборке.
Доказывается, что ^ является полной достаточной статистикой для параметра N и ее распределение имеет вид: ft}, ' где П CJ.
Аналогично тому, как это было сделано в § 1.2, строятся оптимальные оценки для произвольных параметрических функций Т^Л/). Справедливы следующие две теоремы.
Теорема 3.2. Если N^ tb # то оптимальная оценка существует для произвольной функции ?(Л/) и имеет вид f л х
Теорема 3.2 обобщает результат работы [18] на случай более общей выборочной схемы и оценивание произвольной функции Т (Л/).
Теорема 3.3. Если N ^тр/* ) может быть любым натуральным числом, то оптимальная оценка существует лишь для "V(/V) вида (/V), где ^(/V) - многочлен степени не выше tl , удовлетворяющий условиям £фс) - О при - . Если ^(А/) - такая функция, то оптимальная оценка для нее дается выражением
А?Гг(0)
Оценка максимального правдоподобия /V для параметра N при ^ > находится из условия где функция (ц Mj t) определяется следующим образом:
-s г , w foi-<j\ / ьм zz(* ^У* • если N? К и (К-1, К, г)= О . если же ^ = (т/г> , то /V = ^m/t> .
Во втором параграфе главы Ш рассматривается следующая задача. Из конечной совокупности, размер которой /V неизвестен, извлекается выборка объема ft, по схеме . Пусть Э^т
9К (N) = (V- fy * обозначает вероятность появления нового элемента в К -ом испытании, K^ltZ,. .Поскольку N неизвестно, то 9^ (Л/) является функцией от неизвестного параметра и, следовательно, возникает задача получения для нее тех или иных статистических оценок. Применяя результаты главы I, доказаны следующие теоремы: / !ъ
Теорема 3.5. Единственной в классе с£= ft г №} несмещенной оценкой для ' 9^ (W) при Z,.fa является статистика п-Ш А». 4
Если же К>!Ъ , то по такой информации величину ^(^несмещенным образом оценить невозможно.
Теорема 3.6. Несмещенной оценкой с минимальной дисперсией для 9К (N) при fb является статистика к-к где $ (fa, fib} - числа Стирлинга 2-го * рода.
Б предположении, что fl, N таким образом, что oL= Lol±)ol^J (Xd^dL^o*; К 4/1-1, где ot1 и cLz - известные фиксированные константы, изучается асимптотическое поведение полученных оценок. Показано, что а что для оценки 9К справедливо асимптотическое представление
4= л более того, закон распределения Эк асимптотически нормален аГ( е* . В этих же условиях для оптимальной оценки 9^ справедливо представление где Нго (^/к) и /n/fa) - определено в (I), и статистика 9к распределена асимптотически по закону г( . ос е \
Проведено также сравнение эффективностей рассмотренных в данном параграфе оценок.
В Приложении приведены таблицы, позволяющие рассчитывать некоторые оценки, приведенные в диссертации, а также таблицы значений доверительного интервала для
N .
Работа выполнена на кафедре теории вероятностей и математической статистики Московского института электронного машиностроения. Основные результаты опубликованы в [36 - 42] .
1. Ивченко Г.И. Левин Б.В. Асимптотическая нормальность в схеме выбора без возвращения. - Теория вероятн. и ее примен., 1978, Х Ш , i^. I, 97-108.
2. Ивченко Г.И., Медведев Ю.И. Асимптотические представления конечных разностей от степенной функции в произвольной точке. - Теория вероятн. и ее примен., 1965, X, В I, I5I-I56.
3. КолчинВ.Ф., Севастьянов Б,А., Чистяков В.П. Случайные размещения. - М.: Наука, 1976, 223 с.
4. Медведев Ю.й. Разделимые статистики в полиномиальной схеме.I,- Теория вероятн. и ее примен., 1977, Х Ш , J^ I, 3-17.
5. Рао С Р . Линейные статистические методы и их применения. - М.: Наука, 1968, 547 с.
6. Риордан М» Введение в комбинаторный анализ. - М.: ИЛ, 1963, 287 с.
7. Феллер В. Введение в теорию вероятностей и ее приложения. - М.: Мир, 1967, т. I, 498 с.
10. ЫшоеЯ^ (/.Mj /Ысй^?). ^ Яой он. еа/^йт-гесс^ - 107
12. Ыег Ir.A.F Jki ши£-А:-^шгг/^ u/^ ^ухса^/Ыте cm- - 108 -
14. Ивченко Г.И., Тшлонина Е.Е. Об оценивании при выборе из конечной совокупности. - Матем. заметки, 1980, т. 28, J^ 4, 623-633.
15. Ивченко Г.Й., Тимонина Е.Е. О некоторых задачах оценивания # для выборок из конечной сово1^лности. - Изв. АН УзССР, сер. физ.-мат. наук, I98I, Ъ. 4, 27-33,
16. Ивченко Г.И., Тимонина Е.Е. Об оптимальном оценивании для конечной совокупности, размер которой неизвестен. - Матем. заметки, 1982, т. 34, Л 4, 633-640.
17. Ивченко Г.И., Тимонияа Е.Е. Об оценивании размера конечной сово107пности. - Теория вероятн. и ее цримен., 1982, ХХУП, Ш 2, 380-383.
18. Тимонина Е..Е. Оценивание, параметрических функций, для конел- ttavL совокупности,, состоящей из неизвестного числа классов одинакового объема. - М.:: МИЭМ,. 1983, 12 с*. (Рук. деп в ВШИТИ 13.12.83 .й 6740-83 Деп.). - по -