Некоторые задачи статистического вывода для конечных совокупностей тема автореферата и диссертации по математике, 01.01.05 ВАК РФ

Тимонина, Елена Евгеньевна АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
1984 ГОД ЗАЩИТЫ
   
01.01.05 КОД ВАК РФ
Диссертация по математике на тему «Некоторые задачи статистического вывода для конечных совокупностей»
 
 
Содержание диссертации автор исследовательской работы: кандидата физико-математических наук, Тимонина, Елена Евгеньевна

Введение.

Глава I, Точечное и интервальное оценивание для конечных совокупностей, размер которых неизвестен.

§ 1,1. Обобщенная схема выбора и достаточная статистика для нее.

§ 1.2. Оптимальное оценивание параметрических функций.

§ 1.3. Оценка максимального правдоподобия. ф - * '

§ 1.4. Линейное оценивание параметрических функций.

§ 1.5. Доверительное оценивание размера совокупности.

Глава П. Асимптотическая теория оценивания.

§ 2.1. Статистические выводы, основанные на асимптотической нормальности линейных оценок.

§ 2.2. Асимптотические статистические выводы ( продол> жение ).

§ 2.3. Асимптотически оптимальная оценка ( выбор без возвращения ).

§ 2.4. Асимптотически оптимальная оценка ( выбор с возвращением ).

§ 2.5. Эффективность оценивания размера совокупности.

Глава Ш. Некоторые специальные задачи оценивания для конечных совокупностей.

§ 3.1. Оценивание параметрических функций для конечной совокупности, состоящей из неизвестного числа классов одинакового объема.

§ 3.2. Оценивание вероятности появления нового элемента при выборе из конечной совокупности.

 
Введение диссертация по математике, на тему "Некоторые задачи статистического вывода для конечных совокупностей"

В ряде прикладных задач, возникающих, например, в биологии, социологии, лингвистике, и связанных с выборочным обследованием конечных совокупностей, часто имеют дело с ситуацией, когда число элементов (объем) N исследуемой совокупности ЪС является априори либо неизвестной величиной, либо о нем известно лишь, что его значение находится в некоторых заданных пределах А/± & А/* 4 /V,. В этом случае естественно возникают задачи получения тех или иных статистических выводов (построение точечных оценок, расчет доверительных интервалов, проверка статистических гипотез) относительно как самого неизвестного параметра /V , так и произвольных параметрических функций z(A/) от него, на основе имеющейся статистической информации об U . Такая информация представляет собой обычно выборку элементов из ЪС » извлеченную по некоторому заданному стохастическому закону,и, естественно, решение соответствующих задач существенно зависит от типа этого закона. Чаще всего в приложениях имеют дело со схемами повторной и бесповторной выборки с фиксированным или случайным объемом. Достаточно общая схема выбора может быть описана следующим образом: из совокупности извлекается 2, независимых выборок объемами hi* соответственно ( т = пъсмс /72/ ^ /V), каждая из которых получена по схеме простого случайного выбора без возвращения (любая из С^ возможных комбинаций элементов совокупности может быть извлечена с равной вероятностью). В дальнейшем такую схему будем для краткости обозначать символом J^ =■ Г4 (/г; гп±1.} /?г3) (здесь /г = т^ - ^/п^ - общий объем выборки) и называть обобщенной схемой выбора. Обозначим че-рез400110 элементов совокупности, каждый из которых вошел.ровно в 2 некоторых выборок, 1= .} -i , а через

••• + ~ число различных элементов совокупности в выборке.

Частным случаем схемы при • •• •smi=s±i = И> , является классическая схема простой повторной выборки объема Jb , когда каждая из /V возможных комбинаций элементов совокупности может быть извлечена с равной вероятностью N . Для этого случая можно представлять себе (и на практике это часто реализуется), что выборка формируется последовательно, в /Ъ этапов, причем на каждом этапе из совокупности с равной вероятностью и независимо от предистории может быть извлечен любой из А/ ее элементов (объем выборки может быть как фиксированным, так и случайным, определяемым некоторым правилом остановки). Далее такую схему будем обозначать кратко символом , а случайные величины, аналогичные введенным выше для схемы (ft) , обозначим Ъ = Ш • ,

Имеется большое число работ как математических, так и сугубо прикладного характера, посвященных задаче оценивания неизвестного размера конечной совокупности (их список только за последние несколько лет насчитывает несколько десятков названий), в которых рассматриваются те или иные статистические эксперименты (как укладывающиеся в описанные схемы выбора, так и весьма специфические), "высвечивающие" некоторое случайное подмножество элементов совокупности Ц, . Не претендуя на исчерпывающую полноту изложения, дадим краткий обзор соответствующих результатов, ограничившись, в основном, работами, примыкающими к тематике диссертации.

Схема Л (/А . Данная схема выбора рассматривалась в работах [2, 12, 15, 19-22, 24-26, 28-30, 33, 34 ] . В [l2, 15, 20-22, 25, 26, 28, 29, 33, 34] предполагается, что число испытаний (объем выборки) ft фиксирован, а в работах [2, 19, 24, 29, 30] рассматриваются последовательные цроцедуры, в которых КЬ является случайной величиной, определяемым некоторым правилом остановки. Б [29] предлагаются следующие планы превдащения выборочного обследования (цравила остановки).

План А. Объем выборки fb фиксирован. План В. Задано целое число "В . Момент остановки /2,-/2, определяется условием:

План С. Задано целое число С . Момент остановки /2 - /2С определяется следующим соотношением

Пе = uif{H: П-М?Ср'(л)]

План Д. Выбирается число - оа < 2) .

Момент остановки hi = fb имеет вид: ft-fa)? '((г) (Щ.

План Е. Задана последовательность чисел 4)j такая, что

1Ям, % со . Момент остановки /£=/£ определяется

J-ЪОо </ t следующим образом:

П,Е = ^[/г- п-^Щ? fa^ffay^*)

Оценка максимального правдоподобия (о.м.п.) /V -для /V , как показано в [29] , не зависит от цравила остановки и приближенно равна ь N о V И. 1 где fi^o^i^) ~ Функция обратная к (ot) ~ (V-6 Таблицы для вычисления /71 Q (^j приведены в [l2 ] .

Перечислим основные результаты, полученные при использовании указанных планов выборочного обследования.

План А. Распределение статистики ^ = в данном случае имеет вид

TN (f-x) - {N)KS(K, N)N~* к-1,2,., тн(л,А/), где S(tn, t) - числа Стирлинга 2-го рода, N(N-J}-(N~K+l)

Для такой схемы в [22] найдена о.м.п. определяемая из условия где

В [22] приведена также таблица наименьших целых, больших или равных jS± (tj , для 6=1(1)50; J = , позволяющая находить N для тех случаев, когда значение статистики ^ не превосходит 50.

В работе [2l] предлагается более простая оценка /V для N

N*~ if и показывается, что потеря эффективности при использовании N А вместо М мала.

Как показано в работах [20] и [25] , случайная величина ' является полной достаточной статистикой для параметра /V , и оптимальная, т.е. несмещенная с минимальной дисперсией, оценка N= Nдля А/ существует лишь в случае, когда ft? ^ , и имеет вид

Асимптотическое поведение данной оценки исследовано в работе(25], где показано, что при ^ с вероятностью I ьА, . у чХ и Иг*определено в (I).

Некоторые воцросы доверительного оценивания параметра А/ рассматривались в работах [26] и [33] .

Б ряде случаев требуется оценить не сам неизвестный параметр N , а некоторую параметрическую функцию . Такая задача рассматривалась в работах [15, 28, 34] . С—'

Пусть Л обозначает популяцию, состоящую из некоторого числа различных видов, pi - вероятность того, что случайно выбранный из объект принадлежит L -му виду , Х- (/г)- число объек тов L -го вида, оказавшихся в извлеченной из Jt выборке объема /2. ( i = 1, . ) , наконец,

- условная вероятность ( при заданных ) того, что в дополнительном i) -м испытании будет обнаружен новый вид ( здесь 1С-) - индикатор ). Предполагается, что как число видов, так и вероятности р±)рг). , неизвестны, и рассматривается задача предсказания ненаблюдаемой величины Ц^ на основе информации, доставляемой расширенной выборкой объема /71 ( к исходной выборке добавляются результаты d независимых испытаний ). Пусть Ji/^(h,*Ш) - число видов, каждый из которых имеет в расширенной выборке ровно К представителей, К=1,2.1. п>+т,.

В работе [28] показано, что оценка

У± ° fa {n-i)/(n+±) является "хорошим" предиктором для U~n в том смысле, что L и , ч-i n+i).

В [34] вводится класс линейных относительно (/Z+ftz), K=i,2r. .jH+tUi оценок и показывается, что в этом классе существует единственная статистика.

М, ъ-ZC (СГХм.

K=1 а среднее которой совпадает с (7^ .

Случай yb1= •• • = N 1 (здесь N - число видов) рассматривается в работе [15] , в которой строится несмещенная оценка с минимальной дисперсией (н.о.м.д.) для ?(/V)= , имеющая вид т-1 т г 1 т fJ\- У Г к Si^K't'-1) к- ш^у 2-* здесь ^ = + " полная достаточная статистика для N ).

В этой же работе исследовано асимптотическое поведение оценки VJm при ft N —^ 00, (г/N dLt O^oL^ , и показано, что с вероятностью 1 е 0 UW + (P(i)t где 7П* определено в (I).

План В. Распределение числа испытаний /£ до момента ос

23 тановки для данного плана выборочного обследования получено в работе [29] :

VN(V*) = (N\B (к-Ъ)6(к-В,K-1)N*K= Ц.B+N.

В этой же работе^исследовалось асимптотическое распределение ТЬ& и о.м.п. A/a= для N и показано, что

V-т» ЬО ' CO где FZB (ос) - функция распределения ouc -квадрат с 2В степе нягли свободы ( Y2(2£)) •

В работе [24Jпоказано, = является полной достаточной статистикой для параметра N и существует н.о.м.д, /У0= для N , которая имеет вид где и полиномы от -т? степени гв-i.

Другое выражение для получено в [21] : а в [25J исследовано асимптотическое поведение данной оценки в предположении, что /V , В - фиксировано. В этих условиях с вероятностью I

План С. Распределение числа испытаний tt до прекращения выборочного обследования в данном случае имеет вид [29] :

Мк> где - наименьшее целое, большее или равное X , и ^с(^) определяется следующим рекуррентным соотношением: к , (<(си)кУ

J'* л/

Для данного плана также существует н.о.м.д. для /V , являющаяся функцией от статистики^ * Асимпготическое распределение и о.м.п. Nc = /Ус изучены в этой же работе : ро -М у/77б; / л л V iN% J где 1- функция распределения стандартного нормального закона, = /По( С^У1) , П-с (^с СУ* И frl^ft) - определено в (I).

Планы Д и Е. При использовании плана Д, как показано в [19], для любого oLt О ^ oi< i , можно найти такое ?) , что равномерно по N

Асимптотическое распределение и о.м.п. N \Ъ tl^) для /V получено в работе [29]: 9

Я» ^jf'J^

А/-* оо V • оо ' ~ где А = е и [ - целая часть числа .

Для плана Е

V -> Оо

Сравнение планов В, С и Д с точки зрения эффективности оценивания параметра N проведено в [30].

Схема L (#). Частный случай такой схемы для двуступенчатого выбора (l= Z) , рассматривается в работах [10, 17 , 32 , 35]. О.м.п. /V = N(ji) для /V находится из соотношения [17] :

L/a т± /72: Л ± и является смещенной оценкой. В этой же работе предложено использовать оценку д) = (m±+i)(mz +i) ± Л которая, как показано в [35] , при Л/ является несмещенной. Ее смещение цри N равно

1 (N-m±)\(N-m2)\ N\(N-n,'l)\ и о при т± mz /А/

Если N , то несмещенной оценкой для дисперсии N± является статистика

Схема двуступенчатой выборки рассматривается и в работе [32], в которой предполагается, что между первым и вторым выбором возможна потеря "метки" с вероятностью & = 1~~ О , при этом каждый объект теряет свою "метку" независимо от других ( объекты, извлеченные на 1-ом этапе метятся и возвращаются в совокупность ). Обозначим tlT и ft0 /£г число элементов во второй выборке, которые сохранили и потеряли свои "метки" соответственно. Заменяя л л л в выражениях для ЛЛ и (Г М на получаем оценки N л J- J 2. Т ~Г и If соответственно. Показано, что

ENt-N+J$N t где уЗ = 6c/(l-e0).

Рассматривается также влияние потери "метки" на дисперсию Nr и обсуждается схема, когда /72, и /72 являются биномиальны

JL Л ми случайными величинами.

Б работах [13, 14, 16, 20, 24, 27, 3l] рассматривается случай 3 > 2 . Как показано в [27] , распределение статистики ^ имеет вид

Ш ') fl сщ

А Г1 isi N и н.о.м.д. для /V , являющаяся функцией от , определяется следующим образом:

1 п Л- Snr*-'* £ п с"11

В случае /2 Ъ N для /V также существует н.о.м.д., имеющая вид ас- ?дс

-2

Асимптотическое поведение ( при N ht^ /V ~ Л

COhAt) ) среднего и дисперсии о.м.п. N исследовалось в работе [20] , где показано, что

EN-N

1 2 ы N Л V

J-i V i'i m dn

-i

L П (N-m) i-1 v 1=1 / "

Несколько модифицированная схема выбора рассматривается в

3l] • Предполагается, что перед тем, как будет извлечена с -ая выборка, к совокупности добавляется Ci-L меченных объектов и ttli - на зависимые биномиальные случайные величины В L ( N + л \ d'

Pi}, c=lJ£) --t 6. Б работе строятся о.м.п. N и для /V и pi соответственно, 6 , которые являются функциями от статистики , где 1С с "" ^сло непомеченных элементов в L -ой выборке.

Последовательная процедура выбора, в которой число выборок ■6 является случайной величиной, определяемой некоторым правилом остановки, рассматривается в работах [16] и [24] . Б [24] выборочная процедура заканчивается, когда число помеченных элементов Ц- ^ (ft) в объединенной выборке станет равным L > О. Показано, что статистика ^ = ^(ft) - ft-L является достаточной для параметра N и существует н.о.м.д. NL~ для N являющаяся функцией от

СС к ы ч

4ч тагде

У, г- ,

C(tn^i-i, tnsj-i) . jfc727o- ' L^-tn^i,

П C(mem±y-i)

0 , в остальных случаях, и - наименьшее целое cj[ кое, что JEL ht^ ^ ^ +

В [16] данная процедура выбора несколько модифицирована, а именно, процедура нанесения меток производится независимо от процедуры выбора и детерминирована. Обозначим через 7} - число помеченных элементов в совокупности в момент, когда извлекается i -ая выборка ( последовательность {Т}}, С= } задана ), . Процедура заканчивается, когда будет выбрано L помеченных элементов. Для такой схемы выбора в предположении, что Л/-* 00 таким образом, что О , а 21 M,'Tit/N>0 получена ( асимптотическая ) н.о.м.д. для N :

J>1 т при этом ъш - Nz/L (здесь -6 - число выборок, извлеченных до остановки).

В работе [13] вводится модель, в которой вероятности выбора элементов различны. Множество вероятностей выбора элементов моделируется как случайная выборка из произвольного распределения вероятностей на единичном интервале. Предлагается непараметрическая оценка размера совокупности, основанная на статистике " складного ножа"; оказывается, что эта оценка является линейной комбинацией выборочных частот.

Байесовский подход к решению задачи оценивания /У рассматривается в работе [м] .

Расслоенные совокупности. Пусть элементы конечной совокупности "It разбиты по некоторому признаку на К классов (сло-/ / \ ев) /tC±).) Юк ( Ui П Uj = <р} , и Ut- =11) и при этом размеры классов A/i} .; Nк , их число, так же как и размер всей совокупности N~ - + Nк (или часть этих параметров), неизвестны и должны быть оценены по имеющейся информации об 1L.

В работе [з] рассматривается ситуация, когда размеры классов N±).} и размер совокупности N неизвестны (параметр К известен) и из совокупности извлекается простая повторная выборка объема . Пусть JJji, означает число элементов из класса , появившихся в выборке ровно ^ раз % j'ij., К, £=^-<,.,/2. Показано, что вектор ^ = ( ^ к) 9 г,це ^ " =J^i*" J^/H" J= 1 > ' > & » является полной достаточной статистикой для N = (N±iА/с) » и, основываясь на этом, строятся оптимальные 1 н.о.м.д.) оценки для параметрических функций

Если возможные значения параметра N ограничены условием N ^ ft , то оптимальные оценки существуют для произвольных функций и имеют вид: где У^-^к, (xi"" +Хк) ^(х) j Д - оператор разности: bj(X)= f(x-tl)-<f(x)) X - единичный оператор: и оператор Л/ определяется следующим образом:

Если 0 может быть любым целочисленным вектором, то оптимальные оценки могут быть построены только для функций ^(Л/)^ = f(^) N Л , где - многочлен от NK степени не выше /2, и = О . Если - такая функция, то оптимальная оценка для нее дается формулой: - 4* {(Ф*о*

В работах [l, II, 18, 23] подобная задача решается на основе простой случайной выборки без возвращения объема /г . Обозначим через JJ* - число классов, каждый из которых имеет ровно L элементов в выборке, /= О, l^ftf* /г, НЪ&Х, Nj ) , а через ^ - число различных классов в выборке, так что ^^

В работе [^рассматривается случай, когда совокупность состоит из неизвестного числа К классов одинакового объема 1 (здесь % - известное фиксированное число). Показано, что при

К для параметра К существует н.о.м.д., которая имеет вид: р- р-л.) У'* Л г' где

В [2з] рассматривается ситуация, когда известным является только объем совокупности Л/ и строятся несмещенные оценки для К и Kfy , где Kj - число классов, содержащих J элементов, j,- d.,., ^ /тиж N* . Если выполняется условие то несмещенная оценка 1< для К имеет вид:

L =1 ^ Л а несмещенные оценки Дл., sSh для К. К являются решениями

D' 'J ft, системы линейных уравнений

9 'л, fi-ZJ^b. г1 N

Наконец, в работе [ll] находятся некоторые асимтотические (при NjK-^o^, tb/M-^oC ) оценки для К и

Из приведенного обзора видно, что в литературе рассматривались в основном вопросы построения различных точечных оценок для параметра /V - неизвестного размера совокупности и сравнение эффективности этих оценок для различных схем выбора. Вопросы же оценивания произвольных параметрических функций А/) , а также вопросы доверительного оценивания и проверки гипотез исследованы в гораздо меньшей степени - здесь имеются лишь отдельные разрозненные результаты. Настоящая диссертация посвящена систематическому исследованию этих задач для схемы обобщенной Тъ (/г) и классической повторной Jl (ft) выборок.

Следует отметить также следующее обстоятельство. На практике, как правило, объем исследуемой совокупности представляет собой априори весьма болыцую величину, и потому использование точных решений для практических расчетов требует трудоемких вычислений. Чтобы облегчить практическую сторону использования соответствующих результатов, в диссертации, с одной стороны, рассчитан ряд подробных таблиц для возникающих в данной теории функций и характеристик (эти таблицы приводятся в Приложении), а с другой стороны, систематически используется асимптотический подход, предполагающий неограниченное возрастание как параметра А/ , так и объема выборки KL . 9тот подход опирается на хорошо развитую в настоящее время асимптотическую теорию задач размещения частиц по ячейкам [4-7] и позволяет получать имеющие достаточно простую форму асимптотические решения. Перейдем к изложению полученных в диссертации результатов.

Первая глава диссертации посвящена построению точечных и интервальных оценок для параметра А/ и душ произвольных функций Г (Л/) от него в схемах и Jl{/t) . Основные результаты этой главы базируются на положениях теории достаточных статистик. В § I.I доказывается, что в схеме (/г) статистика

- JU^"'- + JM^ " ^исло различных элементов совокупности в выборке, является полной достаточной статистикой для параметра N.

В § 1.2 строятся оптимальные (н.о.м.д.) оценки для произвольных параметрических функций . Доказаны следующие две теоремы.

Теорема 1.2. Если N ^ П/ , то оптимальная оценка существует для произвольной функции T(/v) и имеет вид: где lff(N)= П С™£ и А оператор разности:

- f(x). LH

Теорема 1.3. Если может быть любым натуральным числом, то оптимальная оценка существует лишь для функций r(/V) вида ?(N) = где Д/v) -многочлен степени не выше /2- , удовлетворяющий дополнительным условиям f(x) = 0J Х= Otl} hZ-l . Если r(/V) - такая функция, то оптимальная оценка для нее дается выражением = Atl/r(0)r(0)

Що)

Приведенные теоремы обобщают результат работы [27] на случай оценивания произвольных функций T(/V) • л

X = л Основываясь на распределении ^ в § 1.3 строится о.м.п. Н для N . Эта оценка определяется при ? Ш из соотношения 4 где функция Дя ( А/] определяется следующим образом: о N-Hl; +1 } 7 j N-K+i при N^ К и (к-1, К)=0 , а цри = т, оценка А/= /71.

Этот результат обобщает результат работы [22] на случай более общей выборочной схемы.

В § 1.4 вводится класс £ линейных относительно^^ ^^ оценок и доказывается, что в нем существует единственная несмещенная оценка для Т(А/) - N 1 , которая имеет вид: где a(fii)= 21 т. иг;.

Случай подвыборок равных объемов ( = • • • = tit^ = Юъ ) рассматривается в теореме 1.6.

Теорема 1.6. Несмещенная оценка- для f(A/) в классе I существует лишь в с^чае, когда Г (А/)

- полином от N степени К ^ . В этом случае, если 22, Ci- /V f то единственной несмещенной оценкой для T(/V) является статистика

Г - 7

В частности, в классе cL существует единственная несмещенная оценка для р = — У(?) кп/4) JzJ г

Аналогичный результат для схемы Л (ft) формулируется следующим образом: единственной несмещенной оценкой для функции T(N)= ^ = оС в классе £ линейных относительно > J^'ti оценок является статистика fv i

Методика построения доверительного интервала для /V в схеме с одинаковыми объемами подвыборок: УП^ ■■ ■ =/?£=/?£ описана в § 1.5.

Асимптотическая теория оценивания, предполагающая неограниченное возрастание как объема N совокупности, так и объема /7, выборки, развивается в главе П.

В § 2.1 предполагается, что в схеме Т^ (/г) frl = ■■■ = = ftij N00 таким образом, что р =■ Нг/Ы£ Lр1} P^lj О ^ р± <pz < 1 , где р± и рг - заданные фиксированные числа ( - фиксировано ). В этом случае статистика асимптотически нормальна (р} } =

При этом сходимость к предельному закону равномерна по параметру р •

Пусть - непрерывно дифференцируемая функция, удовлетворяющая условию: Ъ(/э)ф О , fDG(0,£) . Справедлива

Теорема 2.3. В указанных асимптотических предположениях статистика ^{p^j является состоятельной равномерно асимптотически нормальной iaTZft^ [?'(р)]//7г{5)^ощккож да ; более того случайная величина fn6)<

Г6о) и асимптотически нормальна улГ{0} Is) и сходимость к предельному закону равномерна по параметру р>6 [р1} р^ ~\ , а интервал t

ZP, Ш где » является асимптотическим доверительным интервалом для с доверительным уровнем i ~ ^

В § 2.1 рассматриваются также задачи проверки гипотез о значении параметра р . Так с ?(Р°)1 Jm&T^i I r 1 zPo Ц задает критическую область уровня значимости ff для проверки простой гипотезы р~ро ' а ta/O- {пкучьуъЩ^} и щв t*(р)-(еь(±+тр))(Щ1-vp)

- 1фитическую область уровня значимости £" для проверки сложной гипотезы

Р е ^ pi j X 0< Pz< ^ • Критерий (£>Х) ^является асимптотически несмещенным и выписывается вид его мощности для близких альтернатив порядка

Аналогичные задачи для схемы рассматриваются в §

2.2. Предполагается, что /2, /V —^ с>о таким образом, что oL= jj € ^2.1 j 0<ct±< otz< со фиксированные числа. В о»/ —j/ . j этом случае статистика cL^ ~ /2 (Is)асимптотически нормальна при этом сходимость к предельному закону равномерна по параметру cL . Пусть oi)

- непрерывно-дифференцируемая функция и тогда в сделанных асимптотических предположениях справедлива

Теорема 2.6. Статистика является состоятельной асимптотически нормальной оценкой для ТР~(оС) . Более того, случайная величина

ТГ7 Vff) zK ГЩ асимптотически нормальна jf(o, 1) , и асимптотическим (V-^)

- доверительным интервалом для l/f(oC) является интервал - 4 YK) Г л П

Так же, как и в § 2.1, рассматриваются задачи проверки гипотез относительно значений параметра cL

Задача построения асимптотически оптимальной оценки для параметра уЪ в схеме Т^ ('/г) с одинаковыми объемами подвыборок УП рассматривается в § 2.3. Оценка является единственной состоятельной оценкой для yb в классе L^ [С^ = ft? 2L. ] . Выделим в классе Ле подкласс Z ^ LQ статистик с монотонной (noyb) функцией = ft 1 ^f(X) , где X - биномиальная случайная величина с параметрами 3 и ft и ^'(ft) * ^

Ojl). Рассмотрим класс статистик ЖГ - ^ = Ol* tf^ € J ^ Д; £ ) , тогда произвольная статистика из класса асимптотически нормальна при этом и равенство достигается тогда и только тогда, когда

4 оптимальная оценка для параметра /э , кото* - с м. ^ (<-fl/t>. oj б остальных случаях .

Справедлива

Теорема 2.8. Б классе ЦТС^ существует и притом единственная асимптотически рая имеет вид ^ э

Используя этот результат, далее решаются задачи интервального оценивания параметра р , а также проверки гипотез о значении р .

Аналогичные результаты для^схемы 1 получены в § 2.4. Пусть L± С {^/2, ~ ^ /^l/4'J -подкласс статистик с монотонной (по оС ) функцией пуассоновская случайная величина с параметром cL, №> ^ ®> О, ьо^ . Рассмотрим класс статистик : 4,' е } ( • Доказана

Теорема 2.II. В классе Wt существует и притом единственная асимптотически оптимальная оценка параметра cL . Эта оценка порождается функцией ^ (х) = 1 при X^ljZ,. } и имеет вид TnJ-^'ri1) , где определено в (I).

Асимптотическим (V-j") - доверительным интервалом для Л является интервал .—j где <e(oL)- d3 (e^l-oLff

В этом параграфе решаются также задачи проверки статистических гипотез о значении параметра oL на основе асмиптотичесн» * ки оптимальной оценки

Сравнению схем ^(ft) и 11 (ft) с точки зрения эффективности оценивания параметра N посвящен § 2.5.^В качестве соответствующих оценок рассматриваются статистики ^г ~ ^ Ifim, (схема (ft) с подвыборками одинакового объема /71 ) и Hj = /2'/cL^ (схема' с 71 = ^171 ). Показано, что при (основной случай в приложениях) оценка /Vj асимптотически более эффективная, чем /V^. , но при /г>/У/2 всегда можно указать значение 3 , при котором более эффективной является оценка АЛ- . Аналогичное сравнение схем выбо

• / ра проводится, когда в качестве оценок для N рассматриваются статистики А/х= > где - асимптотически оптимальная оценка для Jb - 171 / N в схеме -Z"3 (/г) и - /z/j-^,

- асимптотически оптимальная оценка для cL~ fi/N в схеме —(ft) .

В главе Ш рассматриваются некоторые специальные задачи оценивания для конечных совокупностей.

§ 3.1 посвящен решению некоторых задач оценивания для конечной совокупности, состоящей из неизвестного числа А/ классов, каждый из которых включает в себя элементов (параметр £ известен). Из совокупности извлекается выборка по схеме и пусть JU^ обозначает число классов, каждый из которых имеет ровно ^ представителей в объединенной выборке, ^'Q^J tJ^j а J^i* ' число различных классов в выборке.

Доказывается, что ^ является полной достаточной статистикой для параметра N и ее распределение имеет вид: ft}, ' где П CJ.

Аналогично тому, как это было сделано в § 1.2, строятся оптимальные оценки для произвольных параметрических функций Т^Л/). Справедливы следующие две теоремы.

Теорема 3.2. Если N^ tb # то оптимальная оценка существует для произвольной функции ?(Л/) и имеет вид f л х

Теорема 3.2 обобщает результат работы [18] на случай более общей выборочной схемы и оценивание произвольной функции Т (Л/).

Теорема 3.3. Если N ^тр/* ) может быть любым натуральным числом, то оптимальная оценка существует лишь для "V(/V) вида (/V), где ^(/V) - многочлен степени не выше tl , удовлетворяющий условиям £фс) - О при - . Если ^(А/) - такая функция, то оптимальная оценка для нее дается выражением

А?Гг(0)

Оценка максимального правдоподобия /V для параметра N при ^ > находится из условия где функция (ц Mj t) определяется следующим образом:

-s г , w foi-<j\ / ьм zz(* ^У* • если N? К и (К-1, К, г)= О . если же ^ = (т/г> , то /V = ^m/t> .

Во втором параграфе главы Ш рассматривается следующая задача. Из конечной совокупности, размер которой /V неизвестен, извлекается выборка объема ft, по схеме . Пусть Э^т

9К (N) = (V- fy * обозначает вероятность появления нового элемента в К -ом испытании, K^ltZ,. .Поскольку N неизвестно, то 9^ (Л/) является функцией от неизвестного параметра и, следовательно, возникает задача получения для нее тех или иных статистических оценок. Применяя результаты главы I, доказаны следующие теоремы: / !ъ

Теорема 3.5. Единственной в классе с£= ft г №} несмещенной оценкой для ' 9^ (W) при Z,.fa является статистика п-Ш А». 4

Если же К>!Ъ , то по такой информации величину ^(^несмещенным образом оценить невозможно.

Теорема 3.6. Несмещенной оценкой с минимальной дисперсией для 9К (N) при fb является статистика к-к где $ (fa, fib} - числа Стирлинга 2-го * рода.

Б предположении, что fl, N таким образом, что oL= Lol±)ol^J (Xd^dL^o*; К 4/1-1, где ot1 и cLz - известные фиксированные константы, изучается асимптотическое поведение полученных оценок. Показано, что а что для оценки 9К справедливо асимптотическое представление

4= л более того, закон распределения Эк асимптотически нормален аГ( е* . В этих же условиях для оптимальной оценки 9^ справедливо представление где Нго (^/к) и /n/fa) - определено в (I), и статистика 9к распределена асимптотически по закону г( . ос е \

Проведено также сравнение эффективностей рассмотренных в данном параграфе оценок.

В Приложении приведены таблицы, позволяющие рассчитывать некоторые оценки, приведенные в диссертации, а также таблицы значений доверительного интервала для

N .

Работа выполнена на кафедре теории вероятностей и математической статистики Московского института электронного машиностроения. Основные результаты опубликованы в [36 - 42] .

 
Список источников диссертации и автореферата по математике, кандидата физико-математических наук, Тимонина, Елена Евгеньевна, Москва

1. Ивченко Г.И. Левин Б.В. Асимптотическая нормальность в схеме выбора без возвращения. - Теория вероятн. и ее примен., 1978, Х Ш , i^. I, 97-108.

2. Ивченко Г.И., Медведев Ю.И. Асимптотические представления конечных разностей от степенной функции в произвольной точке. - Теория вероятн. и ее примен., 1965, X, В I, I5I-I56.

3. КолчинВ.Ф., Севастьянов Б,А., Чистяков В.П. Случайные размещения. - М.: Наука, 1976, 223 с.

4. Медведев Ю.й. Разделимые статистики в полиномиальной схеме.I,- Теория вероятн. и ее примен., 1977, Х Ш , J^ I, 3-17.

5. Рао С Р . Линейные статистические методы и их применения. - М.: Наука, 1968, 547 с.

6. Риордан М» Введение в комбинаторный анализ. - М.: ИЛ, 1963, 287 с.

7. Феллер В. Введение в теорию вероятностей и ее приложения. - М.: Мир, 1967, т. I, 498 с.

10. ЫшоеЯ^ (/.Mj /Ысй^?). ^ Яой он. еа/^йт-гесс^ - 107

12. Ыег Ir.A.F Jki ши£-А:-^шгг/^ u/^ ^ухса^/Ыте cm- - 108 -

14. Ивченко Г.И., Тшлонина Е.Е. Об оценивании при выборе из конечной совокупности. - Матем. заметки, 1980, т. 28, J^ 4, 623-633.

15. Ивченко Г.Й., Тимонина Е.Е. О некоторых задачах оценивания # для выборок из конечной сово1^лности. - Изв. АН УзССР, сер. физ.-мат. наук, I98I, Ъ. 4, 27-33,

16. Ивченко Г.И., Тимонина Е.Е. Об оптимальном оценивании для конечной совокупности, размер которой неизвестен. - Матем. заметки, 1982, т. 34, Л 4, 633-640.

17. Ивченко Г.И., Тимонияа Е.Е. Об оценивании размера конечной сово107пности. - Теория вероятн. и ее цримен., 1982, ХХУП, Ш 2, 380-383.

18. Тимонина Е..Е. Оценивание, параметрических функций, для конел- ttavL совокупности,, состоящей из неизвестного числа классов одинакового объема. - М.:: МИЭМ,. 1983, 12 с*. (Рук. деп в ВШИТИ 13.12.83 .й 6740-83 Деп.). - по -