Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Оценивание для дискретных данных






Л. 10, 11

1. Оценивание неизвестной вероятности. Применим изложенныепринципы к основной задаче статистики – оцениванию неизвестной вероятности произвольного случайного события. Ранее уже отмечалось, что для оценивания вероятности = интересующего нас случайного события A используется, так называемое, статистическое (т. е. по результатам эксперимента) определение вероятности. Для этого проводится (в неизменных условиях) какое-то число n независимыхопытов, в каждом из которых событие A может наступить или не наступить, подсчитывается число опытов nA, в которых осуществилось событие A, и в качестве приближённого значения (оценки) для вероятности = принимается частота осуществления события A в этих опытах:

 

(1)

 

Методы математической статистики позволяют строго обосновать этот, выражаемый соотношением (1), фундаментальный принцип.

Математической моделью описанного процесса получения информации является известная нам схема Бернулли, в которой «успехом» является наступление события A, а величина nA есть число «успехов» в n испытаниях, которое обычно обозначается символом Мы знаем, что случайная величина имеет биномиальное распределение и Кроме того, эта величина может быть представлена в виде суммы независимых и одинаково распределённых слагаемых (см. примеры 3.4 и 3.9). Этих теоретических сведений уже достаточно для обоснования принципа (1).

1) Несмещённые оценки с минимальной дисперсией (н.о.м.д.). Прежде всего, представим исходную информацию в стандартной форме, как это изложено в предыдущем разделе. В нашем случае исходные данные есть выборка , где (см. пример 3.4) = 1, если в i -ом испытании происходит «успех», и 0 – в противном случае. Очевидно, что эти случайные величины имеют плотность (далее неизвестный параметр обозначается стандартным символом ) следовательно, функция правдоподобия выборки (данных) есть

 

По критериию факторизации отсюда следует, что статистика является достаточной. Проверим её полноту.

Так как величина имеет биномиальное распределение то

условие (для любого ) записывается в данном случае в виде

или

Отсюда следует, что все коэффициенты данного многочлена равны нулю, т. е. , . Следовательно, полная достаточная статистика. Тем самым всякая функция от является оптимальной оценкой своего среднего. В частности, поскольку то . Следовательно, статистика (см (1)) является оптимальной (н.о.м.д.) оценкой для неизвестной вероятности «успеха» в схеме Бернулли.

Более того, так как (см. пример 4.2), то статистика является оптимальной оценкой для степени при любом . Одновременно отсюда следует и такой вывод: для более высоких степеней

, , не существует несмещенных оценок (по выборке объема ). Наконец, если – многочлен степени , то оптимальной (н.о.м.д.)оценкой для него является статистика

Например, теоретическую дисперсию распределения оптимально оценивает статистика

2) Состоятельность оценок. Дисперсия оценки равна

следовательно, оценка состоятельна: . Более того, аналогичное утверждение справедливо и для любой непрерывной функции от неё: если – непрерывная функция, то Этот вывод является следствием следующей общей теоремы о сходимости функций от случайных величин.

Теорема. Пусть случайные величины сходятся по вероятности при к некоторым постоянным соответственно. Тогда для любой непрерывной функции случайная величина

Таким образом, если несмещённые оценки в рассматриваемой модели можно строить лишь для многочленов от степени не выше , то состоятельные оценки можно просто строить для весьма широкого класса функций .

2) Интервальное оценивание. Любая точечная оценка, как функция

выборки , является случайной величиной, и при каждой реализации выборки эта функция определяет единственное значение оценки, принимаемое за приближенное значение оцениваемой характеристики. При этом надо принимать во внимание, что в каждом конкретном случае значение оценки может отличаться от значения параметра, поэтому желательно было бы знать и возможную погрешность, возникающую при использовании предлагаемой оценки, например, указывая такой интервал, внутри которого с высокой вероятностью находится точное значение оцениваемого параметра. При таком подходе говорят об интервальном или доверительном оценивании, а соответствующий интервал называют доверительным интервалом.

Итак, при интервальном оценивании ищут две такие статистики и , , для которых при заданном выполняется условие

В этом случае интервал называют - доверительным интервалом (для ), а число - доверительным уровнем или доверительной вероятностью. Таким образом, -доверительный интервал – это случайный интервал в параметрическом множестве : , зависящий от выборки, который содержит (накрывает) истинное значение неизвестного параметра с вероятностью, не меньшей .

В задаче оценивания параметра биномиального распределения -доверительный интервал есть , где и определяются уравнениями

Доверительные интервалы рассчитаны для широкого диапазона значений (см. Л. Н. Большев, Н. В. Смирнов. Таблицы математической статистики. М., 1983).

Если число наблюдений велико, то для быстрого нахождения приближенного доверительного интервала для можно воспользоваться асимптотической теорией. В рассматриваемом случае по теореме Муавра-Лапласа распределение статистики асимптотически нормально с параметрами Поэтому можно записать следующую цепочку соотношений:

Разрешая неравенство , или эквивалентное ему неравенство , относительно и пренебрегая при этом членами порядка , получим, что заключено в пределах

– асимптотический -доверительный интервал для . Отметим, что этот интервал симмметричен относительно случайной точки и имеет длину порядка , т. е. это узкий при больших значениях интервал.

Замечание. Рассмотрим описанную во введении ситуацию с оцениванием неизвестной доли белых шаров в урне. Если выбор шаров производится по схеме случайного выбора с возвращением, то математической моделью такого процесса является схема Бернулли, полный анализ которой проведён выше. Рассмотрим теперь, для сравнения, схему случайного выбора без возвращения. В этом случае число X наблюдавшихся в выборке белых шаров, как мы знаем, имеет гипергеометрическое распределение, и (см. пример 3.5) её математическое ожидание есть Следовательно, статистика является несмещённой оценкой для . Убедимся в её состоятельности. Дисперсия величины X указана в разделе 3.3, её можно записать в виде Отсюда , и, следовательно, оценка также состоятельна. Подчеркнём, что дисперсия этой оценки оказалась меньше дисперсии аналогичной оценки того же параметра для схемы выбора с возвращением. Отсюда следует вывод, что в рассматриваемой проблеме оценивания неизвестной доли белых шаров в урне выбор без возвращения является более эффективным способом получения исходной информации, нежели выбор с возвращением.

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.009 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал