Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Оценивание, проверка статистических гипотез. Методические указания.
I. Из генеральной совокупности X сделана выборка объема n = 200. Требуется на основании этой выборки сделать аргументированное заключение о законе распределения генеральной совокупности и её основных числовых характеристиках. Для этого необходимо: а) найти статистический ряд с числом интервалов, равным, например, 12; б) построить гистограмму; в) найти статистическую функцию распределения и построить ее график; г) найти точечные оценки математического ожидания и дисперсии; д) найти доверительный интервал для математического ожидания с заданной надёжностью (доверительной вероятностью); е) на основании критерия согласия (Пирсона) проверить гипотезу о нормальном законе распределения генеральной совокупности. II. По данным таблицы - группированной выборки двумерного вектора (X, Y), требуется найти выборочное уравнение прямой – линии линейной регрессии Y на X. Каждому студенту преподаватель выдает для обработки выборку объема n = 200 из таблицы нормально распределенных случайных чисел и группированную выборку двумерного вектора в виде таблицы. Рассмотрим каждый этап выполнения работы. 1. Составление статистического ряда, гистограммы и нахождение точечных оценок математического ожидания и дисперсии. В заданной выборке находим наименьший а и наибольший b элементы. Частное округляем до десятых, и полученное число берем в качестве шага разбиения h. Вводим отрезок , длина которого 12 h, причем числа и подобраны так, чтобы ; и, кроме того, чтобы и имели не более двух знаков после запятой для простоты дальнейших вычислений. Отрезок разбиваем точкам , x 1, x 2, …, x 12 = , на 12 равных частичных интервалов затем определяем частоты ni, то есть число элементов выборки, попавших в каждый из частичных интервалов Δ i и относительные частоты , i= 1, …, 12. Примечание. Если некоторые элементы выборки не попали на отрезок , то их условимся относить к ближайшему крайнему интервалу. Числа, совпадающие с границами частичных интервалов, условимся относить к левому интервалу. В качестве членов статистического ряда берем числа, являющиеся серединами частичных интервалов: Результаты оформляются в виде таблицы (табл. 1). Таблица 1
Пример. Пусть нам дана следующая выборка
Составляем статистический ряд с 12 интервалами. Наименьший элемент выборки a = -3, 760, наибольший b = 1, 654. Частное = = 0, 451. Округляя, получаем h= 0, 5. 12 h= 12 . 0, 5 = 6. Поэтому удобно взять Составляем табл.2.
Построим гистограмму (рис. 1). Гистограмма представляет собой ступенчатую фигуру, составленную из прямоугольников, основания которых - частичные интервалыΔ i = ; расположенные на оси абсцисс, высоты пропорциональны, а площади равны соответствующим частотам (см. пособие с. 122-126). В нашем примере все эти данные берем из таблицы 2. Гистограмма Рис. 1
Далее строим эмпирическую функцию распределения (см. пособие с. 86-89). Она имеет вид где - число элементов выборки, меньших х; здесь х - любое вещественное число. График эмпирической функции распределения представ-ляет собой ступенчатую линию, определенную на всей числовой оси (рис.2). Значения этой функции заключены в промежутке [0, 1]. Из таблицы 2 находим
Отсюда график эмпирической функции распределения имеет вид
График эмпирической функции распределения рис.2 Замечание. Для наглядности, при построении гистограммы и эмпирической функции распределения масштаб по оси абсцисс и оси ординат может быть выбран различным. Найдем точечные оценки математического ожидания и дисперсии. В качест-ве таких оценок выбирают среднее выборочное значение и выбо-рочную дисперсию , где (см. пособие с.96-99). Результаты заносим в таблицу вида 3. Таблица 3
Таблица 3 строится по данным табл.2, затем вычисляются и S 2. В нашем примере результаты приведены в табл.4, после ее создания найдены и S 2.
2. Построение доверительного интервала. Интервал называется доверительным интервалом для неизвестного параметра θ, если, с заданной доверительной вероятностью g (надежностью) можно утверждать, что неизвестный параметр находится внутри этого интервала (накрывается интервалом). В данной работе будем искать доверительный интервал для математического ожидания m с заданной доверительной вероят-ностью g = 0, 95 (см. пособие с. 108-109). Ввиду большого объема выборки доверительный интервал имеет вид . Параметр t определяется из равенства , где , . Замечание. Для определения t при использовании функции Лапласа будем иметь следующее уравнение . Таблица 4
= 0, 052; S 2 = = 0, 942 - 0, 003 = 0, 939 Округляя полученные результаты, принимаем = 0, 05; S 2 = 0, 94. Для рассматриваемого примера будем иметь при g = 0, 95, 0, 975, откуда t =1, 95, поэтому в нашем примере имеем , Таким образом, доверительный интервал для математического ожидания имеет вид .
3. Проверка статистических гипотез. Проверим гипотезу о том, что генеральная совокупность, из которой произ-ведена выборка, имеет нормальный закон распределения (такое предположение может быть сделано по виду гистограммы). Применим критерий согласия (Пирсона). Так как математическое ожидание m и дисперсия генеральной совокупности нам неизвестны, то вместо них возьмем ихвыборочные характеристики: выборочное среднее и выборочную дисперсию S 2. Проверка гипотезы сводится к следующему алгоритму. Объединим в один интервал интервалы с малыми частотами так, чтобы в каждом из интервалов было не менее 6-8 элементов выборки. Обозначим полученное число интервалов буквой k ( ). Вычислим статистику , где n i - число элементов выборки в каждом из k интервалов; pi – теоретичес-кая вероятность попадания случайной величины в i -й интервал, которая опре-деляется по формуле где вместо m берем , а вместо = S 2, т. е. . Устанавливаем число степеней свободы r, которое для нормального закона вычисляем по формуле r = k- 3. Назначаем уровень значимости = 0, 05. Для заданного уровня значимости р и найденного числа степеней свободы r по таблицам -распределения Пирсона находим значение и сравниваем между собой это значение и вычисленное значение статистики . Если окажется, что < , то гипотеза о нормальном распределении не отвергается, то есть экспериментальные данные не противоречат гипотезе о нормальном распределении генеральной совокупности (см. пособие с. 126-129).
Замечание. При вычислении теоретических вероятностей крайние интервалы и заменяются интервалами и . Применим критерий к рассматриваемому примеру при уровне значимости p = 0, 05. Результаты вычислений помещены в таблице 5. Из этой таблицы имеем = 209, 16; = 209, 16 - 200 = 9, 16. По таблице -распределения находим: = 11, 07. Так как полученное нами значение = 9, 16 < 11, 07, то ги-потеза о нормальном распределении генеральной совокупности не отвергается. Тема 2
|