Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Порядок выполнения лабораторной работы. Лабораторная работа выполнена по данным нулевого варианта с помощь пакетов Statistica, Excel.
Лабораторная работа выполнена по данным нулевого варианта с помощь пакетов Statistica, Excel. 1) Проверка гипотезы о нормальном законе распределения каждой компоненты вектора Так как параметры нормального закона распределения не известны и объем выборки большой (n =50), то для проверки нормального закона распределения случайных величин , , можно воспользоваться критерием c 2–Пирсона. Для реализации критерия c 2–Пирсона с помощью пакета Statistica необходимо после ввода данных выбрать пункт меню «Statistics», подпункт «Distribution Fitting» (рисунок 2.17).
Рисунок 2.17 – Пункты меню для проверки гипотезы о законе распределения
На появившейся форме (рисунок 2.18) выбрать нормальный закон распределения (Normal) и нажать кнопку «ОК».
Рисунок 2.18 – Форма выбора вида закона распределения
Далее с помощью кнопки «Variables» поочередно (сначала Х1) выбрать признак для анализа и нажать кнопку «ОК» (рисунок 2.19).
Рисунок 2.19 – Форма выбора признака для анализа
Выбрать страницу «Parameters» и в поле «Number of categories» установить наиболее подходящее число интервалов (для объема выборки 50 единиц по формуле Стерджесса получаем ) (рисунок 2.20).
Рисунок 2.20 – Выбор числа интервалов
Далее выбрать страницу «Quick» и нажать кнопку «Plot of observed and expected distribution» (рисунок 2.21).
Рисунок 2.21 – Страница «Quick»
Результаты проверки гипотезы , , о нормальном законе распределения случайной величины представлены на рисунке 2.22.
Рисунок 2.22 – Результаты проверки гипотезы о нормальном законе распределения случайной величины
На рисунке представлена гистограмма частот выборочного распределения, график гипотетического закона распределения (кривая). Вверху графика представлено наблюдаемое значение статистики (Chi-Square test=2, 47), число степеней свободы (df=1) и наблюдаемый уровень значимости нулевой гипотезы (р =0, 1162). Так как p > , то нулевая гипотеза о нормальном законе распределения признака принимается. Аналогичные результаты получены для признаков и (рисунки 2.23–2.24).
Рисунок 2.23 – Результаты проверки гипотезы о нормальном законе распределения случайной величины
Рисунок 2.24 – Результаты проверки гипотезы о нормальном законе распределения случайной величины
Так как наблюдаемые уровни значимости во втором и третьем случаях также больше , то нулевые гипотезы о нормальном законе распределения случайных величин и также принимаются. Таким образом, необходимое условие многомерного нормального закона распределения выполнено. 2) Построение корреляционного поля и проверка гипотезы о линейной регрессионной зависимости признаков Графики корреляционного поля для каждой пары признаков, построенные в пакете Excel, представлены на рисунках 2.25-2.27.
Рисунок 2.25 – Корреляционное поле для первого и второго признаков
Рисунок 2.26 – Корреляционное поле для первого и третьего признаков Рисунок 2.27 – Корреляционное поле для второго и третьего признаков
Во всех трех случаях «облако» точек имеет вытянутую форму. Наиболее ярко линейная зависимость проявляется для первого и второго признаков. Проверим гипотезу о линейной регрессионной зависимости каждой пары признаков с помощью статистики , распределенной при справедливости выдвинутого предположения по закону Фишера с числом степеней свободы , , где – оценка корреляционного отношения признаков, – оценка коэффициента детерминации, n – объем выборки, m – число групп (интервалов) признака, выступающего в качестве результативного. Как известно, в двумерном случае коэффициент детерминации равен квадрату коэффициента корреляции признаков. Рассчитать выборочные значения коэффициентов корреляции для каждой пары признаков можно с помощью пакета Statistica, выбрав пункты меню «Statistics», «Basic Statistics/Tables» (рисунок 2.28).
Рисунок 2.28 – Пункты меню для расчета выборочных значений коэффициентов корреляции
В появившейся на экране форме (рисунок 2.29) необходимо выбрать пункт «Correlation matrices» и нажать кнопку «ОК».
Рисунок 2.29 – Форма «Basic Statistics/Tables»
Далее на форме, представленной на рисунке 2.30, нажать кнопку «One variable list» для отбора признаков для анализа.
Рисунок 2.30 – Форма расчета коэффициентов корреляции Для расчета коэффициентов корреляции между каждой парой признаков в окне, представленном на рисунке 2.31, необходимо указать первые три признака и нажать кнопку «ОК».
Рисунок 2.31 – Окно выбора признаков для расчета коэффициентов корреляции
Затем в форме, представленной на рисунке 2.30, нажать кнопку «Summary: Correlations». Результаты расчета корреляционной матрицы представлены на рисунке 2.32.
Рисунок 2.32 – Результаты расчета корреляционной матрицы
Таким образом, выборочные значения коэффициентов детерминации составили:
, , .
Для вычисления выборочных значений корреляционных отношений необходимо на основе интервальных вариационных радов каждого из признаков составить корреляционные таблицы. Интервальные вариационные ряды можно построить на основе рисунков 2.22-2.24. Корреляционная таблица для первого и второго признаков имеет вид:
Выборочное значение корреляционного отношения на рассчитывается по формуле [44]:
,
где – выборочное значение дисперсии ; – выборочное значение факторной дисперсии; – среднее арифметическое значение ; – среднее значение при условии, что значения принадлежат i -му интервалу; m – число интервалов в интервальном вариационном ряду . Значения и можно взять из результатов расчета корреляционной матрицы (рисунок 2.328): , . Условные средние значения составляют: , , , , , , . Тогда , . Аналогичным образом рассчитаны выборочные значения , . Результаты проверки гипотез о линейной регрессионной зависимости признаков представлены в таблице 2.1.
Таблица 2.1 – Результаты проверки гипотезы о линейной регрессионной зависимости признаков
Критическое значение статистики во всех трех случаях составляет . Таким образом, можно сделать вывод в пользу линейной регрессионной связи каждой пары случайных величин вектора . 3) Реализация статистических критериев проверки многомерного нормального закона распределения Для реализации критерия асимметрии Мардиа, критерия эксцесса Мардиа и критерия Хенце-Цирклера воспользуемся надстройкой AtteStat пакета Excel. Для запуска модуля проверки нормального закона распределения необходимо выбрать пункты меню «AtteStat», «Модуль NDC – Проверка нормальности», «Проверка нормальности» (рисунок 2.33). В появившейся форме, представленной на рисунке 2.34, указать «Интервал выборки», «Интервал вывода», выбрать критерии, используемые в многомерном случае, и нажать кнопку «Выполнить расчет». Результаты реализации критериев Мардиа и Хенце-Цирклера представлены на рисунке 2.35.
Рисунок 2.33 – Запуск модуля проверки нормального закона распределения в пакете Excel
Рисунок 2.34 – Форма проверки нормального закона распределения
Рисунок 2.35 – Результаты проверки многомерного нормального закона распределения
Результаты реализации критерия асимметрии Мардиа, критерия эксцесса Мардиа и критерия Хенце-Цирклера подтверждают гипотезу о нормальном законе распределения случайного вектора . Таким образом, все полученные результаты указывают на то, что случайный вектор распределен по нормальному закону.
Вопросы к защите лабораторной работы
1. Дайте определение непараметрических статистических гипотез и опишите алгоритм их проверки 2. Охарактеризуйте критерии согласия Колмогорова-Смирнова, Мизеса (), -Пирсона 3. В чем состоит необходимое условие многомерного нормального закона распределения и как его проверить на практике? 4. Что такое корреляционное поле признаков и для чего оно строится? 5. Что характеризуют коэффициент детерминации и квадрат корреляционного отношения? 6. Опишите алгоритм расчета выборочного значения корреляционного отношения в двумерном случае 7. Опишите алгоритм проверки гипотезы о линейной зависимости двух признаков 8. Какие существуют статистические критерии проверки многомерного нормального закона распределения? 9. Какие результаты обычно выдаются в статистических пакетах при проверке статистических гипотез и каким образом на основе них сформулировать вывод относительно ?
3 Корреляционный анализ компонент многомерного случайного вектора признаков 3.1 Корреляционный анализ количественных признаков Корреляционный анализ – это совокупность методов оценки корреляционных характеристик и проверки статистических гипотез о них по выборочным данным, извлеченным из многомерной нормально распределенной генеральной совокупности с плотностью распределения , для которой, как известно, функция регрессии является линейной. К основным задачам корреляционного анализа относятся: 1. оценивание параметров распределения генеральной совокупности и основных числовых характеристик связи, рассмотренных в теории корреляции; 2. проверка статистических гипотез о значимости связи. Дополнительной задачей корреляционного анализа является оценка уравнения регрессии, где в качестве результативного выбирается признак, являющихся следствием других признаков (факторов). Постановка задачи многомерного корреляционного анализа состоит в следующем: на основе выборочных данных объемом n, извлеченных из k -мерной нормально распределенной генеральной совокупности и представленных в виде матрицы X типа «объект-свойство», проанализировать связь между компонентами случайного вектора . Рассмотрим основные этапы корреляционного анализа [12, 25]. 1) Оценивание параметров распределения генеральной совокупности. Так как случайный вектор распределен по нормальному закону (), то необходимо оценить вектор математических ожиданий и ковариационную матрицу . Вопросы оценивания параметров нормально распределенной генеральной совокупности были рассмотрены в параграфе 2.1. Далее в корреляционном анализе рассчитываются апостериорные оценки количественных характеристик связи, описанных в параграфе 1.4, посвященном теории корреляции. Априорные оценки будут использоваться в основном при решении задач интервального оценивания и проверки статистических гипотез о значимости связи. Записывать априорные оценки будем также как и во второй главе в виде функции от случайной выборки . 2) Расчет оценки корреляционной матрицы Апостериорную оценку корреляционной матрицы будем обозначать :
,
где выборочное значение коэффициента корреляции между i -ым и j -ым признаками рассчитывается по формуле , , . Для расчета в матричном виде вводится в рассмотрение матрица центрировано-нормированных значений исходных признаков , где , , . Тогда апостериорная оценка корреляционной матрицы рассчитывается следующим образом:
. (3.1) Зная оценку ковариационной матрицы , оценку корреляционной матрицы можно рассчитать, разделив последовательно элементы i -ой строки и i -го столбца матрицы на , . Или в матричном виде:
.
После нахождения оценки корреляционной матрицы, расчет оценок остальных характеристик связи будет осуществляться по тем же формулам, что и в теории корреляции, с одним лишь различием: вместо корреляционной матрицы R будет использоваться её оценка . 3) Расчет оценок частных коэффициентов корреляции Апостериорная оценка частного коэффициента корреляции между i -ым и j -ым признаками, очищенного от влияния остальных (k -2)-х компонент вектора , обозначается и рассчитывается по формуле:
, (3.2)
где - алгебраическое дополнение к элементу с индексами (s, p) матрицы . 4) Проверка значимости коэффициентов корреляции и частных коэффициентов корреляции Для проверки значимости коэффициента корреляции выдвигаются гипотезы: (коэффициент корреляции незначим); (коэффициент корреляции значим). Для проверки гипотезы используется статистика , которая при условии справедливости нулевой гипотезы распределена по закону Стьюдента с числом степеней свободы . Для проверки значимости частного коэффициента корреляции выдвигаются гипотезы: (частный коэффициент корреляции незначим); (частный коэффициент корреляции значим). Для проверки гипотезы используется статистика , которая при условии справедливости нулевой гипотезы распределена по закону Стьюдента с числом степеней свободы . После проверки значимости коэффициентов корреляции и частных коэффициентов корреляции проводится сравнительный анализ выборочных значений этих коэффициентов и дается интерпретация парной связи признаков. 5) Построение доверительных интервалов для значимых коэффициентов корреляции и частных коэффициентов корреляции Пусть частный коэффициент корреляции значим. Ставится задача с вероятностью построить доверительный интервал для . Для решения этой задачи сначала стоится доверительный интервал для . Для этого над оценкой частного коэффициента корреляции осуществляется z -преобразование Фишера по формуле: .
Статистика распределена по нормальному закону: . Тогда для построения доверительного интервала для используется статистика:
Далее решается уравнение , из которого получают – квантиль уровня стандартного нормального закона распределения. Из неравенства находят доверительный интервал для :
.
Обозначим левую границу доверительного интервала для через , а правую – через . Для получения доверительного интервала для над левой и правой границами доверительного интервала для осуществляют преобразование, обратное z -преобразованию Фишера. Левая граница доверительного интервала для является решением уравнения , правая граница доверительного интервала для является решением уравнения . Аналогичным образом строится доверительный интервал для значимого коэффициента корреляции . При этом используется статистика . 6) Расчет оценок коэффициентов детерминации и множественных коэффициентов корреляции Апостериорная оценка коэффициента детерминации для j -го признака обозначается и рассчитывается по формуле:
, (3.3)
где – обозначение апостериорной оценки остаточной дисперсии для j -го признака, рассчитываемой по формуле Апостериорная оценка множественного коэффициента корреляции для j -го признака обозначается и рассчитывается по формуле:
. (3.4)
7) Проверка значимости коэффициентов детерминации Для проверки значимости коэффициента детерминации выдвигаются гипотезы: (коэффициент детерминации незначим, т.е. признаки не оказывают значимого влияния на ); (коэффициент детерминации значим, т.е. существует хотя бы один из признаков , оказывающих значимое влияние на ). Для проверки гипотезы используется статистика , которая при условии справедливости нулевой гипотезы распределена по закону Фишера-Снедекора с числом степеней свободы , . 8) Оценка уравнения регрессии Оценка уравнения регрессии для j -го признака имеет вид:
,
где апостериорные оценки коэффициентов уравнения регрессии рассчитываются по формуле или . Уравнение регрессии для j -го признака значимо, если значим коэффициент детерминации . О значимости коэффициентов уравнения регрессии судят по результатам проверки значимости частных коэффициентов корреляции, т.е. коэффициент значим, если значим частный коэффициент корреляции . 3.2 Корреляционный анализ порядковых переменных: ранговая корреляция
Методы ранговой корреляции – это система понятий и методов, позволяющих исследовать связь между двумя или несколькими ранжировками одного и того же множества объектов [12]. Ранжировка – это результат ранжирования объектов, т.е. приписывания условных числовых меток, обозначающих место объекта в совокупности всех объектов, упорядоченных по степени проявления анализируемого свойства. Постановка задачи корреляционного анализа порядковых переменных состоит в исследовании связи между порядковыми случайными величинами на основе выборочных данных, представленных в виде матрицы X:
,
где – ранг i -го объекта по j -му свойству, , . Рангом i -го объекта по j -му свойству называется условная числовая метка, обозначающая место этого объекта в ряду из всех n объектов, упорядоченных по убыванию степени проявления j -го свойства. При упорядочении объектов по j -му свойству могут встретиться ситуации, когда два или более объектов являются неразличимыми с точки зрения степени проявления в них этого свойства. В этом случае каждому из объектов этой однородной группы приписывают ранг, равный среднему арифметическому значению тех мест, которые они делят, а полученные таким образом ранги называют «объединенными» или «связными». Решение поставленной задачи сводится к оценке ранговых коэффициентов корреляции и проверке их значимости. К основным ранговым коэффициентам корреляции относятся ранговый коэффициент корреляции Спирмена, ранговый коэффициент корреляции Кендалла и коэффициент конкордации [12, 25].
|