Проверка гипотезы о независимости двух номинальных признаков
Ставится задача на основе выборочных данных, сформированных методом перекрестного отбора и представленных в виде двухфакторной таблицы сопряженности установить, есть ли связь между признаками X и Y.
Для решения этой задачи формулируются следующие гипотезы:
, , (признаки X и Y независимы);
(признаки X и Y зависимы).
Для проверки гипотезы используется критерий Пирсона , статистика которого имеет вид:
, (3.11)
где – теоретические частоты, т.е. те частоты, которые были бы при справедливости нулевой гипотезы.
Выведем на основе формулировки нулевой гипотезы формулу для расчета теоретических частот. Работая с выборкой, вероятности , , не известны. Заменяя их оценками, получаем: или .
Согласно теореме К. Пирсона и Р. Фишера статистика (3.11) при справедливости гипотезы , и отсутствии малых теоретических частот имеет распределение «Хи-квадрат» с числом степеней свободы [12, 15, 16, 42, 49, 50].
Альтернативой критерию Пирсона является информационный критерий или критерий -отношение правдоподобия [12, 15, 49], статистика которого имеет вид:
, (3.12)
Статистика (3.12) обладает теми же свойствами, что и статистика (3.11). На практике редко встречаются значительные расхождения между наблюдаемыми значениями статистик (3.11) и (3.12).
Замечания
1. Критерий Пирсона и информационный критерий рекомендуется применять при n > 20 [16] ( [40]) и отсутствии теоретических частот меньших 5.
2. Для таблиц сопряженности при n < 20 или при и наличии теоретических частот меньших 5 рекомендуется использовать точный критерий Фишера [12, 16, 42].
Точность критерия Пирсона значительно снижается при малых частотах в таблице сопряженности. В этом случае для таблиц Фишер предложил альтернативный метод, который стал именоваться точным критерием независимости Фишера. Он основан на рассмотрении лишь тех четырехклеточных таблиц, в которых маргинальные частоты , , , фиксированы и равны наблюдаемым значениям. Пусть одна из фиксированных маргинальных частот , , , достаточно мала. Тогда следует ожидать, что соответствующие частоты, дающие в сумме по строке или по столбцу эту маргинальную частоту, могут оказаться меньше 5. Распределение частот подчинено гипергеометрическому закону. Согласно этому закону вероятности получения в ячейках таблицы сопряженности разных наборов частот , , , могут быть вычислены по формуле:
, ; .
Критическая область состоит из тех, близких к нулю или максимальному возможному для выбранной клетки значению наблюдаемых частот, для которых сумма вероятностей не превосходит .
При вычислении вероятностей с помощью точного критерия Фишера при больших значениях факториалов сталкиваются с трудностями вычислительного характера. Чтобы этого избежать, можно воспользоваться нормальной аппроксимацией гипергеометрического закона:
.
Тогда статистика . Для построения двусторонней критической области необходимо решить уравнения . Получаем: , где – квантиль уровня стандартного нормального закона распределения.
3. Для таблиц сопряженности проверку гипотезы о независимости признаков рекомендуется осуществлять с помощью статистики с поправкой Йетса на непрерывность [12, 40], имеющую вид:
. (3.13)
4. Особый интерес представляет анализ таблиц сопряженности типа «до-после» с целью выявления влияния дихотомического качественного фактора на значение дихотомического результативного признака, например, влияния пропаганды на общественное мнение. При использовании схемы «до-после» ответы респондентов обычно представляются категориями типа «да-нет», «за-против», «положительно-отрицательно» и т.п. При этом принято положительный ответ обозначать знаком плюс, а отрицательный – знаком минус [40].
Пусть над одной и той же группой объектов производятся два эксперимента и необходимо установить, меняется ли распределение частот от одного эксперимента к другому. В этом случае исходные данные можно представить в виде таблицы сопряженности , однако составляющие её данные не являются независимыми [27]. Для выявления изменения соотношения частот в таблице сопряженности при изменении условий опыта используется критерий Мак-Нимара [27, 40]. Рассмотрим выборочную таблицу сопряженности:
Для проверки гипотезы (условия опыта не влияют на результат) Мак-Нимар предложил статистику:
; (3.14)
Статистика (3.14) при справедливости гипотезы и распределена по закону «Хи-квадрат» с числом степеней свободы .
Меры связи для таблицы сопряженности 
Рассмотрим два дихотомических признака X и Y. Признак X может принимать значения ; признак Y – . Выборочные данные, содержащие значения признаков X и Y для n объектов наблюдения, представлены в виде двухфакторной таблицы сопряженности , имеющей вид:
Если гипотеза о независимости признаков X и Y отвергнута, т.е. признаки связаны между собой, необходимо количественно измерить силу этой взаимосвязи. Для описания связи предложено множество различных коэффициентов, называемых мерами связи.
Использование непосредственно статистики Пирсона в качестве меры связи неудобно, так как, во-первых, она зависит от числа строк, столбцов таблицы сопряженности, от объема выборки и, во-вторых, изменяется на интервале от нуля до бесконечности. Рассмотрим меры связи, основанные на статистике .
1. Фи-коэффициент (коэффициент Чупрова-Крамера)
Выборочное значение коэффициента рассчитывается по формуле:
, . (3.15)
Чем ближе значение коэффициента к 1, тем теснее связи между признаками Х и Y.
2. Коэффициент сопряженности Пирсона
Выборочное значение коэффициента рассчитывается по формуле:
, . (3.16)
3. Коэффициент контингенции Крамера
Выборочное значение коэффициента рассчитывается по формуле [16, 27]:
, . (3.17)
Справедливы формулы , . Коэффициент контингенции называют коэффициентом корреляции между Х и Y.
Если , то связь между признаками Х и Y «положительная», т.е. значение одного признака чаще сопровождается значением другого признака. Если , то связь между признаками Х и Y «отрицательная», т.е. значение одного признака чаще сопровождается значением другого признака.
4) - коэффициент Гудмена и Краскала
Выборочное значение коэффициента рассчитывается по формуле:
, . (3.18)
Справедлива формула . Коэффициент называют коэффициентом детерминации признаков Х и Y.
Часто один из двух признаков является исходным по отношению к другому. Пусть Y – результативный признак, X – факторный. Нас интересует вероятность того, что . Введем две характеристики:
– шансы появления при условии, что ;
– шансы появления при условии, что .
Найдем оценки шансов:
; .
Сопоставляя различными способами шансы и , можно получают различные меры связи, которые принято относить к группе мер связи, основанных на отношении преобладаний (шансов).
1. Коэффициент ассоциации Юла [16, 27]
, . (3.19)
Коэффициент ассоциации обладает свойствами коэффициента корреляции:
1. изменяется от -1 до +1;
2. если Q > 0, то связь «положительная», т.е. если , то вероятнее всего , если , то вероятнее всего ;
3. если Q < 0, то связь «отрицательная», т.е. если , то вероятнее всего , если , то вероятнее всего ;
4. если Q =0, то признаки независимы;
5. если Q =1, то связь функциональная «положительная», т.е. и ( );
6. если Q =-1, то связь функциональная «отрицательная», т.е. и ( ).
Оценка коэффициента ассоциации , где апостериорная оценка дисперсии вычисляется по формуле . Это асимптотическое свойство может использоваться как при проверке значимости коэффициента ассоциации, так и при построении для него доверительного интервала.
Если зависимость между признаками не является функциональной, но одна из частот в клетке равна нулю, то , что дает преувеличенную оценку тесноты связи. В этих случаях целесообразно использовать коэффициент контингенции или коэффициент коллигации.
2. Коэффициент коллигации Юла [16, 27]
, . (3.20)
Коэффициенты ассоциации и коллигации связаны соотношением: . Свойства коэффициента коллигации аналогичны свойствам коэффициента ассоциации. Оценка коэффициента коллигации , где апостериорная оценка дисперсии вычисляется по формуле .
3. Отношение преобладаний (шансов) [15]
, . (3.21)
Эту характеристику связи ещё называют отношением перекрестных произведений. Если хотя бы одна из частот четырёхклеточной таблицы сопряженности равна нулю, то рассчитывается модифицированная характеристика связи:
.
Отношение перекрестных произведений принимает значения из диапазона , где значение 1 соответствует отсутствию связи. Это довольно необычно. Более привычный диапазон значений получается при работе с натуральным логарифмом отношения преобладаний или , который изменяется в пределах от , имея для случая отсутствия связи значение 0.
Меры связи для таблицы сопряженности 
Рассмотрим меры связи, основанные на статистике Хи-квадрат.
1. Фи-коэффициент (коэффициент Чупрова-Крамера)
Выборочное значение коэффициента рассчитывается по формуле (3.15).
2. Коэффициент сопряженности Пирсона [15, 16, 27]
Выборочное значение коэффициента рассчитывается по формуле (3.16). Если связь между признаками отсутствует, то . Чем ближе значение P к 1, тем теснее связь. Однако максимальное значение данного коэффициента зависит от числа строк и столбцов таблицы сопряженности и определяется по формуле . Чтобы исправить этот недостаток, предлагаются следующие два коэффициента.
3. Коэффициент Чупрова
Выборочное значение коэффициента рассчитывается по формуле [15, 16, 27]:
. (3.22)
Если , то коэффициент в пределе достигает значения 1.
4. Коэффициент Крамера
Выборочное значение коэффициента рассчитывается по формуле [15, 16]:
. (3.23)
Предел коэффициента Крамера при росте числа наблюдений стремится к 1 независимо от числа строк и столбцов таблицы сопряженности. Для квадратных таблиц сопряженности ( ) . В остальных случаях .
При большом объеме выборки для коэффициентов Пирсона, Чупрова и Крамера можно построить доверительные интервалы, пользуясь следующими асимптотическими свойствами:
, , .
Выборочные дисперсии оценок коэффициентов Пирсона, Чупрова и Крамера рассчитываются по формулам:
, , ,
где – формула для расчета апостериорной оценки дисперсии статистики .
Интерпретация значений коэффициентов Пирсона, Чупрова, Крамера сводится к следующему: квадрат коэффициента связи, выраженный в процентах, показывает насколько процентов изменение значения признака Y зависит от изменения значения признака Х или наоборот.
Коэффициенты сопряженности, основанные на статистике «Хи-квадрат», не позволяют описать зависимость категорий признака Y от категорий признака Х (и наоборот) в терминах теории вероятностей.
Рассмотрим коэффициенты связи Гудмена и Краскала , , . Эти коэффициенты имеют явную теоретико-вероятностную интерпретацию на всем диапазоне возможных значений от 0 до 1 и основаны на том, что если признаки Х и Y зависимы, то информация о том, какое значение принял один из них, должна улучшить точность предсказания значения другого признака [15, 16, 42].
Выборочное значение коэффициента рассчитывается по формуле:
, (3.24)
где – максимальная частота в i -ой строке;
– максимальная частота итоговой строки (максимальная маргинальная частота среди , ).
Коэффициент асимметричный, т.к. характеризует зависимость Y от Х. Он показывает насколько снижается вероятность ошибки предсказания категории признака Y при известной информации о принадлежности наблюдения к классу признака X по сравнению с ситуацией, когда такой информации нет.
Если для случайно выбранного объекта нет никакой информации о категории признака Х, то в качестве прогнозного значения признака Y выбирается его наиболее вероятная категория, т.е. категория, которой соответствует наибольшая маргинальная частота итоговой строки выборочной таблицы сопряженности. Если известна категория признака Х, то в качестве прогнозного значения Y выбирается та категория, которой соответствует наибольшая наблюдаемая частота в соответствующей строке.
При большом объеме выборки для коэффициента можно построить доверительный интервал, пользуясь следующим асимптотическим свойством:
.
Выборочная дисперсия статистики рассчитывается по формуле:
,
где – сумма только таких максимальных элементов строк , для которых значения I обеспечивают попадание в столбец, где находится наибольший итог .
Коэффициент обладает следующими свойствами:
1. если , то существует взаимно-однозначная зависимость Y от Х;
2. если , то признак Y не зависит от X, т.е. информация о категории признака Х не улучшает прогноза категории признака Y.
Недостатком коэффициента является то, что он обращается в 0, когда все принадлежат одному столбцу, в котором находится , но это не означает отсутствия зависимости Y от Х.
Коэффициент эквивалентен коэффициенту с учетом перемены строк и столбцов между собой. Коэффициент асимметричный, характеризует зависимость Х от Y и показывает насколько снижается вероятность ошибки предсказания категории признака Х при известной информации о категории признака Y по сравнению с ситуацией, когда такой информации нет. Выборочное значение коэффициента рассчитывается по формуле:
. (2.25)
Коэффициент обращается в 0, если максимальные частоты в столбцах принадлежат одной строке.
Если при анализе таблицы сопряженности неважно зависит Х от Y или наоборот, то рассчитывается коэффициент :
. (3.26)
Коэффициент используется для измерения усредненной (симметризованной) величины улучшения прогноза значений признаков и удовлетворяет неравенству: .
Рассмотрим коэффициенты связи Гудмена и Краскала , , . Эти коэффициенты лишены недостатка -мер. Их отличие от коэффициентов , , состоит в ином методе предсказания значения одного признака при известном значении другого. Категории прогнозируемого признака предсказываются случайным образом, соответственно вероятностям их появления в той или иной ситуации [15, 42].
Для характеристики зависимости признака Y от Х рассчитывается коэффициент :
. (3.27)
Для характеристики зависимости признака Х от Y рассчитывается коэффициент :
. (3.28)
Значение коэффициента , умноженное на 100%, показывает насколько процентов уменьшится неправильный прогноз категории признака Х для случайно взятого объекта при условном пропорциональном прогнозировании по сравнению с безусловным пропорциональным прогнозом.
Симметричный коэффициент связи рассчитывается по формуле:
. (3.29)
Коэффициент удовлетворяет неравенству: .
|