Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Многофакторный anova
Многофакторный ANOVA предназначен для изучения влияния нескольких факторов (независимых переменных) на зависимую переменную и часто обозначается в соответствии с количеством факторов и числом их градаций. Например, обозначение ANOVA 3 2 2 свидетельствует о трехфакторном ANOVA (число градаций: первого фактора — 3, второго фактора — 2, третьего фактора 2), который применяется для сравнения 12 групп (условий) (так как 3 2 2 = 12). Принципиально этот метод не отличается от однофакторного ANOVA. Однако он позволяет оценивать не только влияние (главные эффекты) каждого фактора в отдельности, но и взаимодействие факторов: зависимость влияния одних факторов от уровней других факторов. Возможность изучать взаимодействие факторов — главное преимущество многофакторного ANOVA, которое позволяет получать зачастую наиболее интересные результаты исследования. С целью облегчения изложения материала в качестве основного варианта многофакторного ANOVA мы сначала рассмотрим двухфакторный его вариант (2-Wау ANOVA), а затем сделаем необходимые дополнения в отношении большего количества факторов. Структура исходных данных (2-факторный ANOVA). Для каждого объекта (испытуемого) выборки измерено значение зависимой переменной (Y), а также определена его принадлежность к одной из градаций (уровней) одного фактора (Х1) и к одной из градаций (уровней) другого фактора (Х2). Таблица исходных данных для компьютерной обработки включает две номинативные переменные, соответствующие факторам, и одну метрическую (зависимую) переменную:
Модель для данных может быть представлена в виде дисперсионного комплекса — таблицы, строки которой соответствуют градациям (уровням) одного фактора: 1, 2, …, i,..., k; а столбцы — уровням другого фактора: 1, 2,..., j,..., l. Количество ячеек дисперсионного комплекса равно k х l и соответствует количеству разных групп объектов (испытуемых). Каждая ячейка с номером ij характеризуется своим сочетанием уровней факторов, численностью объектов n ij и средним значением зависимой переменной Mij. Например, дисперсионный комплекс для ANOVA 2х3:
Математическая модель двух факторного ANOVA, как и в однофакторном случае, предполагает выделение двух основных частей вариации зависимой переменной: внутригрупповой, обусловленной случайными причинами, и межгрупповой, обусловленной влиянием факторов. В межгрупповой изменчивости, в свою очередь, выделяются три ее составляющие: · влияние (главный эффект) 1-го фактора; · влияние (главный эффект) 2-го фактора; · взаимодействие факторов. Соответственно, двухфакторный ANOVA включает в себя проверку трех гипотез: а) о главном эффекте 1-го фактора; б) о главном эффекте 2-го фактора; в) о взаимодействии факторов. Проблема взаимодействия факторов, которая обеспечивает уникальность и незаменимость многофакторного ANOVA, заслуживает отдельного рассмотрения. Понятие взаимодействия двух независимых факторов было введено основателем дисперсионного анализа Р.Фишером для обозначения ситуации, когда влияние одного фактора на зависимую переменную проявляется по-разному на разных уровнях другого фактора.
ПРИМЕР 13.4 (Солсо Р., МакЛин М. К., с. 58—59) Студентам колледжа предложили написать сочинение в поддержку закона о самоуправлении, противниками которого все они являлись. Испытуемым либо давали задание написать такое сочинение (условие без выбора), либо предлагали самим выбирать — писать или не писать (условие с выбором) (фактор А: 2 уровня). Кроме того, половине испытуемых в каждой из групп платили по 0, 5$, а другой половине — 2, 5$ за написание этого сочинения (фактор В: 2 уровня). В каждую из 4-х групп случайно отбиралось по 10 студентов, Зависимой переменной являлась степень изменения отношения студентов к закону о самоуправлении после написания сочинения. Средние значения изменения отношения для различных групп:
Результаты (рис. 13.1) демонстрируют взаимодействие факторов: размер вознаграждения (фактор В) по-разному влияет на изменение отношения — в зависимости от наличия или отсутствия свободного выбора (фактор А). Рис. 13.1. График средних значений изменения отношений к закону о самоуправлении (к данным примера 13.4)
В условиях отсутствия выбора отношение испытуемых к закону о самоуправлении улучшилось в случае большего вознаграждения; в условиях же свободного выбора наблюдалась обратная картина: более хорошее отношение продемонстрировали те, кто получил меньшее вознаграждение.
ПРИМЕР 13.5 Предположим, изучается влияние на успешность группового решения задачи Численности группы и наличия или отсутствия лидера в группе. Зависимая переменная — время решения задачи в минутах. Фактор А — размер группы, три градации: 1 — 2 — 3 человека; 2 — 5 — 7 человек; 3 — 10 —15 человек. Фактор В — наличие лидера: 1 — есть; 2 — нет. В качестве объектов выступают группы. В зависимости от стиля лидерства, сложности задания и других причин, которые не учитываются, можно было бы получить разные эффекты взаимодействия факторов численности группы и наличия лидерства (рис. 13.2). График 1 демонстрирует сильное взаимодействие факторов (группы большей численности более эффективны, если в них есть лидер, а группы малой численности — при отсутствии лидера), а график 3 — более слабое взаимодействие (наличие лидера играет роль лишь в группах большой численности). Графики 2 и 4 соответствуют ситуации отсутствия взаимодействия. Рис. 13.2. Графики средних значений успешности группового решения задачи (к данным примера 13.5)
Приведенные примеры демонстрируют эффективность визуального анализа графиков средних значений: если линии, соответствующие разным уровням одного из факторов, не параллельны, то можно предполагать наличие взаимодействия факторов. Однако окончательное заключение об этом можно сделать только при статистическом подтверждении гипотезы о взаимодействии по результатам. Таким образом, графики средних значений особенно полезны для интерпретации обнаруженного статистически достоверного взаимодействия факторов. Исходные предположения много факторного ANOVA: распределение зависимой переменной в сравниваемых генеральных совокупностях (соответствующих ячейкам дисперсионного комплекса) характеризуется нормальным законом и одинаковыми дисперсиями. Выборки в каждой ячейке являются случайными и независимыми. Ограничения: если выборки (ячейки) заметно различаются по численности и их дисперсии различаются статистически достоверно, то метод неприменим. Число наблюдений в каждой ячейке не должно быть меньше 2 (желательно — не менее 5). Проверка допустимости применения ANOVA сводится к проверке однородности дисперсии в сравниваемых выборках в случае, если они заметно различаются по численности. Для проверки однородности дисперсии применяется критерий Ливена (Levene’s Test of Homogeneity of Vatiances). Дополнительно возможны множественные сравнения средних значений, позволяющие сделать вывод о том, как различаются друг от друга средние значения, соответствующие разным градациям факторов. Общая схема двух- (и более) факторного ANOVA принципиально не отличается от однофакторного случая и определяется выделением в общей изменчивости зависимой переменной (SStot) ее внутригрупповой (случайной, SSwg) межгрупповой (факторной, SSbg) составляющих:
Отличие заключается в выделении дополнительных составляющих межгрупповой (факторной) изменчивости в соответствии с проверяемыми гипотезами. Для двухфакторного случая:
где SSA, SSB — суммы квадратов для факторов А и В, а SSAB — сумма квадратов для взаимодействия факторов. Соответственно, для каждого источника изменчивости далее вычисляются степени свободы и средние квадраты, вычисляются F -отношения для проверяемых гипотез и определяются р -уровни значимости. Последовательность вычислений основных показателей для двухфакторного ANOVA рассмотрим на упрощенном примере — при равной численности сравниваемых выборок (объектов в ячейках). Для случая с неравной численностью наблюдений в ячейках логика и общая последовательность вычислений не меняются, хотя сами вычисления и становятся более громоздкими.
Численность каждой ячейки равна n, общее число наблюдений — 6n = N. Напомним, что двухфакторный ANOVA проверяет 3 статистические гипотезы: а) о главном эффекте фактора А (о различии MA1 и MA2); б) о главном эффекте фактора В (о различии MB1, MB2 и MB3); в) о взаимодействии факторов А и В (влияние фактора А различается для разных уровней фактора В, и наоборот). Межгрупповая (SSbg) и внутригрупповая (SSwg) суммы квадратов вычисляются как составные части общей суммы квадратов (SStot):
где к — число уровней фактора А; l — число уровней фактора В; Мij — среднее значение для ячейки ij. Отношение межгрупповой и общей суммы квадратов — коэффициент детерминации. Как и в однофакторном случае, он показывает долю общей дисперсии зависимой переменной, которая обусловлена совокупным влиянием факторов (факторной моделью):
Чем больше этот показатель, тем больше общая дисперсия зависимой переменной объясняется влиянием изучаемых факторов. Межгрупповая сумма квадратов состоит из трех составляющих ее сумм квадратов: для фактора А, для фактора В, для взаимодействия факторов А и В:
. Суммы квадратов для фактора A (SSA) и фактора В (SSB):
Сумма квадратов для взаимодействия факторов А и В — это остаток межгрупповой суммы квадратов за вычетом сумм квадратов факторов А и В:
Числа степеней свободы для сумм квадратов: Ø для общей: dftot = N – 1; Ø для фактора Л: dfA=k – l; Ø для фактора В: dfB = l – 1; Ø для взаимодействия факторов: dfAB = dfA*dfB, Ø для внутригрупповой: dfwg = dftot – dfA – dfB – dfAB = N – k * l; Ø для общей межгрупповой (факторной): dfbg = k * l – 1. Средние квадраты вычисляются делением сумм квадратов на соответствующие им числа степеней свободы:
Вычисляются эмпирические значения F-отношения для каждой из трех проверяемых гипотез:
Дополнительно можно вычислить F -отношение для общей факторной модели, которое позволит определить статистическую значимость совокупного влияния факторов:
Для определения p -уровня значимости каждого из F -отношения вычисленное эмпирическое значение сравнивается с критическими (табличными) значениями для степеней свободы, соответствующих числителю и знаменателю F -отношения.
ПРИМЕР 13.6 Предположим, изучается влияние численности группы и наличия или отсутствия лидера в группе на успешность группового решения задачи. В одной из серий исследования получены следующие результаты: Время решения тестовой задачи группами разной численности в зависимости от наличия или отсутствия лидера
В качестве объектов выступают группы. Зависимая переменная — время решения задачи в минутах. Фактор А — наличие лидера: 1 — нет; 2 — есть. Фактор В — размер группы, три градации: 1 — 2 – 3 человека; 2 — 5 – 7 человек; 3 — 10 – 15 человек. Проверим гипотезы о влиянии факторов и их взаимодействия на уровне а = 0, 05. Шаг 1. Составим дисперсионный комплекс и подсчитаем средние значения:
Шаг 2. Вычислим межгрупповую (SSbg) и внутригрупповую (SSwg) суммы квадратов как составные части общей суммы квадратов (SStot):
Доля общей изменчивости, объясняемая данной факторной моделью:
Шаг 3. Вычислим суммы квадратов для фактора А (SSA), фактора В (SSB) и взаимодействия факторов (SSAB):
Шаг 4. Определим степени свободы для вычисленных сумм квадратов: Ø для общей: dftot=N – 1 =30 – 1 = 29; Ø для фактора A: dfA = k – 1 = 2 – 1 = 1; Ø для фактора В: dfB = l – 1 = 3 – 1 = 2; Ø для взаимодействия факторов: dfAB = dfA * dfB = 1 * 2 = 2; Ø для внутригрупповой: dfwg = dftot – dfA – dfB – dfAB = N – k * l= 30 – 6 = 24; Ø для общей межгрупповой (факторной): dfbg = k * l – 1 = 6 – 1 = 5. Шаг 5. Вычисляем средние квадраты:
Шaг 6. Вычисляем эмпирические значения F -отношения:
Шаг 7. Определяем p -уровень значимости для каждого из F -отношений. Для этого сравниваем эмпирические значения F -отношения с критическими (табличными) для соответствующих чисел степеней свободы по таблице критических значений F -распределения для проверки направленных альтернатив (приложение 3).
Представим результаты в виде таблицы:
Шаг 8. Принимаем статистические решения и формулируем содержательные выводы. Н0 на уровне = 0, 05 отклоняется в отношении взаимодействия факторов и общего влияния факторов. Обнаружено статистически достоверное совокупное влияние численности группы и наличия (отсутствия) лидера на успешность группового решения задачи (р< 0, 01). Факторная модель объясняет 52, 5% общей доли изменчивости времени решения задачи. Статистически достоверным является взаимодействие фактора лидерства и численности группы (р< 0, 01). График средних значений позволяет дать интерпретацию обнаруженного взаимодействия:
Чем больше численность группы, тем быстрее решается задача при наличии лидера; без лидера успешнее работают группы меньшей численности. ANOVA с количеством факторов больше двух принципиально не отличается от двухфакторного варианта. Специфика ANOVA с числом факторов больше двух заключается в наличии проблемы взаимодействия более чем двух факторов. В двухфакторном случае анализируется взаимодействие первого порядка (двух факторов). А в трехфакторном ANOVA, с факторами А, В и С, помимо двухфакторных взаимодействий (первого порядка) А В, А С и В С необходимо рассматривать и трехфакторное взаимодействие второго порядка: А В С. ПРИМЕР 13.7
Предположим, при изучении влияния численности группы и наличия или отсутствия в ней лидера на успешность решения задачи введен еще один фактор — тип задания (фактор А — наличие лидера, две градации: 1 — нет лидера, 2 — есть лидер; фактор В — численность группы, три градации: 1 — 2-3 человека, 2 — 5-7 человек, 3 — 10-15 человек; фактор С — тип задания, две градации: 1 — групповое задание, 2 — индивидуальное задание). Графики средних значений (рис. 13.3) демонстрируют трехфакторное взаимодействие (второго порядка): взаимодействие факторов А и В проявляется по-разному в зависимости от градаций фактора С. Обратите внимание, что это взаимодействие допускает три эквивалентные формы интерпретации: а) тип задания по-разному влияет на успешность в зависимости от численности группы и наличия или отсутствия лидера; б) численность группы по-разному влияет на успешность решения задачи в зависимости от типа задания и наличия или отсутствия лидера в группе; в) наличие или отсутствие лидера по-разному влияет на успешность решения задачи в зависимости от численности группы и типа задания. Обратите также внимание на то, насколько сложна более детальная интерпретация взаимодействия второго порядка, по сравнению с интерпретацией взаимодействия первого порядка.
Пример демонстрирует трудности, связанные с интерпретацией трехфакторного взаимодействия. Интерпретация взаимодействий более высокого порядка еще сложнее, если вообще возможна. Ситуацию осложняет и то, что количество взаимодействий с увеличением числа факторов растет в геометрической прогрессии: количество проверяемых гипотез в ANOVA — о главных эффектах и всех взаимодействиях факторов выражается формулой:
где Р — число факторов, К — количество проверяемых гипотез. Так, если двухфакторный ANOVA предполагает проверку трех гипотез, то трехфакторный — уже семи, а четырехфакторный — 15-ти. Поэтому без острой необходимости нежелательно включать в ANOVA более трех факторов.
|