Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Множественная линейная регрессия
Далее мы будем говорить о линейной зависимости Y от вектора Х, то есть о множественной линейной регрессии. Теоретическое уравнение модели множественной линейной регрессии имеет вид:
где m - число объясняющих переменных (факторов); b - вектор неизвестных параметров размерности k (в модели (3.18) Пусть имеется n наблюдений вектора Х и зависимой переменной Y.
Для того чтобы формально можно было решить задачу, то есть найти некоторый наилучший вектор параметров, должно быть
Случай 1. Если { Так, через три точки-наблюдения в трехмерном пространстве можно провести единственную плоскость, определяемую параметрами
Случай 2. Если число наблюдений больше минимально необходимого, то есть Обычно при оценке множественной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений по крайней мере в 3 раза превосходило число оцениваемых параметров.
Задача построения множественной линейной регрессии состоит в нахождении k -мерного вектора Уравнение модели с оцененными параметрами имеет вид
где e - отклонения наблюдаемых значений зависимой переменной Y от теоретической линии регрессии. В соответствии с идеей метода наименьших квадратов критерием для нахождения вектора Проблема здесь состоит не только в том, чтобы объяснить возможно большую долю колебаний переменной Y, но и отделить влияние каждого из факторов, рассматриваемых как объясняющие переменные.
При выполнении предположений (предпосылок) относительно ошибок, оценки параметров множественной линейной регрессии, полученные МНК, являются несмещенными, состоятельными и эффективными.
Для анализа статистической значимости полученных оценок параметров множественной линейной регрессии необходимо (как и в случае парной регрессии): 1) оценить дисперсию и стандартные отклонения оценок параметров 2) для проверки нулевой гипотезы
имеющую распределение Стьюдента с 3) сопоставить
Общее качество регрессионной модели обычно анализируется с помощью коэффициента детерминации Для определения статистической значимости коэффициента детерминации
В предположении выполнения предпосылок относительно ошибок, величина F-статистики имеет распределение Фишера с F=0 равнозначно тому, что величина Y статистически независима от вектора Х (т.е. между вектором Х и величиной Y отсутствует значимая функциональная связь). Поэтому проверяется нулевая гипотеза для F-статистики о равенстве нулю одновременно всех коэффициентов линейной регрессии, за исключением свободного члена, для чего при заданном уровне значимости
Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, за исключением свободного члена, но и гипотезы о равенстве нулю части этих коэффициентов. Это позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных, или же, наоборот, включения их в это число. Оценка обоснованности исключения переменных из числа объясняющих Пусть, например, вначале была оценена множественная линейная регрессия
по n наблюдениям с m объясняющими переменными и k параметрами, и коэффициент детерминации равен Затем последние s переменных исключены из числа объясняющих, и по тем же данным оценено уравнение
для которого коэффициент детерминации равен Для того чтобы проверить гипотезу об одновременном равенстве нулю всех коэффициентов регрессии, находящихся при исключенных из модели объясняющих переменных, рассчитывается F-статистика
имеющая распределение Фишера с По таблицам распределения Фишера, при заданном уровне значимости и степенях свободы Пояснения. F-статистика оказывается относительно большой, если велика разность Оценка обоснованности включения новых объясняющих переменных Аналогичные рассуждения проводятся и по поводу обоснованности включения в уравнение регрессии
имеющая распределение Другой подход. В вопросе о добавлении объясняющих переменных в уравнение регрессии полезным может оказаться рассмотрение коэффициента детерминации с поправкой на число степеней свободы (для получения несмещенных оценок дисперсии):
В числителе дроби, которая вычитается из единицы, стоит сумма Обычный
и всегда растет при добавлении новой объясняющей переменной. В Проверка гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений (тест Чоу) F-статистика Фишера используется также для проверки гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений, что важно для ответа на вопрос: можно ли за весь рассматриваемый в модели интервал построить единое уравнение регрессии, или же нужно разбить его на части и на каждой из частей строить своё уравнение регрессии (рис.3.7). Пусть имеются две выборки, содержащие, соответственно, n1 и n2 наблюдений. Для каждой из этих выборок оценено одно и то же уравнение регрессии вида
Пусть суммы квадратов отклонений Пусть оценено уравнение регрессии того же вида сразу для всех (n1+n2) наблюдений и сумма квадратов отклонений Проверяется нулевая гипотеза, заключающаяся в том, что все соответствующие коэффициенты этих уравнений равны друг другу, то есть что уравнение регрессии для этих выборок одно и то же. Тогда рассчитывается F-статистика по формуле
Она имеет распределение Фишера с F-статистика будет близкой к нулю, если уравнение регрессии для обеих выборок одинаково, поскольку в этом случае
Рис.3.7. К проверке гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений
|