![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Регрессионный анализ. После того как с помощью корреляционного анализа выявлено наличие статистически значимых связей между переменными и оценена степень их тесноты
После того как с помощью корреляционного анализа выявлено наличие статистически значимых связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. С этой целью подбирают класс функций, связывающий результативный показатель Функция регрессии – функция Уравнение регрессии показывает ожидаемое значение зависимой переменной По количеству включенных в модель факторов модели делятся на однофакторные (парная модель регрессия) и многофакторные (модель множественной регрессии), а по виду функции Модель множественной линейной регрессии имеет вид
где Коэффициент регрессии Для упрощения вычисления коэффициентов регрессии уравнение регрессии записывают в матричном виде:
где
Уравнение (2) содержит значения неизвестных параметров
Построение уравнения регрессии осуществляется с помощью метода наименьших квадратов, суть которого заключается в минимизации сумм квадратов отклонений фактических значений результативного признака от его расчетных значений, т.е. Формулу для вычисления параметров регрессионного уравнения по методу наименьших квадратов приведем без вывода:
Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, должны выполнятся следующие условия, известные как условия Гаусса-Маркова. 1. Математическое ожидание случайной составляющей в любом наблюдении должно быть равно нулю; 2. Дисперсия случайной составляющей должна быть постоянна для всех наблюдений; 3. Отсутствие систематической связи между значениями случайной составляющей в любых двух наблюдениях; 4.
Качество модели регрессии связывают с адекватностью модели наблюдаемым данным. Проверка адекватности модели регрессии наблюдаемым данным проводится на основе анализа остатков При анализе качества модели регрессии в первую очередь используют коэффициент детерминации
где
Чем ближе Важным моментом является проверка значимости построенного уравнения в целом и отдельных параметров. Оценить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между Оценка значимости уравнения регрессии проводится для того, чтобы узнать, пригодно уравнение регрессии для практического использования или нет. Для проверки значимости модели регрессии используют F-критерий Фишера:
Если расчетное значение с В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине
Значимость отдельных коэффициентов регрессии проверяется по t -статистике путем проверки гипотезы о равенстве нулю j -го параметра уравнения (кроме свободного члена):
Величина
где Если расчетное значение t -критерия с Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожно мала. Целесообразно определить доверительный интервал прогноза. Для линейной модели регрессии при прогнозировании индивидуальных значений границы доверительного интервала рассчитываются по формуле
где
Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т.е. решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений. Существуют различные способы для определения наличия или отсутствия мультиколлинеарности: · анализ матрицы коэффициентов парной корреляции. Явление мультиколлинеарности в исходных данных считают установленным, если коэффициент парной корреляции между двумя переменными больше 0, 8; · исследование матрицы Для устранения или уменьшения мультиколлинеарности используется ряд методов: · исключение одного из двух сильно связанных факторов. Это самый простой, но не всегда самый эффективный метод. Он состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции одну переменную исключают из рассмотрения. Оставляют ту, которая имеет больший коэффициент корреляции с зависимой переменной; · переход от первоначальных факторов к их главным компонентам, число которых может быть меньше, затем возвращение к первоначальным факторам; · использование стратегии шагового отбора, реализованный в ряде алгоритмов пошаговой регрессии. Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии: · метод включения факторов; · метод исключения – отсев факторов из полного его набора. В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение коэффициента множественной корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее значение t -статистики по абсолютной величине. После этого получают новое уравнение множественной регрессии и снова проводят оценку значимости вснх оставшихся коэффициентов регрессии. Если и среди них окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F -критерий меньше табличного. Пример.
|