КАТЕГОРИИ:

Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Оценка значимости параметров линейной регрессии и корреляции.

⇐ ПредыдущаяСтр 9 из 15Следующая ⇒

В следствии того как уравнение линейной регрессии обнаружено, делается оценка значимости как уравнения в целом, но и отдельных его характеристик. Оценка значимости уравнения регрессии в общем дается при помощи F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, другими словами b=0, и, значит, фактор x не оказывает влияния на результат y.

Конкретному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной y от среднего значения на две части – «объясненную» и «остаточную»:

Общая сумма квадратов отклонений равна сумма квадратов отклонений, объясненная регрессией плюс остаточная сумма квадратов отклонений. Общая сумма квадратов отклонений индивидуальных значений результативного признака y от среднего значения вызвана влиянием множества причин. Условно разграничим всю совокупность причин на две категории: изучаемый фактор x и другие факторы. Если фактор не оказывает воздействия на итог, то линия регрессии на графике параллельна оси 0x и . Тогда вся дисперсия результативного показателя обусловлена действием иных факторов, и общая сумма квадратов отклонений совпадает с остаточной. Если же остальные факторы не оказывают большое влияние на результат, то y связан с x функционально, и остаточная сумма квадратов равна нулю. В данном случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Так как не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, как обусловленный воздействием фактора х, то есть регрессией y и x, так и вызванный действием прочих причин. Пригодность линии регрессии для прогноза находится в зависимости от того, какая часть общей вариации признака y приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор x оказывает существенное влияние на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Каждая сумма квадратов отклонений связана с числом степеней свободы df, другими словами с числом свободы независимого варьирования признака. Число степеней свободы соединено с числом единиц совокупности n и с числом характеризуемых по ней констант. Применительно к исследуемой задаче число степеней свободы должно показать, какое количество независимых отклонений из n возможных потребуется для образования данной суммы квадратов. При расчете объясненной, или факторной, суммы квадратов используются теоретические (расчетные) значения результативного признака , найденные по линии регрессии: В линейной регрессии

(2.11)

В этом не трудно убедиться, обратившись к формуле линейного коэффициента корреляции: Из формулы видно, что

(2.12)

где - дисперсия признака y, обусловленная фактором x;

- общая дисперсия признака y.

Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит:

Поскольку при заданном объеме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К этому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака y, то есть . Величина определяется по уравнению линейной регрессии:

Параметр a можно найти как Подставив выражение параметра a в линейную модель, получим:

(2.13)

Отсюда видно, что при данном наборе переменных x и y расчетное значение является функцией лишь одного параметра – коэффициента регрессии. В соответствии с этим и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Присутствует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, то есть .

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения, то есть критерий F:

(2.14)

F-статистика используется для проверки нулевой гипотезы

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Если несправедлива, то факторная дисперсия превышает остаточную в несколько раз. Британским статистиком Снедекором разработаны таблицы критических значений F-отношений при различных уровнях значимости нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном расхождении их для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F- отношения признается достоверным, если оно больше табличного. Тогда нулевая гипотеза об отсутствии взаимосвязи признаков отклоняется и делается вывод о существенности этой связи: отклоняется.

Если же величина F окажется меньше табличной, то вероятность нулевой гипотезы выше заданного уровня и она не может быть отклонена без риска сделать неправильный вывод и наличии связи. В этом случае уравнение регрессии считается статистически незначимым: не отклоняется. Величина F-критерия связана с коэффициентом детерминации. Значение F-критерия можно выразить следующим образом:

. (2.15)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: . Стандартная ошибка коэффициента регрессии параметра рассчитывается по формуле:

(2.16)

Отношение коэффициента регрессии к его стандартной ошибке дает t-статистику, которая подчиняется статистике Стьюдента (n-2) степеням свободы. Эта статистика применяется для проверки статистической значимости коэффициента регрессии и для расчета доверительных интервалов.

Для оценки значимости коэффициента регрессии его величину сравнивают с его стандартной ошибкой, то есть определяют фактическое значение t-критерия Стьюдента: (2.17)

которое затем сравнивают с табличным значением при определенном уровне значимости α и числе степеней свободы (n-2).

Стандартная ошибка параметра a определяется по формуле:

(2.18)

Процедура оценивания значимости данного параметра не отличается от рассмотренной выше для коэффициента регрессии: вычисляется t-критерий:

(2.19)

Его величина сравнивается с табличным значением при df=n-2 степенях свободы.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции :

(2.20)

Фактическое значение t-критерия Стьюдента определяется как:

(2.21)

Данная формула свидетельствует, что в парной линейной регрессии ибо, как уже указывалось, Кроме того, следовательно, .

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о значимости линейного уравнения регрессии. [И. И. Елисеева с. 63]

Средняя ошибка аппроксимации.

Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, то есть y и Чем меньше эти отличия, тем ближе теоретические значения к эмпирическим данным, тем лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака по каждому наблюдению представляет собой ошибку аппроксимации. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Отклонения несравнимы между собой, исключая величину, равную нулю. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям.

Поскольку может быть величиной как положительной, так и отрицательной, ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю. Отклонения можно рассматривать как абсолютную ошибку аппроксимации, а - как относительную ошибку аппроксимации. Для того чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, находят среднюю ошибку аппроксимации как среднюю арифметическую простую.

(2.22)

[И. И. Елисеева с. 106]

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒

Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2026 год. (2.222 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал