Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Уравнение в отклонениях
Значения переменных и могут быть измеримы в отклонениях от средних значений, введем новые переменные . Начало координат при этом переместится в точку и из геометрических соображений ясно, что решением задачи будет та же прямая на плоскости , что и для исходных данных , только . Решая систему в новых переменных МНК, получим формулы: . Поэтому значение и основная смысловая нагрузка ложится на коэффициент . Определение. Коэффициент называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии) по . Коэффициент регрессии по показывает, на сколько единиц в среднем изменяется переменная при увеличении переменной на одну единицу. Запишем уравнение регрессии в ином виде, т.к. , то, подставив правую часть этого равенства в уравнение , получим эквивалентный вид т.о. . На первый взгляд, подходящим измерителем тесноты связи от является коэффициент регрессии , ибо, как уже было сказано, он показывает, на сколько единиц в среднем изменяется , когда увеличивается на одну единицу. Однако зависит от единиц измерения переменных (например, он увеличится в 100 раз, если измерять не в метрах, а в сантиметрах). Очевидно, что для исправления как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной её среднее квадратическое отклонение . В этой системе величина показывает, на сколько величин изменится в среднем , когда увеличится на одно . Величина является показателем тесноты связи и называется выборочным коэффициентом корреляции (коэффициентом корреляции). Ниже, на рисунке 2 изображены варианты a) - d) полей корреляции. (удалить надписи, добавить названия осей)
a) b) c) d)
Рис 2. На рис.2 b) исходные данные расположены плотнее к прямой – функции регрессии, нежели данные рис.2 a), а на рис. 2 c) – d) все данные расположены на прямой. Свойства коэффициента корреляции: 1) , т.к. ; 2) при , корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой (рис. 2 c) – d));
3) при линейная связь отсутствует (рис. 3), при этом близость к нулю не означает отсутствия связи между признаками, она может оказаться достаточно тесной. Рис. 3
Для практических расчетов наиболее удобна формула: т.к. по этой формуле находится непосредственно из данных наблюдений, и на значении не скажутся округление данных, связанные с расчетом средних и отклонений от них.
1.3. Оценка значимости уравнения регрессии Проверить значимость уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. Обозначим через - теоретически вычисляемые по формуле значения, тогда Преобразуем формулу дисперсии с учетом вышеуказанной суммы: Далее Так как имеет место равенство , и из МНК следуют два соотношения , то (*) Введем обозначения: TSS (total sum of sguares) – вся дисперсия: сумма квадратов отклонений от среднего. RSS (regression sum of sguares) – объясненная часть всей дисперсии (обусловленная регрессией), факторная, объясненная дисперсия. ESS (error sum of sguares) – остаточная сумма, дисперсия остаточная. Определение. Коэффициентом детерминации, или долей объясненной дисперсии называется . В силу определения . Если , то это означает, что регрессия ничего не дает, т.е. не улучшает качество предсказания , по сравнению с тривиальным . Если , то лежат на линии регрессии и между и y существует линейная функциональная зависимость, т.е. абсолютно точное совпадение: . Для линейной регрессии определяется коэффициент регрессии по формуле: или .
Тогда - получившаяся формула есть дисперсия объясненная, факторная, тогда ;
отсюда, можно построить коэффициент (индекс корреляции) для нелинейной регрессии . Т.к. формулы для связи TSS, RSS, ESS мы получили в предположении что , то при , полученная формула не будет справедливой.
|