Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






группа 16-8-31

Регрессионный анализ

 

Сергей Волков

Ирина Казакова

Кирилл Егоров

группа 16-8-31


 

Общие определения

Регрессионный анализ заключается в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков.

Другими словами, регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной и независимой переменной.

С математической точки зрения, регрессия — зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных), то есть:

Регрессионным анализом называется поиск такой функции f, которая описывает эту зависимость.

 

Цели регрессионного анализа

Целями применения регрессионного анализа являются:

· Определение наличия и характера связи между переменными (поиск математического уравнения, описывающего зависимость переменных);

· Предсказание значения зависимой переменной с помощью независимой;

· Определение вклада отдельных независимых переменных в вариацию зависимой переменной.

 

Виды регрессий

Как мы уже знаем, регрессия - величина, выражающая зависимость среднего значения случайной величины y от значений случайной величины х.

Для описания регрессии используют уравнение регрессии – оно выражает среднюю величину одного признака как функцию другого.

Функция регрессии - это модель вида у = f(x), где у - зависимая переменная; х - независимая переменная.

Линия регрессии - график функции у = f(x).

Существует два типа взаимосвязей между переменными х и у:

1) Может быть неизвестно, какая из двух переменных является независимой, а какая - зависимой, т.е. переменные равноправны;

2) Если переменные не равноправны и одна из них рассматривается как независимая переменная, а другая - как зависимая, то это взаимосвязь регрессионного типа.

Выделяются следующие основные виды регрессий (модели), описываемые соответствующими функциями:

1) Гиперболическая - регрессия равносторонней гиперболы:

2) Линейная - регрессия, применяемая в статистике в виде четкой экономической интерпретации ее параметров:

3) Логарифмически линейная - регрессия вида:

4) Множественная - регрессия между переменными у и х1, х2... xm, т. е. модель вида:

где у - зависимая переменная, х1, х2,..., xm – независимые переменные, u - переменная, включающая влияние неучтенных факторов в модели;

5) Нелинейная - регрессия, нелинейная относительно включенных в анализ объясняющих переменных, но линейная по оцениваемым параметрам; либо регрессия, нелинейная по оцениваемым параметрам.

Следует отметить, что зачастую разные модели можно свести к линейной путем замены переменных, например (для гиперболической):

Уравнение линейной регрессии и метод наименьших квадратов (МНК)

В случае если регрессия – линейная, то ее функция выглядит следующим образом:

или просто

где y – зависимая переменная, x – независимая переменная, a и b – коэффициенты регрессии.

Линия регрессии (график функции) в таком случае будет выглядеть примерно следующим образом:

Для приближения линии регрессии к значениям переменных используется метод наименьших квадратов (МНК), когда минимизируется сумма квадратов отклонений (невязок) реально наблюдаемых y от их оценок .

Иными словами, если у нас есть n наблюдений, выраженных парами переменных {x, y}, то, суть метода наименьших квадратов будет заключаться в следующем:

Под невязкой понимается разность между значением функции, вычисленным по результатам измерений и ее истинным значением. Невязки возникают вследствие неизбежных погрешностей измерений.

Согласно методу наименьших квадратов, основная задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух коэффициентов а и b принимает наименьшее значение. То есть, таких а и b, при которых отличие суммы квадратов невязок экспериментальных данных от найденной линии регрессии будет наименьшим. Таким образом, вся задача сводится к нахождению экстремума функции двух переменных.

Для этого сначала нужно найти частные производные функции по переменным а и b и приравнять их к нулю:

После чего нужно составить простую систему из двух уравнений с двумя неизвестными:

Решив такую систему (например, методом Крамера или Гаусса, либо подстановкой), можно найти требуемые коэффициенты a и b, которые затем нужно подставить в основное уравнение линейной регрессии . В результате мы получаем yc, которое позволяет посчитать невязку и определить, насколько подходящая модель была выбрана:

Из метода наименьших квадратов следует, что сумма квадратов невязок должна быть минимальной. Следовательно, необходимо выбирать такую модель регрессии, при которой будет выполняться такое условие. Чем меньше будет эта сумма, тем лучше модель будет аппроксимировать исходные данные.

В целом, аппроксимация данных требуется при решении задач сглаживания данных, задач интерполяции (предсказание поведения функции в пределах интервала) и экстраполяции (предсказание поведения функции за пределами интервала).

В случае, если модель у нас представлена в виде функции с тремя переменными , то получается следующее:

Частные производные по каждой из переменных, приравненные к нулю:

Полученная система линейных уравнений:

Решив систему уравнений, получаем значения a, b и с, с помощью которых в последствии можно посчитать невязки с помощью метода наименьших квадратов:

 

Оценка качества выбранной модели

Мы можем оценить, насколько подходящую модель мы выбрали: для этого потребуется найти коэффициент детерминации. Коэффициент детерминации рассчитывается для оценки качества подбора модели регрессии. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 0, 5. Модели с коэффициентом детерминации выше 0, 8 можно признать достаточно хорошими.

Для линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции. Коэффициент корреляции, в свою очередь, показывает степень статистической зависимости между двумя числовыми переменными.

Коэффициент корреляции для линейной регрессии считается следующим образом:

Где σ (x) и σ (y) – среднеквадратичное отклонение переменных x и y (корень из дисперсии):

Вычислив значение коэффициента корреляции можно узнать, какая связь между переменными x и y:

· rк ≈ 1: между переменными наблюдается положительная корреляция. Иными словами, отмечается высокая степень связи переменных. В данном случае, если значения переменной x будут возрастать, то и y также будет увеличиваться;

· rк ≈ -1: между переменными наблюдается отрицательная корреляция. Иными словами, поведение x будет противоположным поведению y, т.е. если значение x будет возрастать, то y будет уменьшаться, и наоборот;

· Промежуточные значения, близкие к 0, будут указывать на слабую корреляцию между переменными и, соответственно, низкую зависимость. Иными словами, поведение x не будет совсем (или почти совсем) влиять на поведение y.

Теперь, зная значение коэффициента корреляции, можно найти и значение коэффициента детерминации:

Чем выше получится значение коэффициента детерминации, тем качественнее будет выбранная модель, т.е. тем точнее она будет аппроксимировать данные.

 

Пример

У нас есть шесть наблюдений – шесть человек, и переменные – их возраст и их давление. Требуется рассчитать модель (функцию), которой будут подчиняться эти данные.

Возраст (xi) Давление (yi) xi ∙ yi
         
         
         
         
         
         
 

 

Мы выбираем линейную модель: . Для этой модели у нас уже есть готовая система уравнений, в которую остается лишь подставить числа и получить функцию, описывающую, как изменяются данные в таблице:

Решим систему подстановкой:

Таким образом, получается, что:

Именно такому закону и подчиняются данные в таблице. Взяв от этой функции производную y’ = 0, 964, можно узнать, что в среднем, каждый год давление возрастает на 0, 964 мм рт. ст.

Кроме того, воспользовавшись данной моделью, можно узнать конкретное давление в конкретном возрасте в пределах интервала (43-70 лет). То же самое можно проделать и с данными за пределами этого интервала, однако вероятность ошибки в таком случае становится гораздо выше.

 

<== предыдущая лекция | следующая лекция ==>
Электротепловая задача | На территории Республики Башкортостан на 15.12.2015.
Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.011 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал