КАТЕГОРИИ:

Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Линейный парный регрессионный анализ

Стр 1 из 3Следующая ⇒

Все существующие связи между признаками классифицируют по степени тесноты, направлению, форме, числу факторов.

По степени тесноты связи делят на статистические и функциональные.

Статистическая связь - это такая связь между признаками, при которой для каждого значения признака-фактора Xпризнак-результат может в определенных пределах принимать любые значения с некоторыми вероятностями; при этом его статистические (массовые) характеристики (например, среднее значение) изменяются по определенному закону.

Статистическая связь обусловлена тем, что:

1) на результативный признак оказывают влияние не только факторы, учтенные в модели (которые мы исследуем), но и неучтенные или неконтролируемые факторы;

2) неизбежностью ошибок измерения значений признаков.

Модель статистической связи может быть представлена в общем виде уравнением:

где - зависимая переменная (предиктор, результативный признак), фактическое значение результативного признака;

Х – независимая переменная (регрессор);

- детерминированная составляющая - часть результативного признака, сформировавшаяся под воздействием учтенных известных факторных признаков;

U – случайная составляющая (случайный остаток).

Противоположной статистической связи является функциональная. Функциональной называется такая связь, когда каждому возможному значению признака-фактора соответствует одно или несколько строго определенных значений результативного признака . Определение функциональной связи может быть легко обобщено для случая многих признаков – Модель функциональной связи в общем виде можно представить уравнением:

По направлению изменений результативного и факторного признаков связи делят на прямые и обратные.

По форме связи (виду функции f) связи делят на прямолинейные (линейные) и криволинейные (нелинейные).

По количеству факторов в модели связи подразделяют на однофакторные (парные) и многофакторные.

Одним из методов изучения стохастических связей между признаками является регрессионный анализ.

Регрессионный анализ представляет собой установление аналитической зависимости между признаками. Он включает следующие этапы:

1) выбор формы связи (вида аналитического уравнения регрессии);

2) оценка параметров уравнения;

3) оценка качества аналитического уравнения регрессии.

Наиболее часто для описания статистической связи признаков используется линейная форма. Внимание к линейной связи объясняется четкой экономической интерпретацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму.

Линейная парная регрессия сводится к нахождению уравнения вида:

где и – параметры уравнения регрессии;

- часть результативного признака, сформировавшаяся под воздействием неконтролируемых или неучтенных факторов, а также ошибок измерения признаков.

Оценка параметров линейной регрессии проводиться по пространственной выборки (Y_i Х_i) . Для получения оценок наиболее часто используют метод наименьших квадратов (МНК).

Метод наименьших квадратов дает наилучшие (эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена и независимой переменной .

МНК позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака Y – от расчетных (теоретических) значений —Ŷ минимальна:

S=Σ (Y-Ŷ)² → min.

Проиллюстрируем суть данного метода графически. Для этого построим точечный график по данным наблюдений в прямоугольной системе координат (такой точечный график называют корреляционным полем). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.

Y

Ŷ

Y
		X

	X

Рисунок 1 - Корреляционное поле зависимости между X и Y.

В случае линейной парной зависимости:

Значения и нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров – и . Чтобы найти минимум функции двух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их к нулю, т.е.

В результате получим систему из 2-ух нормальных линейных уравнений:

или

Решая данную систему, найдем искомые оценки параметров.

где , и - средние значения факторов Х, Y и их произведение.

В системе нормальных уравнений индексы опущены для облегчения запоминания.

Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм Σ Y=Σ Ŷ (при этом возможно некоторое расхождение из-за округления расчетов).

Знак коэффициента регрессии указывает направление связи (если , связь прямая, если , то связь обратная). Величина показывает, на сколько единиц изменится в среднем признак-результат –Y при изменении признака-фактора – Х на1 единицу своего измерения.

Формально значение параметра - среднее значение Y при Xравном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра не имеет смысла.

Оценка тесноты связи между признаками осуществляется с помощью коэффициента линейной парной корреляции - . Он может быть рассчитан по формуле: ,

Для качественной оценки тесноты связи можно использовать следующую классификацию:

0.1- 0.3- слабая связь

0.3-0.5 – умеренная связь

0.5-0.7- заметная связь

0.7-0.9- тесная связь

0.9-0.99- весьма тесная

где - среднее квадратическое отклонение факторного признака, которое определяется по формуле:

- среднее квадратическое отклонение результативного признака, которое определяется по формуле:

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии .

Область допустимых значений линейного коэффициента парной корреляции от -1 до +1. Знак коэффициента корреляции указывает направление связи. Если , то связь прямая; если , то связь обратная.

Если данный коэффициент по модулю близок к единице, то связь между признаками может быть интерпретирована как довольно тесная линейная. Если его модуль равен единице , то связь между признаками функциональная линейная. Если признаки X и Y линейно независимы, то близок к 0.

Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации - . Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака Y, объясняемую регрессией (а, следовательно, и фактором Х), в общей вариации (дисперсии) Y. Коэффициент детерминации принимает значения от 0 до 1. Соответственно величина характеризует долю дисперсии Y, вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации.

_δ²Σ (Ŷ - )²

R²_yx= ^____ = ^{_____________}

_σ²_y Σ (Y- )²

где - объясненная уравнением регрессии дисперсия Y;

- общая (полная) дисперсия Y.

В силу теоремы о сложении дисперсий общая дисперсия результативного признака равна сумме объясненной уравнением регрессии и остаточной (необъясненной) дисперсий:

Поэтому коэффициент детерминации может быть рассчитан через остаточную и общую дисперсии:

ε ²Σ (Y-Ŷ)²

R²=1- ^____ = ^{_____________}

σ ²_yΣ (Y- )²

где - остаточная (необъясненная уравнением регрессии) дисперсия Y.

При парной линейной регрессии .

12 3 Следующая ⇒

Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2026 год. (0.061 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал