Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Линейный парный регрессионный анализСтр 1 из 3Следующая ⇒
Все существующие связи между признаками классифицируют по степени тесноты, направлению, форме, числу факторов. По степени тесноты связи делят на статистические и функциональные. Статистическая связь - это такая связь между признаками, при которой для каждого значения признака-фактора Xпризнак-результат может в определенных пределах принимать любые значения с некоторыми вероятностями; при этом его статистические (массовые) характеристики (например, среднее значение) изменяются по определенному закону. Статистическая связь обусловлена тем, что: 1) на результативный признак оказывают влияние не только факторы, учтенные в модели (которые мы исследуем), но и неучтенные или неконтролируемые факторы; 2) неизбежностью ошибок измерения значений признаков. Модель статистической связи может быть представлена в общем виде уравнением: где - зависимая переменная (предиктор, результативный признак), фактическое значение результативного признака; Х – независимая переменная (регрессор); - детерминированная составляющая - часть результативного признака, сформировавшаяся под воздействием учтенных известных факторных признаков; U – случайная составляющая (случайный остаток). Противоположной статистической связи является функциональная. Функциональной называется такая связь, когда каждому возможному значению признака-фактора соответствует одно или несколько строго определенных значений результативного признака . Определение функциональной связи может быть легко обобщено для случая многих признаков – Модель функциональной связи в общем виде можно представить уравнением:
По направлению изменений результативного и факторного признаков связи делят на прямые и обратные. По форме связи (виду функции f) связи делят на прямолинейные (линейные) и криволинейные (нелинейные). По количеству факторов в модели связи подразделяют на однофакторные (парные) и многофакторные. Одним из методов изучения стохастических связей между признаками является регрессионный анализ. Регрессионный анализ представляет собой установление аналитической зависимости между признаками. Он включает следующие этапы: 1) выбор формы связи (вида аналитического уравнения регрессии); 2) оценка параметров уравнения; 3) оценка качества аналитического уравнения регрессии. Наиболее часто для описания статистической связи признаков используется линейная форма. Внимание к линейной связи объясняется четкой экономической интерпретацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму. Линейная парная регрессия сводится к нахождению уравнения вида: где и – параметры уравнения регрессии; - часть результативного признака, сформировавшаяся под воздействием неконтролируемых или неучтенных факторов, а также ошибок измерения признаков. Оценка параметров линейной регрессии проводиться по пространственной выборки (Yi Хi) . Для получения оценок наиболее часто используют метод наименьших квадратов (МНК). Метод наименьших квадратов дает наилучшие (эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена и независимой переменной . МНК позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака Y – от расчетных (теоретических) значений —Ŷ минимальна: S=Σ (Y-Ŷ)2 → min. Проиллюстрируем суть данного метода графически. Для этого построим точечный график по данным наблюдений в прямоугольной системе координат (такой точечный график называют корреляционным полем). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.
Рисунок 1 - Корреляционное поле зависимости между X и Y.
В случае линейной парной зависимости: . Значения и нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров – и . Чтобы найти минимум функции двух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их к нулю, т.е. В результате получим систему из 2-ух нормальных линейных уравнений: или Решая данную систему, найдем искомые оценки параметров. , , где , и - средние значения факторов Х, Y и их произведение. В системе нормальных уравнений индексы опущены для облегчения запоминания. Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм Σ Y=Σ Ŷ (при этом возможно некоторое расхождение из-за округления расчетов). Знак коэффициента регрессии указывает направление связи (если , связь прямая, если , то связь обратная). Величина показывает, на сколько единиц изменится в среднем признак-результат –Y при изменении признака-фактора – Х на1 единицу своего измерения. Формально значение параметра - среднее значение Y при Xравном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра не имеет смысла. Оценка тесноты связи между признаками осуществляется с помощью коэффициента линейной парной корреляции - . Он может быть рассчитан по формуле: , Для качественной оценки тесноты связи можно использовать следующую классификацию: 0.1- 0.3- слабая связь 0.3-0.5 – умеренная связь 0.5-0.7- заметная связь 0.7-0.9- тесная связь 0.9-0.99- весьма тесная где - среднее квадратическое отклонение факторного признака, которое определяется по формуле: . - среднее квадратическое отклонение результативного признака, которое определяется по формуле: . Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии . Область допустимых значений линейного коэффициента парной корреляции от -1 до +1. Знак коэффициента корреляции указывает направление связи. Если , то связь прямая; если , то связь обратная. Если данный коэффициент по модулю близок к единице, то связь между признаками может быть интерпретирована как довольно тесная линейная. Если его модуль равен единице , то связь между признаками функциональная линейная. Если признаки X и Y линейно независимы, то близок к 0. Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации - . Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака Y, объясняемую регрессией (а, следовательно, и фактором Х), в общей вариации (дисперсии) Y. Коэффициент детерминации принимает значения от 0 до 1. Соответственно величина характеризует долю дисперсии Y, вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации. δ 2 Σ (Ŷ - )2 R2yx= ____ = _____________ σ 2y Σ (Y- )2
где - объясненная уравнением регрессии дисперсия Y; - общая (полная) дисперсия Y. В силу теоремы о сложении дисперсий общая дисперсия результативного признака равна сумме объясненной уравнением регрессии и остаточной (необъясненной) дисперсий: . Поэтому коэффициент детерминации может быть рассчитан через остаточную и общую дисперсии:
ε 2 Σ (Y-Ŷ)2 R2=1- ____ = _____________ σ 2y Σ (Y- )2
где - остаточная (необъясненная уравнением регрессии) дисперсия Y. При парной линейной регрессии .
|