Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Тема 8 . Применение корреляционно-регрессионного анализа в статистике
Изучаемые вопросы 1. Определение формы корреляционной зависимости. 2. Расчет параметров уравнения репрессии и тесноты связи.
1. Любое общественное явление находится в связи с другими явлениями; исследование таких взаимосвязей - важнейшая задача статистики. Наиболее часто для этого используют метод корреляции. Термин корреляции происходит от английского слова correlation - соотношение, соответствие. К изучению связи методом корреляции обращаются в том случае, когда нельзя игнорировать влияние посторонних факторов. При этом число наблюдений должно быть достаточно велико, так как малое число наблюдений не позволяет обнаружить закономерность связи. Первая задача корреляции заключается в выявлении на основе значительного числа наблюдений того, как меняется в среднем результативный признак в связи с изменением одного или нескольких факторов. Вторая задача состоит в определении степени влияния искажающих факторов. Первая задача решается определением уравнения регрессии и носит название регрессионного анализа. Вторая - определением различных показателей тесноты связи и называется собственно и корреляционным анализом. При изучении влияния одних признаков явлений на другие из цепи признаков, характеризующих данное явление, выделяются факторные и результативные признаки. Выделение признаков ведется логическим анализом. Например, производительность труда зависит от стажа работы, разряда рабочих. Значит, производительность труда – результативный (функциональный) признак, а стаж, разряд рабочего - факторный признак (аргумент). Связь между двумя взаимосвязанными признаками легко изобразить графически. Для этого результативный признак (функцию) обозначают y, а факторный (аргумент) - x. Пару чисел легко представить на плоскости, образуемой системой прямоугольных координат, при этом факторный признак откладывается на оси абсцисс и результативный - на оси ординат. Если одному значению факторного признака соответствует только одно значение результативного, то такая связь называется функциональной. Функциональные связи легко представить формулами. Например, зависимость силы тока от величины напряжения к сопротивлению в электрической цепи (закон Ома). Связь между случайными величинами называется стохастической. Эта связь характеризуется тем, что результативный признак не полностью определяется факторным признаком, его влияние проявляется в среднем при достаточно большом числе наблюдений. Пример Имеются следующие данные о разряде рабочего и среднемесячной заработной плате.
Изобразим эти данный графически (рис. 7).
Рис. 7. График корреляционной зависимости (поле корреляции)
Видно, что одному значению аргумента (разряду) соответствует ряд распределения функции (зарплаты). Ряды распределения функции закономерно смещаются - зарплата в среднем увеличивается с повышением разряда. Найдем средние значения аргумента и функции.
и т.п. Нанесем на график и и соединим ломаной линией (рис. 7). Эта линия изображает взаимосвязь между средними значениями аргумента и функции и называется эмпирической линией регрессии. Необходимо установить теоретическую линию регрессии, т.е. установить функцию, связывающую результативный и факторный признаки. Полученная ломаная регрессия (рис. 8) может помочь в выборе функции. Увеличение или уменьшение результативного и факторного признаков в арифметической прогрессии означают, что сглаживание нужно производить по прямой . В этом случае эмпирические графики должны быть (рис. 8): Если равноускоренное или равнозамедленное изменение функции (рис. 9), то сглаживание можно провести по параболе второго порядка или по гиперболе .
Рис. 8. Эмпирические линии регрессии Рис. 9. Эмпирические линии регрессии при при зависимости по прямой зависимости по параболе и гиперболе
Более сложные зависимости могут быть иллюстрированы параболой третьего порядка, логарифмической или показательной функцией.
2. Выбрав теоретическую функцию, описывающую корреляционную зависимость между результативным и факторным признаком, нужно рассчитать параметры уравнения регрессии. Расчет чаще всего производится по способу наименьших квадратов при использовании системы нормальных уравнений. Эти системы различны для разного рода кривых: 1. Прямая линия ; (38) 2. Парабола второго порядка ; (39) 3. Гипербола . . (40) В нашем примере, используя в качестве теоретической функции прямую , рассчитаем параметры уравнения по (38). Для этого определим . Решив систему нормальных уравнений, найдем a» 54, b» 50. Следовательно, уравнение имеет вид . Значит, для рабочего 2 разряда зарплата по уравнению рассчитывается (р.) - что отличается от эмпирических данных. Теснота или сила связи между двумя признаками может быть измерена эмпирическим корреляционным отношением (h) . (41) В случае прямолинейной связи тесноту можно определить с помощью коэффициента корреляции (r). . (42) Коэффициент корреляции может изменяться от +1 до -1. Чем ближе значение r по абсолютной величине к единице, тем теснее связь. Если r > 0, то связь между факторным и результативным признаком прямо пропорциональная, если r < 0, то - обратно пропорциональная. В нашем примере: по (42) Значит, связь прямо пропорциональная, достаточно тесная. Используя найденное теоретическое уравнение корреляции, можно найти неизвестное значение , зная x.
Вопросы для самопроверки 1. Как рассчитать и построить эмпирическую линию регрессии? 2. Постройте теоретическую линию регрессии, если r = -0, 8. 3. Чем теоретическая линия регрессии отличается от эмпирической?
|