КАТЕГОРИИ:

Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Регрессионный анализ

Стр 1 из 2Следующая ⇒

Регрессионный анализ тесно связан с методами корреляционного и дисперсионного анализа. В отличие от дисперсионного анализа, с помощью которого исследуется зависимость количественного признака от одного или нескольких качественных признаков, и в отличие от корреляционно анализа, который изучает направление и силу статистической связи признаков, регрессионный анализ изучает вид зависимости признаков, т.е. параметры функции зависимости одного признака от другого или нескольких качественных признаков, в регрессионном анализе исследуется зависимость (количественного или качественного признака) от одного или нескольких количественных признаков. Прогноз в этом случае лучше поддается содержательной интерпретации, становится более ясным воздействие отдельных факторов, лучше понимается природа изучаемого явления.

Регрессии создают базу для расчетного экспериментирования с целью получения ответов на вопросы: «Что будет, если..?».

Регрессионный анализ предполагает решение двух задач:

1. Выбор независимой переменной, влияющей на зависимую величину, определение формы уравнения регрессии. Данная задача является путем анализа изучаемой взаимосвязи.

2. Оценивание параметров – решается с помощью того или иного статистического метода обработки данных наблюдения.

Регрессионный анализ – один из методов статистического моделирования. Моделью в данном случае является уравнение регрессии.

Методы регрессионного анализа можно классифицировать следующим образом:

1. По количеству независимых признаков: однофакторный, или простой (один независимый признак); многофакторный (два независимых признака и более).

2. По типу математической зависимости: линейный; нелинейный; логистический; экспоненциальная регрессия и т.д.

Однофакторная регрессионная модель является методом анализа двух признаков – независимого и зависимого.

Этапами построения регрессионной модели являются: анализ ассоциации зависимого признака с каждым из независимых путем оценки корреляции и построения двумерных графиков; отбор наиболее сильных ассоциаций; построение регрессионного уравнения.

Условия применения метода линейного регрессионного анализа:

· число объектов исследования должно быть в несколько раз больше числа прогностических (объясняющих) признаков);

· все анализируемые признаки должны быть количественными и нормально распределенными;

· независимые признаки могут быть количественными и/или качественными;

· взаимосвязи между каждым из данных независимого признака и зависимым признаком линейны в интервале изучаемых значений;

· каждое значение зависимого признака независимо от любого другого значения независимого признака;

· величина отклонений (вариаций) между фактически и прогнозируемым значением зависимой переменной, есть случайная величина с нормальным распределением и нулевым математическим ожиданием;

· все значения отклонений (вариации) между фактически и прогнозируемым значением зависимой переменной не коррелированны между собой и имеют одинаковую дисперсию.

Покажем, что для проведения регрессионного анализа может сделать средство Регрессия Пакета Анализа.

В отдельных таблицах оно вычисляет следующее:

методом наименьших квадратов – коэффициенты линейной (относительно этих коэффициентов) функции регрессии; вид функции регрессии определяется структурой исходных данных; (Зам. Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов)
коэффициент детерминации и связанные с ним величины (таблица регрессионная статистика); ·
дисперсионную таблицу и критериальную статистику для проверки значимости регрессии (таблица Дисперсионный анализ); ·
для каждого коэффициента регрессии – среднеквадратическое отклонение и другие его статистические характеристики, позволяющие проверить значимость этого коэффициента и построить для него доверительные интервалы; ·
значения функции регрессии и остатки – разности между исходными значениями переменной Y и вычисленными значениями функции регрессии (таблица Ввод остатка); ·
вероятности, соответствующие упорядоченным по возрастанию значениям переменной Y (таблица Вывод вероятности).

Кроме того, средство строит три типа графиков, которые будут показаны ниже.

Пусть входной интервал Х состоит из k диапазонов-столбцов, содержащих значения { x_i ₁}, { x_i ₂},..., { x_ik } переменных Х₁, Х₂,..., Х _k. В каждом диапазоне содержится одинаковое количество значений. Входной интервал Y, состоящий из одного диапазона-столбца, должен содержать такое же количество значений. Средство вычисляет коэффициенты функции регрессии вида

Диалоговое окно средства Регрессия показано на рис..

В поле Входной интервал Y вводится адрес диапазона, содержащего значения зависимой переменной Y. Диапазон должен состоять из одного столбца.

В поле входной интервал Х вводится адрес диапазона, содержащего значения переменной Х. Диапазон должен состоять из одного или нескольких столбцов, но не более чем из 16 столбцов.

Если указанные в полях Входной интервал Y и Входной интервал Х диапазоны включают заголовки столбцов, то необходимо установить флажок опции Метки– эти заголовки будут использованы в выходных таблицах, сгенерированных средством Регрессия.

Флажок опции Константа - следует установить, если в уравнении регрессии константа b принудительно полагается равной нулю.

Опция Уровень надежности устанавливается тогда, когда необходимо построить доверительные интервалы для коэффициентов регрессии с доверительным уровнем, отличным от 0, 95, который используется по умолчанию. После установки флажка опции Уровень надежности становится доступным поле ввода, в котором вводится новое значение доверительного уровня.

В области Остатки имеются четыре опции: Остатки, Стандартизированные остатки, Графику остатков и график подбора. Если установлена хотя бы одна из них, то в выходных результатах появится таблица Вывод остатка, в которой будут выведены значения функции регрессии и остатки – разности между исходными значениями переменной Y и вычисленными значениями функции регрессии.

В области Нормальная вероятность имеется одна опция – График нормальной вероятности; ее установка порождает в выходных результатах таблицу Вывод вероятности и приводит к построению соответствующего графика.

В таблице Регрессионная статистика приводятся следующие данные

Множественный R – корень из коэффициента детерминации R ², приведенного в следующей строке. Другое название этого показателя – индекс корреляции, или множественный коэффициент корреляции.

R–квадрат коэффициент дерминации R²; вычисляется как отношение регрессионной суммы квадратов к полной сумме квадратов. Величина показывает, какая часть (доля) вариации объясняемой переменной обусловлена вариацией объясняющей переменной (). Чем ближе к единице, тем лучше регрессия аппроксимирует эмпирические данные. Если , то между и существует линейная функциональная зависимость. Если , то объясняемая переменная не зависит от данного набора объясняющих переменных.

Имеющуюся расчетную величину R²расч необходимо сравнить с табличными (критическими) значениями R²_критдля соответствующего уровня значимости (0, 05) (см. приложение 1). Если окажется, что R²_расч> R²_крит, то с упомянутой степенью вероятности (95%) можно утверждать, что анализируемая регрессия является значимой.

Нормированный R–квадрат скорректированный (адаптированный, поправленный(adjusted)) коэффициент детерминации.

где – число наблюдений, – число объясняющих переменных.

Недостатком коэффициента детерминации является то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать . В отличие от скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную.

Стандартная ошибка регрессии , где – необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

Наблюдения – количество значений переменной Y.

Дисперсионная таблица

В столбце SS приводятся суммы квадратов, в столбце df – число степеней свободы, в столбце MS –дисперсии. В столбце F вычислено значение критериальной статистики для проверки значимости регрессии. Это значение вычисляется как отношение регрессионной дисперсии к остаточной.

F и Значимость F позволяют проверить значимость уравнения регрессии, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

По эмпирическому значению статистики F проверяется гипотеза равенства нулю одновременно всех коэффициентов модели. Значимость F – теоретическая вероятность того, что при гипотезе равенства нулю одновременно всех коэффициентов модели F-статистика больше эмпирического значения F.

Уравнение регрессии значимо на уровне , если , где - табличное значение F -критерия Фишера (, см. приложение 2).

На уровне значимости гипотеза отвергается,

если Значимость , и принимается, если Значимость .

В следующей таблице, в столбце Коэффициенты, записаны вычисленные значения коэффициентов функции регрессии, при этом в строке Y - пересечение записано значение свободного члена .

В столбце Стандартная ошибка вычислены среднеквадратические отклонения коэффициентов.

В столбце t-статистика записаны отношения значений коэффициентов к их среднеквадратическим отклонениям. Это значения критериальных статистик для проверки гипотез о значимости коэффициентов регрессии.

– t -статистика соответствующего коэффициента .

– критическая точка распределения Стьюдента, (см. приложение 3).

Если , то коэффициент считается статистически значимым.

Если , то коэффициент считается статистически незначимым. Это означает, что фактор линейно не связан с зависимой переменной . Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Поэтому после установления того факта, что коэффициент незначим, рекомендуется исключить из уравнения регрессии переменную . Это не приведет к существенной потере качества модели, но сделает ее более корректной.

В столбце P-Значение вычисляются уровни значимости, соответствующие значениям критериальных статистик.

Если вычисленный уровень значимости меньше заданного уровня значимости (0, 05), то принимается гипотеза о значимом отличии коэффициента от нуля; в противном случае принимается гипотеза о незначимом отличии коэффициента от нуля.

P-Значение – вероятность, позволяющая определить значимость коэффициента регрессии .

Для уровня значимости :

Если P-Значение , то коэффициент незначим, следовательно, гипотеза принимается.

Если P-Значение , то коэффициент значим, следовательно, гипотеза отвергается.

В столбцах 95% и 95% приводятся границы доверительных интервалов с доверительным уровнем 0, 95. Эти границы вычисляются по формулам

Нижние 95% = Коэффициент - Стандартная ошибка×

Верхние 95% = Коэффициент + Стандартная ошибка×

Здесь –квантиль порядка распределения Стьюдента с (n – k – 1) степенью свободы. В данном случае a = 0, 95. Аналогично вычисляются границы доверительных интервалов в столбцах 90, 0% и 90, 0%. Отметим, что если в диалоговом окне Регрессия не устанавливать опцию Уровень надежности, то будут повторены столбцы 95% и 95%.

Рассмотрим таблицу Вывод остатка из выходных результатов средства.

Напомним, что эта таблица появляется в выходных результатах только тогда, когда установлена хотя бы одна опция в области Остатки диалогового окна Регрессия.

В столбце Наблюдение приводятся порядковые номера значений переменной Y.

В столбце Предсказанное Y вычисляются значения функции регрессии для тех значений переменной Х, которым соответствует порядковый номер i в столбце Наблюдение. В столбце Остатки содержатся разности (остатки) , а в столбце Стандартные остатки – нормированные остатки, которые вычисляются как отношения , где –среднеквадратическое отклонение остатков. Квадрат величины вычисляется по формуле , где среднее остатков. Здесь величину можно вычислить как отношение двух значений из дисперсионной таблицы: суммы квадратов остатков и степени свободы из строки Итого.

По значениям таблицы Вывод остатков средство Регрессия строит два типа графиков: графики остатков и графики подбора (если установлены соответствующие опции в области диалогового окна). Графики строятся для каждого компонента переменной Х в отдельности. На графиках остатков отображаются остатки, т.е. разности между
исходными значениями Y и вычисленными по функции регрессии для каждого значения компонента переменной Х. На графиках подбора отображаются как исходные значения Y, так и вычисленные значения функции регрессии для каждого значения компонента переменной Х.

Последней таблицей выходных результатов средства является таблица Вывод вероятности. Она появляется, если в диалоговом окне Регрессия установлена опция График нормальной вероятности. Значения в столбце Перцентиль вычисляются следующим образом. Вычисляется шаг , первое значение равно h/2, последнее равно 100– h /2. Начиная со второго значения каждое последующее значение равно предыдущему, к которому прибавлен шаг h. В столбце Y приведены значения переменной Y, упорядоченные по возрастанию. По данным этой таблицы строится так называемый график нормального распределения. Он позволяет визуально оценить степень линейности зависимости между переменными Х и Y

12 Следующая ⇒

Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2026 год. (0.872 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал