Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Краткие теоретические сведения. Условное среднее – среднее арифметическое наблюдавшихся значений величины Y, соответствующих X=x
Условное среднее – среднее арифметическое наблюдавшихся значений величины Y, соответствующих X=x. Функция изменения условного среднего от независимой переменной X называется уравнением регрессии. Уравнения регрессии строятся для зависимых переменных. Эти переменные входят в левую часть уравнения. Независимые переменные входят в правую часть уравнения и позволяют предсказывать зависимую переменную. Предсказанные значения зависимой переменной – значения , вычисленные по уравнению регрессии с оцененными коэффициентами регрессии. Остатки – разности между наблюдаемыми и предсказанными значениями зависимой переменной: Сумма квадратов остатков - сумма вида: Сумма квадратов зависимой переменной, скорректированная на среднее Сумма квадратов предсказанной зависимой переменной, скорректированная на среднее Известно, что для суммы квадратов указанных величин, выполняется равенство: . Коэффициент детерминации и скорректированный коэффициент детерминации , , где: – число наблюдений, – число параметров модели (число независимых переменных плюс 1, так как обычно в модель включается свободный член). Наибольшее применение получили уравнения регрессии, отражающие взаимосвязь одной зависимой переменной с одной (парная регрессия) или несколькими (множественная регрессия) независимыми переменными. Чаще всего используют следующие парные и множественные зависимости: 1) Парная и множественная линейная регрессия: , (4.1) 2) Парная и множественная параболическая регрессия: , (4.2) 3) Парная и множественная гиперболическая регрессия: , (4.3) 4) Парная и множественная степенная регрессия: , (4.4) 5) Парная и множественная показательная регрессия: , , (4.5) Обычно стараются использовать линейные зависимости или зависимости, которые приводят к линейным путям преобразования переменных. Параметры уравнения регрессии подбираются методом наименьших квадратов. Он обеспечивает минимальную сумму квадратов отклонений фактических величин Y от вычисленных по уравнению регрессии для заданных значений независимых переменных. Для линейной регрессии парного типа коэффициенты и находятся из решения системы уравнений: , (4.6) где: , , , . Данная система получается путем минимизации функционала . Из решения системы (6) получаем: , (4.7) . (4.8) Таким образом, функция множественной регрессии имеет вид: , (4.9) где: – функция остатков с нулевым средним и неизвестной дисперсией, определяющая случайное отклонение зависимой переменной от уравнения регрессии. Предполагается, что величины не коррелированны в разных опытах. Часто считают, что остатки нормально распределены. Регрессионный анализ данных предполагает, что выбирается наиболее оптимальный вид функции регрессии из набора (4.1) – (4.5), оцениваются коэффициенты функции регрессии и строятся для них доверительные интервалы, проверяется гипотеза о значимости регрессии, оценивается степень адекватности модели и т.д. Обычно подбор уравнения регрессии осуществляют по шагам. На первом этапе выбирают зависимую переменную и одну наиболее весомую независимую переменную, полученную по результатам корреляционного анализа. Далее строят парную зависимость, определяют коэффициент корреляции и его значимость. На втором шаге добавляют следующую весомую переменную и строят регрессионное уравнение зависимой переменной Y от двух выбранных независимых переменных. Определяют коэффициент множественной корреляции и оценивают регрессию. Далее при необходимости добавляют следующую переменную и т.д. Возможен обратный путь, связанный с поэтапным исключением малозначащих переменных. На каждом шаге проводят графический анализ данных, исключают некоторые аномальные наблюдения и оценивают значимость регрессии. Оценка степени адекватности модели осуществляется путем применения различных процедур анализа распределения остатков. Увеличение размерности уравнений регрессии увеличивает значение коэффициента детерминации. Однако увеличивать размерность (более 2 – 3-х переменных в модели) путем добавления новых независимых переменных имеет смысл, когда наблюдается явное улучшение показателей регрессии: увеличение коэффициента детерминации RI и уменьшение суммы квадратов остатков . Следует придерживаться общего правила, что не следует гнаться за чрезмерной сложностью модели. Для оценки значимости уравнения регрессии в целом применяют F -критерий: . F- критерий используется для проверки гипотезы о значимости регрессии. Она утверждает, что между зависимой переменной и независимыми переменными нет линейной связи, то есть что коэффициенты регрессии равны нулю, против альтернативы, что они не равны нулю. Для проверки гипотезы расчетное значение F -критерия сравнивается с табличным значением F -критерия при уровне значимости и степенях свободы. Если , то уравнение регрессии можно признать статистически значимым, т.е. гипотеза о значимости регрессии подтверждается. Табличные значения F-критерия (критерия Фишера) приводятся в приложении 1. Оценка значимости независимых переменных осуществляется на основе t- критерия , где: – численное значение i- того коэффициента уравнения множественной регрессии; – среднеквадратичное отклонение параметра как случайной величины относительно среднего уровня. Расчетное значение t- критерия сравнивают по абсолютной величине с табличным значением t- критерия при заданном уровне значимости и степенях свободы. Если , то параметр считается значимым и соответствующая независимая переменная отбирается в уравнение множественной регрессии. Табличные значения t -критерия (критерия Стъюдента) приводятся в приложении 2. В случае если данные подчинены нелинейной связи, то используют преобразованные переменные: и для уравнений вида (4), и для уравнений вида (3), и для уравнений вида (5), и для уравнений вида (2) и т.д. При таком преобразовании переменных задача сводится к определению линейного уравнения регрессии вида (1). Исходные нелинейные связи можно установить на основе визуализации данных при анализе парных связей.
|