![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Основные предпосылки регрессионного анализа
1. Остатки и зависимая переменная у должна быть случайными величинами, а переменная хi – фиксированная или неслучайная величина (экзогенная), задаваемая извне. У – случайная (эндогенная) величина. 2. Математическое ожидание остатков Ei равно нулю: M(Еi) = 0. 3. Дисперсия остатков Ei постоянна для любого i: 4. Остатки Еi и Еj не коррелированны: Проверка предпосылок и предположений регрессионного анализа включает в себя следующие задачи: 1) оценка случайности зависимой переменной; 2) оценка стационарности и эргодичности зависимых и независимых переменных; 3) Проверка гипотезы о нормальности распределения ошибок E; 4) Обнаружение выбросов; 5) Проверка постоянства математического ожидания и дисперсии ошибок; 6) Оценка коррелированности остатков; 7) Обнаружение мультиколлинеарности. 44. Метод наименьших квадратов – сущность и использование для оценки параметров парной линейной регрессии Допустим, что вы имеете четыре наблюдения для х и у, представленные на рис. 2., и перед вами поставлена задача — определить значения a и b в уравнении (2.1). В качестве грубой аппроксимации вы можете сделать это, отложив четыре точки Р и построив прямую, в наибольшей степени соответствующую этим точкам. Это сделано на рис.2.3
С самого начала необходимо признать, что вы никогда не сможете рассчитать истинные значения a и b при попытке построить прямую и определить положение линии регрессии. Вы можете получить только оценки, и они могут быть хорошими или плохими. Иногда оценки могут быть абсолютно точными, но это возможно лишь в результате случайного совпадения, и даже в этом случае у вас не будет способа узнать, что оценки абсолютно точны. Это справедливо и при использовании более совершенных методов. Построение линии регрессии на глаз является достаточно субъективным. Более того, как мы увидим в дальнейшем, это просто невозможно, если переменная у зависит не от одной, а от двух или более независимых переменных. Возникает вопрос: существует ли способ достаточно точной оценки a и b алгебраическим путем? Первым шагом является определение остатка для каждого наблюдения. За исключением случаев чистого совпадения, построенная вами линия регрессии не пройдет точно ни через одну точку наблюдения. Например, на рис.4 (слайд 2.4) при х = x1 соответствующей ему точкой на линии регрессии будет R1 со значением у, которое мы обозначим
Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов S. Для рис. 2.4 верно такое соотношение: S = Величина S будет зависеть от выбора а и b, так как они определяют положение линии регрессии. В соответствии с этим критерием, чем меньше S, тем строже соответствие. Если S= 0, то получено абсолютно точное соответствие, так как это означает, что все остатки равны нулю. В этом случае линия регрессии будет проходить через все точки, однако, вообще говоря, это невозможно из-за наличия случайного члена. Существуют и другие достаточно разумные решения, однако при выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки a и b. По этой причине метод наименьших квадратов является наиболее популярным в вводном курсе регрессионного анализа. После построения линии регрессии стоит более детально рассмотреть общее выражение для остатка в каждом наблюдении. Логика этого рассмотрения является достаточно простой. Однако на первый взгляд она может показаться абстрактной, поэтому более наглядно графическое представление. На рис. 5 (слайд 2.5) линия регрессии
Когда х=хi линия регрессии предсказывает значение у= Используя условные обозначения, принятые на рис.5, это уравнение можно переписать следующим образом: RT = ST + RS (2.5) так как отрезок ST равен а, а отрезок RS равен bxi Остаток PR — это разность между РТ и RT: PR = PT - RT = PT - ST - RS (2.6) Используя обычную математическую запись, представим формулу (6) в следующем виде: ei = yi - Если бы в примере, показанном на графике (рис.5) мы выбрали несколько большее значение а или несколько большее значение b, то прямая прошла бы ближе к Р, и остаток ei был бы меньше. Однако это повлияло бы на остатки всех других наблюдений, и это необходимо учитывать. Минимизируя сумму квадратов остатков, мы попытаемся найти некоторое равновесие между ними. Рассмотрим случай, когда имеется п наблюдений двух переменных х и у. Предположив, что у зависит от х, мы хотим подобрать уравнение:
Расчетное значение зависимой переменной Можно доказать, что величина S минимальна, когда
и Варианты выражения для b. Так как и мы можем получить следующие выражения для b:
В дальнейшем будет использоваться первоначальное определение b= Cov (х, y) /Var(х) и это выражение, вероятно, легче всего запомнить. На практике для вычисления коэффициентов регрессии используется компьютер, поэтому нет смысла запоминать альтернативные выражения. Зная определения выборочной дисперсии и ковариации, вы всегда сможете вывести эти выражения.
|