Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Парная линейная регрессия
Мы убедились, что наилучшим в смысле среднеквадратичного приближения одной случайной величины с помощью функции остальных координат случайного вектора является функция регрессии. Для двумерного случайного вектора наименьшее среди всех возможных функций y = f (x), x = g (y) значение критериям Q 1[ f (x)] = М(h – f (x))2, Q 2[ g (y)] = М(x – g (y))2 доставляют функции регрессии. Естественно поставить задачу выбора оптимальных по критериям Q 1[ f (x)] и Q 2[ g (y)] соответственно фнкций y = f (x), x = g (y), ограничиваясь некоторым определенным заранее классом функций. Решение задачи в такой постановке известно под названием метода наименьших квадратов. В этом случае функции y = f (x) и x = g (y), вообще говоря, не являются функциями регрессии в смысле данного выше определения (п. 2.1). Однако в приложениях для них сохраняют термин функции регрессии и линии регрессии с указанием соответствующего класса функций: линейная регрессии, параболическая регрессия и т.д. Разъяснение неоднозначности этих терминов можно найти на примере, который приводится п. 2.3. Особый интерес представляет собой среднеквадратическая регрессия в классе тригонометрических многочленов. Этому вопросу посвящается отдельный раздел в курсе математического анализа. Мы ограничимся рассмотрением простейшего случая минимизации среднего квадрата в классе линейных функций. В этой ситуации говорят о линейной регрессии. Заметим, что к линейной регрессии сводятся также случаи многих других классов функций. Линейная среднеквадратичная регрессия в двумерном случае, в приложениях называемая парной линейной регрессией, приводит к следующей задаче. Предположим, что для двумерного случайного вектора (x, h) известны все моменты до второго порядка включительно и дисперсии его компонент не равны нулю: Dx ¹ 0, Dh ¹ 0. Требуется найти такую линейную функцию f (x) = a x +b, (2.8)
которая доставляет минимальное значение среднему квадрату
Q 1[(a, b)] = М(h – (ax + b))2. (2.9)
Иначе говоря, требуется найти параметры a0, b0 так, чтобы выполнялось условие: М(h – (ax + b))2 = М(h – (a0x + b0))2. (2.10)
Переходим к принятым обозначениям для моментов двумерного случайного вектора:
· mkl = M(x k h l) – смешанный начальный момент порядка k, l; · m kl = M((x–Mx) k (h–Mh) l) – смешанный центральный момент порядка k, l.
Преобразуем средний квадрат отклонения (2.9), используя введенные обозначения моментов:
М(h – (ax + b))2 = = М((h – m 01) – a(x – m 10) + m 01 – (a m 10 + b))2,
что приводит к выражению:
М(h – (ax + b))2 = = m02 – + – 2 + (m 01 – (a m 10 + b))2. (2.11)
В соответствии с поставленной задачей минимизации выражения (2.9) за счет выбора a и b приходим к условиям:
. (2.12) Решением этой системы и будут требуемые значения a и b:
a = , b = m 01 – m 10. (2.13)
Таким образом, доказана следующая теорема. Теорема. Если случайный вектор (x, h) имеет все моменты до второго порядка включительно и при этом m20 и m02 не равны нулю, то среди всех линейных функций y = a x + b существует единственная линейная функция, при которой критерий
Q 1[(a, b)] = М(h – (ax + b))2
принимает наименьшее значение, которое достигается при следующих значениях a и b:
a0 = , b0 = m 01 – m 10. (2.14)
Иначе говоря, прямая линия y = a0 x + b0 является прямой наилучшего среди всех прямых среднеквадратичного приближения зависимости координаты h от координаты x по критерию Q 1[(a, b)].
Абсолютно симметричный результат получим, выбирая линейную функцию x = g y + d наилучшего среднеквадратичного приближения зависимости координаты x от координаты h, имея в виду критерий
Q 2[(g, d)] = М(x– (gh + d))2.
Наименьшему значению критерия Q 2[(g, d)] соответствуют значения g0 = , d0 = m 10 – m 01 . (2.15) Для более удобного выражения a0, b0 преобразуем (1.15) и воспользуемся формулой r (x, h) = (2.16) котрая определяет характеристику r = r (x, h), называемую коэффициентом корреляции случайных величин x и h. В теории вероятностей мы уже познакомились с этой характеристикой. Более подробно вероятностный смысл и свойства этой характеристики мы рассмотрим в п. 2.2.1. Формулы (2.15) с учетом выражения (2.16) принимают вид: a0 = r, b0 = m 01 – m 10a0. (2.17) Уравнение прямой линии среднеквадратичной регрессии h на x y = a0 x + b0,
учитывая полученные значения a0, b0 (1.18), можем теперь переписать в виде: . (2.18) Точно таким же образом получим уравнение прямой линии средней квадратичной регрессии x на h:
. (2.19)
Теперь можно определить соответствующие минимальные значения критериев Q 1[(a, b)] и Q 2[(a, b)]:
Q 1[(a, b)] = М(h – (ax + b))2, Q 2[(g, d)] = М(x– (gh + d))2.
Из (2.11), (2.12) и (2.16) следует:
М(h – (ax + b))2 = m02(1 – r 2), (2.20) М(x – (gh + d))2 = m20(1 – r 2). (2.21)
Эти минимальные значения среднеквадратичных отклонений называются остаточными дисперсиями. Более подробно об этих характеристиках см. п. 3.2. Приведем предельные значения остаточной дисперсии в зависимости от коэффициента корреляции r. Наибольшие значения:
М(h – (ax + b))2 = m02, (2.22) М(x – (gh + d))2 = m20, (2.23) если случайные величины x и h не коррелированы, т. е. r = 0. Наименьшие значения:
М(h – (ax + b))2 = 0; (2.24) М(x – (gh + d))2 = 0. (2.25)
Эти значения достигаются, если между случайными величинами имеет место линейная зависимость, т. е. r 2 = 1. Геометрический смысл прямых линий среднеквадратической регрессии состоит в том, что эти прямые доставляют наименьшее среди всех прямых значение среднему квадрату расстояния некоторой системы материальных точек, если это расстояние измерять вдоль координатных осей. По уравнениям этих прямых (2.18) и (2.19) можно определить угол j между ними. Известными из аналитической геометрии средствами находим:
tgj = (2.26)
Если r 2 = 1, то обе прямые среднеквадратичной регрессии совпадают. В этом случае, как мы видели из (2.24) и (2.25), остаточные дисперсии равны нулю. Это имеет место тогда (и только тогда), когда случайные величины x и h с вероятностью 1 связаны линейной зависимостью, т. е.
P(h = ax + b) = 1. (2.27)
Перечислим теперь основные свойства прямых среднеквадратичной регрессии, которые следуют непосредственно из формул (2.19) – (2.22) и (2.26).
Свойство 1. Прямые регрессии проходят через точку (m 10, m 01).
Свойство 2. Если между случайными величинами имеет место собственная линейная зависимость, то линии регрессии совпадают.
Свойство 3. Если случайные величины не коррелированы, то прямые регрессии ортогональны. Свойство 4. Угол j между прямыми регрессии определяется формулой (2.27).
Рассмотрим пример вычисления моментов и уравнений регрессии двумерного случайного вектора. П р и м е р. Распределение дискретного двумерного случайного вектора задано таблицей. Здесь – возможные значения координат случайного вектора , – неизвестная вероятность.
Вычисления приводятся с точностью до 10-4 .
1. Имея в виду свойство 2 дискретного совместного распределения , получаем 0, 92+ , поэтому , и имеем теперь полную таблицу совместного распределения двумерного случайного вектора.
2. Частные распределения координат находим, пользуясь таблицами 2 и 3 и формулами 2.1. Таблицы частных распределений:
3. Находим моменты частных распределений координат.
; ;
; .
; .
4. Находим ковариацию и коэффициент корреляции.
; ; ;
Имеет место отрицательная корреляция.
5. Строим условные распределения координат случайного вектора. По формулам (3.2) находим условные вероятности, и результаты оформляем в виде таблиц условных распределений координат.
6. Находим условные математические ожидания и дисперсии координат. Условные математические ожидания , , и приводим в следующих таблицах.
7. Составляем линейные уравнения наилучшего квадратического приближения (по методу наилучших квадратов) к линиям регрессии. В соответствии с формулами (1.19) и (1.20) п. 2.3 имеем:
; .
После преобразований получаем линейные уравнения регрессии:
; .
8. Ломаные линии регрессии строим по точкам на основании таблиц условных математических ожиданий.
1. Уравнения и прямые регрессии (линии наилучшего среднеквадратичного приближения) определяются уравнениями линейной регрессии
|