Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Парная линейная регрессия






Мы убедились, что наилучшим в смысле среднеквадратичного приближения одной случайной величины с помощью функции остальных координат случайного вектора является функция регрессии. Для двумерного случайного вектора наименьшее среди всех возможных функций y = f (x), x = g (y) значение критериям Q 1[ f (x)] = М(h – f (x))2, Q 2[ g (y)] = М(x – g (y))2 доставляют функции регрессии.

Естественно поставить задачу выбора оптимальных по критериям Q 1[ f (x)] и Q 2[ g (y)] соответственно фнкций y = f (x), x = g (y), ограничиваясь некоторым определенным заранее классом функций. Решение задачи в такой постановке известно под названием метода наименьших квадратов. В этом случае функции y = f (x) и x = g (y), вообще говоря, не являются функциями регрессии в смысле данного выше определения (п. 2.1). Однако в приложениях для них сохраняют термин функции регрессии и линии регрессии с указанием соответствующего класса функций: линейная регрессии, параболическая регрессия и т.д. Разъяснение неоднозначности этих терминов можно найти на примере, который приводится п. 2.3. Особый интерес представляет собой среднеквадратическая регрессия в классе тригонометрических многочленов. Этому вопросу посвящается отдельный раздел в курсе математического анализа.

Мы ограничимся рассмотрением простейшего случая минимизации среднего квадрата в классе линейных функций. В этой ситуации говорят о линейной регрессии. Заметим, что к линейной регрессии сводятся также случаи многих других классов функций.

Линейная среднеквадратичная регрессия в двумерном случае, в приложениях называемая парной линейной регрессией, приводит к следующей задаче.

Предположим, что для двумерного случайного вектора (x, h) известны все моменты до второго порядка включительно и дисперсии его компонент не равны нулю: Dx ¹ 0, Dh ¹ 0. Требуется найти такую линейную функцию

f (x) = a x +b, (2.8)

 

которая доставляет минимальное значение среднему квадрату

 

Q 1[(a, b)] = М(h – (ax + b))2. (2.9)

 

Иначе говоря, требуется найти параметры a0, b0 так, чтобы выполнялось условие:

М(h – (ax + b))2 = М(h – (a0x + b0))2. (2.10)

 

Переходим к принятым обозначениям для моментов двумерного случайного вектора:

 

· mkl = M(x k h l) – смешанный начальный момент порядка k, l;

· m kl = M((x–Mx) k (h–Mh) l) – смешанный центральный момент порядка k, l.

 

Преобразуем средний квадрат отклонения (2.9), используя введенные обозначения моментов:

 

М(h – (ax + b))2 =

= М((h – m 01) – a(x – m 10) + m 01 – (a m 10 + b))2,

 

что приводит к выражению:

 

М(h – (ax + b))2 =

= m02 + 2 + (m 01 – (a m 10 + b))2. (2.11)

 

В соответствии с поставленной задачей минимизации выражения (2.9) за счет выбора a и b приходим к условиям:

 

. (2.12)

Решением этой системы и будут требуемые значения a и b:

 

a = , b = m 01 m 10. (2.13)

 

Таким образом, доказана следующая теорема.

Теорема. Если случайный вектор (x, h) имеет все моменты до второго порядка включительно и при этом m20 и m02 не равны нулю, то среди всех линейных функций y = a x + b существует единственная линейная функция, при которой критерий

 

Q 1[(a, b)] = М(h – (ax + b))2

принимает наименьшее значение, которое достигается при следующих значениях a и b:

 

a0 = , b0 = m 01 m 10. (2.14)

 

Иначе говоря, прямая линия y = a0 x + b0 является прямой наилучшего среди всех прямых среднеквадратичного приближения зависимости координаты h от координаты x по критерию Q 1[(a, b)].

 

Абсолютно симметричный результат получим, выбирая линейную функцию x = g y + d наилучшего среднеквадратичного приближения зависимости координаты x от координаты h, имея в виду критерий

 

Q 2[(g, d)] = М(x– (gh + d))2.

 

Наименьшему значению критерия Q 2[(g, d)] соответствуют значения

g0 = , d0 = m 10 m 01 . (2.15)

Для более удобного выражения a0, b0 преобразуем (1.15) и воспользуемся формулой

r (x, h) = (2.16)

котрая определяет характеристику r = r (x, h), называемую коэффициентом корреляции случайных величин x и h. В теории вероятностей мы уже познакомились с этой характеристикой. Более подробно вероятностный смысл и свойства этой характеристики мы рассмотрим в п. 2.2.1. Формулы (2.15) с учетом выражения (2.16) принимают вид:

a0 = r, b0 = m 01 m 10a0. (2.17)

Уравнение прямой линии среднеквадратичной регрессии h на x

y = a0 x + b0,

 

учитывая полученные значения a0, b0 (1.18), можем теперь переписать в виде:

. (2.18)

Точно таким же образом получим уравнение прямой линии средней квадратичной регрессии x на h:

 

. (2.19)

 

Теперь можно определить соответствующие минимальные значения критериев Q 1[(a, b)] и Q 2[(a, b)]:

 

Q 1[(a, b)] = М(h – (ax + b))2, Q 2[(g, d)] = М(x– (gh + d))2.

 

Из (2.11), (2.12) и (2.16) следует:

 

М(h – (ax + b))2 = m02(1 – r 2), (2.20)

М(x – (gh + d))2 = m20(1 – r 2). (2.21)

 

Эти минимальные значения среднеквадратичных отклонений называются остаточными дисперсиями. Более подробно об этих характеристиках см. п. 3.2. Приведем предельные значения остаточной дисперсии в зависимости от коэффициента корреляции r. Наибольшие значения:

 

М(h – (ax + b))2 = m02, (2.22)

М(x – (gh + d))2 = m20, (2.23)

если случайные величины x и h не коррелированы, т. е. r = 0.

Наименьшие значения:

 

М(h – (ax + b))2 = 0; (2.24)

М(x – (gh + d))2 = 0. (2.25)

 

Эти значения достигаются, если между случайными величинами имеет место линейная зависимость, т. е. r 2 = 1.

Геометрический смысл прямых линий среднеквадратической регрессии состоит в том, что эти прямые доставляют наименьшее среди всех прямых значение среднему квадрату расстояния некоторой системы материальных точек, если это расстояние измерять вдоль координатных осей.

По уравнениям этих прямых (2.18) и (2.19) можно определить угол j между ними. Известными из аналитической геометрии средствами находим:

 

tgj = (2.26)

 

Если r 2 = 1, то обе прямые среднеквадратичной регрессии совпадают. В этом случае, как мы видели из (2.24) и (2.25), остаточные дисперсии равны нулю. Это имеет место тогда (и только тогда), когда случайные величины x и h с вероятностью 1 связаны линейной зависимостью, т. е.

 

P(h = ax + b) = 1. (2.27)

 

Перечислим теперь основные свойства прямых среднеквадратичной регрессии, которые следуют непосредственно из формул (2.19) – (2.22) и (2.26).

 

Свойство 1. Прямые регрессии проходят через точку (m 10, m 01).

 

Свойство 2. Если между случайными величинами имеет место собственная линейная зависимость, то линии регрессии совпадают.

 

Свойство 3. Если случайные величины не коррелированы, то прямые регрессии ортогональны.

Свойство 4. Угол j между прямыми регрессии определяется формулой (2.27).

 

Рассмотрим пример вычисления моментов и уравнений регрессии двумерного случайного вектора.

П р и м е р. Распределение дискретного двумерного случайного вектора задано таблицей. Здесь – возможные значения координат случайного вектора , – неизвестная вероятность.

 

\yj xi        
  0, 03 0, 09 р
  0, 02 0, 06 0, 13 0, 1
  0, 07 0, 11 0, 08 0, 04
  0, 14 0, 05

 

 

Вычисления приводятся с точностью до 10-4 .

 

1. Имея в виду свойство 2 дискретного совместного распределения , получаем 0, 92+ , поэтому , и имеем теперь полную таблицу совместного распределения двумерного случайного вектора.

 

         
    0, 03 0, 09 0, 08
  0, 02 0, 06 0, 13 0, 1
  0, 07 0, 11 0, 08 0, 04
  0, 14 0, 05    

 

2. Частные распределения координат находим, пользуясь таблицами 2 и 3 и формулами 2.1. Таблицы частных распределений:

 

                 
0.2 0.31 0.3 0.19 0.23 0.25 0.3 0.22

 

3. Находим моменты частных распределений координат.

 

; ;

 

; .

 

; .

 

4. Находим ковариацию и коэффициент корреляции.

 

; ; ;

 

Имеет место отрицательная корреляция.

 

5. Строим условные распределения координат случайного вектора. По формулам (3.2) находим условные вероятности, и результаты оформляем в виде таблиц условных распределений координат.

 

 

x\y        
    0, 12 0, 3 0, 3636
  0, 0870 0, 24 0, 4333 0, 4545
  0, 3043 0, 44 0, 2666 0, 1818
  0, 6087 0, 20    

 

 

x\y        
    0, 15 0, 45 0, 40
  0, 0645 0, 1935 0, 4194 0, 3226
  0, 2333 0, 3667 0, 2667 0, 1333
  0, 7368 0, 2632    

 

6. Находим условные математические ожидания и дисперсии координат.

Условные математические ожидания , , и приводим в следующих таблицах.

 

x\y        
    0, 15 0, 45 0, 40 =4, 2500
  0, 0645 0, 1935 0, 4194 0, 3226 =4, 0001
  0, 2333 0, 3667 0, 2667 0, 1333 =3, 3000
  0, 7368 0, 2632     =2, 2632

 

 

x\y        
    0, 15 0, 45 0, 40
  0, 0645 0, 1935 0, 4194 0, 3226
  0, 2333 0, 3667 0, 2667 0, 1333
  0, 7368 0, 2632    
=3, 7761 =2, 6899 =2, 0889 =1, 4451

 

7. Составляем линейные уравнения наилучшего квадратического приближения (по методу наилучших квадратов) к линиям регрессии.

В соответствии с формулами (1.19) и (1.20) п. 2.3 имеем:

 

; .

 

После преобразований получаем линейные уравнения регрессии:

 

; .

 

8. Ломаные линии регрессии строим по точкам на основании таблиц условных математических ожиданий.

 

x        
y 3, 7761 2, 6899 2, 0889 1, 4451

 

 

 

x 4, 2500 4, 0001 3, 3000 1, 4451
y        

 

 

 

 

1. Уравнения и прямые регрессии (линии наилучшего среднеквадратичного приближения) определяются уравнениями линейной регрессии

 

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2025 год. (0.025 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал