Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Лекция №12. Статистические методы апроксимации зависимостей






Различают четыре типа зависимостей между двумя перемен­ными:

1) между неслучайными переменными, не тре­бующую для своего изучения применения статистических методов,

2) между случайной переменной у от неслучайной пере­менной х, исследуемую методами регрессионного анализа,

3) между случайными переменными у и х, изучае­мую методами корреляционного анализа,

4) между неслучайными переменными, когда они обе содержат ошибки измерения, требующую для своего изуче­ния применения конфлюэнтного анализа. Конфлюэнтный анализ следует применять также, когда вместо результатов индивидуаль­ных наблюдений значений у и х используются их средние значения по группам наблюдений.

В связи со сложностью разработки общей теории конфлюэнт­ного анализа он не получил достаточного развития. Необходимо отметить, что в ряде случаев представляется возможным решать задачу конфлюэнтного анализа методами корреляционного и регрессионного анализов [74].

Применение регрессионного ана­лиза для обработки результатов наблюдений связано с меньшим числом ограничений, чем корреляционного анализа, и позволяет получить оценку влияния переменной (аргумента), на перемен­ную, которая считается зависимой от первой.

В регрессионном анализе предполагается, что случайная вели­чина у распределена нормально при каждом значении перемен­ной х. Дисперсия у во всем интервале изменения х постоянна или пропорциональна известной функции от х. Вид функции предполагается известным:

(12.1)

Задача заключается в нахождении оценок неизвестных параметров фигурирующих в уравнении. При этом относительно закона изменения величины х не делается никаких ограничений - она может изменяться либо по заданной про­грамме, либо произвольным образом, быть непрерывной или дискретной величиной - во всех случаях регрессионный анализ осуществляется одинаково. Перед началом обработки результатов наблюдений на основе теоретических (профессиональных) соображений и рассмотрения графика положения средних при различных - x, выдвигается ги­потеза о виде функции, связывающей величины Y и х. При этом функция должна быть линейная относительно параметров

Оценку параметров в уравнении регрессии осуществляют методом наименьших квадратов, исходя из требо­вания

; (12.2)

где j - номер испытания при i -том значении х,

n- число испытаний при xi,

k - число различных значений х.

Получаемые оценки параметров являются несмещен­ными, состоятельными, подчиняются нормальному распределе­нию со средними, равными искомым параметрам, и минимальной дисперсией.

Предполагается, что между перемен­ными у и x существует линейная зависимость. Во многих случаях нелинейная связь может быть преобразована в линейную и к ана­лизу результатов наблюдений могут быть применены излагаемые приемы вычислений. Кроме того, принимается, что дисперсия у постоянна во всем интервале изменения х.

12.1 Линейный регрессионный анализ когда Y является функцией одной переменной х:

; (12.3)

В результате обработки экспериментальных данных мы должны получить оценку для теоретической линии регрессии:

; (12.4)

Для этого минимизируем сумму квадратов отклонений наблю­денных значений у от эмпирической линии регрессии:

; (12.5)

Дифференцируя с этой целью правую часть выражения по b0 и b1 и приравнивая обе производные нулю, получим после преобразований два уравнения:

, (12.6); и , (12.7).

Так как сумма отклонений от среднего =0,

то получим: , (12.8); и , (12.9)

Дисперсия значений у, относительно эмпирической линии регрессии оценивается выражением

; (12.10)

Проверку гипотезы о линейности связи осуществляют, сопо­ставляя дисперсию средних , относительно линии регрес­сии с дисперсией индивидуальных значений у относительно сред­них , которую рассматривают, как дисперсию, обуслов­ленную ошибками эксперимента (дисперсия воспроизводимости)

; (12.11)

Используя значения s2 и , рассматривают отношение

F = s2 / ; (12.12)

и, если оно меньше значения F, найденного по таблицам для данного уровня значимости а при числе степеней свободы числи­теля f = k - 2 и знаменателя f = N - k, то гипотеза о линей­ности не противоречит экспериментальным данным.

Когда F незначимо, s2 и можно объединить и получить оценку остаточной дисперсии

; (12.13)

Если каждому значению х соответствует одно значение у, то не представляется возможным оценить ошибку эксперимента. Проверку гипотезы о линейности связи между у и x осуществляют, сопоставляя дисперсию, обусловленную регрессией у на х, расчитываемую по формуле: (12.14)

и имеющую число степеней свободы, равное числу независимых переменных (в данном случае - единице), с остаточной дисперсией опытных данных вокруг эмпирической линии регрессии:

(12.15)

При преобразованиях учитывали, что

; ; (12.16)

Число степеней свободы остаточной дисперсии равно f = N - 2. При этом рассчитывают отношение: F = s2p / ; (12.17)

которое в случае справедливости гипотезы о линейности функции f(х) должно быть равно или больше значения F, найденного из таблиц для данного уровня значимости а при числе степеней свободы: f1 = 1 и f2 = N-2 (12.18)

Оценка b0 распределена нормально со средним и дисперсией, оценка которой равна: ; (12.19)

Оценка b1 распределена нормально со средним и диспер­сией, оценка которой может быть рассчитана из выражения:

; (12.20)

Для по­вышения точности определения параметров линейной регрессии необходимо иметь по возможности большее число наблюдений и максимально возможную ширину варьирования независимой переменной x.

Так как оценка Y является линейной функцией b0 и b1 то она распределена нормально со средним: (12.21)

и дисперсией, оценка которой равна

; (12.22)

Дисперсия Y минимальна при х = и возрастает с увеличением отклонения х от . Найденные оценки дисперсий b0, b1 и Y используются для проверки значимости параметров b0 и b1 построения доверитель­ных границ для Y.

Проверяют, значимо ли отличаются от нуля свобод­ный член b0 и коэффициент регрессии b1 . Проверку значимости осуществляют, по отношению:

; (12.23)

которое сравнивают с табличным значением t для заданного уровня значимости a при числе степеней свободы f = N - 2.

Оценку значимости b1 производят по отношению: ; (12.24)

сопоставляемому с табличным значением t при том же числе степеней свободы

f = N - 2.

доверительные границы для Y определяют по выражению

; (12.25)

где берут по таблицам для числа степеней свободы f = N - 2 и уровнем значимости, определяемого из равенства p = 1- a. Величина р есть заданная ве­роятность того, что теоретические значения Y лежат в найденных пределах.

Часто исследователя интересуют доверительные границы для индивидуальных значений зависимой величины y. В этом случае определяют так называемые толерантные пределы представляю­щие собой две функции Y1(х) и Y2(х), в пространстве между которыми должна находиться величина y(х) с доверительной вероятностью p = 1- a.

p{ Y1(х) < y(x) < Y2(х)}> = p = 1- a; (12.26)

При этом вероятность получения выборок, у которых доля y(x), попадающих в эти пределы, по величине не меньше р, должна быть равна y.

Функции Y1(х) и Y2(х) представляют собой прямые, парал­лельные и отстоящие от нее на расстоянии Ksост. Множи­тель К зависит от числа наблюдений N, заданных значений доверительной вероятности р и коэффициента доверия .

Для оценки доли общей дисперсии переменной у, обусловлен­ной влиянием изменения аргумента х, применяют коэффициент детерминации

; (12.27)

Остаточное рассеивание переменной у относительно эмпирической линии регрессии можно выразить в долях от общего рассеивания этой величины

; (12.28)

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2025 год. (0.009 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал