Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Оценка погрешностей определения коэффициентов корреляции






Коэффициенты корреляции рассчитываются по выборкам и соответственно имеют статистический характер. Фактически они являются функциями случайных величин.у, хь..., л; #. В связи с этим правомерен вопрос о достоверности расчета коэффициен­тов по приведенным соотношениям. Ниже приводится ряд фор­мул, позволяющих оценить указанную достоверность. Формулы


получены методами математической статистики на основе ряда весьма существенных допущений, основным из которых являет­ся предположение о нормальности частных распределений вели­чин у, х{,..., хкв генеральной совокупности. Несмотря на грубость такого допущения в большинстве реальных ситуаций, получае­мые на его основе выводы относительно достоверности выбороч­ных оценок коэффициентов корреляции приемлемы с практи­ческой точки зрения.

Стандартная (среднеквадратическая) ошибка определения вы­борочного значения коэффициента парной корреляции при дос­таточно большой выборке (Л^> 50) может быть оценена по фор­муле

1-/-2 При малых выборках (Л" < 30)

Стандартные ошибки определения коэффициента множе­ственной корреляции г у, х\,..., хкн корреляционного отношения Л могут быть оценены по формулам

в случае #> 50


ад:


1-^2


в случае #00

| 1-Л2

где Ы— объем выборки; К— число факторов.

Значение стандартной ошибки позволяет оценить достовер­ность расчета коэффициентов корреляции. Грубая оценка может быть получена в соответствии с «правилом трех сигм»: если \)\» Зо>, то выборочная оценка коэффициента корреляции при­емлема. Для более полных оценок погрешностей необходим учет закона распределения коэффициентов корреляции.

При больших выборках (7У> 50) можно приближенно пола­гать, что выборочный коэффициент парной корреляции г рас­пределен по нормальному закону. При таком предположении до-


верительный интервал для оценки коэффициента корреляции г0 в генеральной совокупности определяется из соотношения

г-{рсг< г0< г + 1роп где р — уровень доверительной вероятности.

Величина 1Р определяется из уравнения:

Ф(0 =р, (9.2)

где Ф(?) — функция Лапласа (интеграл вероятностей):

х2

Ф(')=-7=/'~ТЛ-

л/2я о

Решение уравнения (9.2) находится с помощью таблиц значе­ний функции Лапласа (см. Приложение к данной главе).

Приведенные соотношения могут быть использованы для ориентировочной оценки доверительных интервалов для г0 в слу­чае Л" < 50, а также для грубых оценок доверительных интервалов для сводного коэффициента корреляции и корреляционного от­ношения из генеральной совокупности.

Для некоторых частных случаев могут быть получены более точные соотношения.

При малом объеме выборки (ЛК 30) и достаточно сильной корреляции (|а) > 0, 7) закон распределения выборочного коэффи­циента парной корреляции существенно отличается от нормаль­ного. В этом случае может быть использована статистика вида


2=-Ы

2


1+г 1-г


Р. Фишером установлено, что статистика ^подчиняется зако­ну, близкому к нормальному, со следующими параметрами: математическое ожидание:


М(2)=±Ы


 

> о

IV

\-г0) 2(ЛГ-1)'


дисперсия:

В{2)=а]~ 1

где г0 — коэффициент корреляции в генеральной совокупности.


С учетом сказанного доверительный интервал для коэффици­ента /о определяется из соотношения (при Ж 30, \г\ > 0, 7)

г 1 _ г 1

где т11~^у_1 +(р дг_з' г, 2-^у_1 ~1р~]у^Т> /• —выборочный коэффициент корре­ляции; /,, —величина, определяемая по уравнению (9.2).

Помимо приведенных выше соотношений для определения доверительного интервала, с вероятностью р содержащего значе­ние коэффициента корреляции из генеральной совокупности, в математической статистике выведены формулы для проверки значимости тех или иных гипотез.

Например, для проверки гипотезы о коэффициенте парной корреляции г0 = 0 (то есть предположения о том, что коэффи­циент корреляции из генеральной совокупности с доверитель­ной вероятностью р не отличается значимо от нуля) в случае большого объема выборки (И> 50) используется критерий вида

где 1р имеет тот же смысл, что и в соотношении (9.2).

При выполнении неравенства сформулированная гипотеза считается верной. В противном случае она отвергается, то есть считается, что коэффициент корреляции значимо отличается от нуля.

При объеме выборки Ы< 30 для проверки той же гипотезы строится статистика

V1-'-2

распределенная по закону Стьюдента с числом степеней свободы ^ = N-2.

Критерий подтверждения гипотезы г0 = 0 имеет вид

где 1р и — Р-процентное (Р— 100/)) значение статистики I, определяемое по соответ­ствующим таблицам для распределения Стьюдента с заданной доверительной веро­ятностью р и числу степеней свободы у (см. Приложение к данной главе).


9.3. ОЦЕНКА ЗНАЧИМОСТИ ПРЕДСТАВЛЕНИЯ ПРОИЗВОДСТВЕННОЙ ФУНКЦИИ, ПОЛУЧЕННОГО ПО РЕЗУЛЬТАТАМ ВЫБОРОЧНЫХ НАБЛЮДЕНИЙ

Обобщенно задачу, указанную в заголовке данного подразде­ла, можно понимать как оценку соответствия сглаженной зависи­мости у=/{х\,..., х%), используемой в качестве производственной функции, реальной стохастической зависимости результата про­изводства у от производственных факторов хъ..., хК. Частично этот' вопрос мы уже затронули выше, дав содержательную интер­претацию коэффициентов корреляции и корреляционного отно­шения. Рассмотрим теперь его более подробно.

•Анализ выборочных коэффициентов корреляции позволяет сделать некоторые выводы относительно целесообразности ис­пользования сглаженных регрессионных зависимостей результа­та производства у от производственных факторов хи..., хк. Снача­ла целесообразно совместно оценить корреляционное отноше­ние К и сводный коэффициент корреляции гу, х\,.-, хк' Если К< 0, 3 и гу; Х\,..., хк < 0, 3 (см. приведенную выше градацию тесно­ты связи по значению коэффициента корреляции), констатиру­ется либо отсутствие значимой связи у с хь..., х^, либо неполнота исходной информации (малость выборки). В противном случае далее отдельно оценивается коэффициент множественной кор­реляции гу; х\, -, хк' При достаточной его величине (например, гу; х\,..., хк -0)8) можно предположить, что зависимость у от хь..., хк близка к линейной и, следовательно, производственную функцию можно представить в форме линейной регрессии; при

этом, однако, уровень «достаточности» величины гу; Х\, -, хк опРе" деляется чисто произвольно. При промежуточных значениях ко­эффициента корреляции О^г^ Хл, < 0, 8 признаком линейного характера регрессии может служить близость значений К и

гу\х\, -, хк'

При использовании приведенных рекомендаций следует учесть, что в случае сравнительно большого числа производ­ственных факторов (К> 3) реальный нелинейный характер влия­ния одного из них на у при расчете коэффициента множествен­ной корреляции может быть замаскирован линейным характером влияния других. В этом случае дополнительную информацию мо­жет дать анализ всей матрицы коэффициентов парной корреля­ции.

Последнее замечание подчеркивает вспомогательный харак­тер рассмотренной процедуры определения допустимого класса функций при построении регрессии у на хи..., хк.

Рассмотрим теперь вопрос о степени влияния производствен-


пых факторов Хх,..., хк на результат производства у. При этом слу­чайной будем считать только величину у, а величины х\,..., хк неслучайными независимыми переменными.

В математической статистике указанный вопрос решается на основе анализа дисперсий отклонений сглаженных значений

У3 =/[х(> ■ ••> хк) от среднего наблюдаемого у[Х> реГ), а также от­клонений наблюдаемых величин у-1' от сглаженных значений, то есть от линии регрессии (Д, ст):

Помимо указанных дисперсий вводится их сумма:

В случае линейной регрессии указанная сумма равна выбороч­ной дисперсии величины у:

По смыслу введенных дисперсий чем больше отношение /Ррег/Аэбщ. тем большую роль в изменении наблюдаемых значений у играет зависимость результатов производства от факторов х\,..., хк. В пределе при 1\> ег/А> бщ = 1, Т0 есть при Дзст = О, все на­блюдаемые точки лежат на линии (поверхность) регрессии — от­клонения 33) равны нулю и, значит, линия (поверхность) регрессии полностью описывает зависимость у от х{,..., хк. В про­тивном случае величина

п -°рег

7)—'

называемая коэффициентом детерминации, характеризует, какая доля изменений величины у обусловлена изменением факторов хи..., хк. Соответственно отношение В0С1о6щ = 1 — В характери­зует долю изменений величины у, обусловленных действием не­учтенных факторов. Если, например, 5=0, 9, то говорят, что по­рядка 90 % изменений величины у вызвано изменением произ­водственных факторов хь..., хк, а около 10 % — влиянием неуч­тенных факторов.

Из определения суммы дисперсий 2)общ следует, что в случае линейной регрессии коэффициент детерминации равен квадрату


корреляционного отношения, то есть В = К2. Более того, можно показать, что в этом случае

В=К22

у; х\,..., хк>

где величина гу; х\,..., хк формально рассчитывается по соотноше­нию для выборочного коэффициента множественной корреля­ции, хотя при принятом выше предположении и..., хк неслу­чайные независимые переменные) таковым не является.

Сохраняя указанное предположение, рассмотрим вопрос о до­верительных границах, в которых расположены истинные (из ге­неральной совокупности) значения у с учетом разброса наблюда­емых значений у относительно линии регрессии и ошибок опре­деления положения самой линии. Ограничимся случаем линей­ной регрессии для однофакторной зависимости у= а{ + а2х. В этом случае доверительные границы для у при заданном уровне доверительной вероятности р определяются соотношением

у{х)-^5^х)-1р^йу{х)< у(х)+ру(х)-(р^,

где 4, „ — значение случайной величины I, имеющей распределение Стьюдента с V = N — 2 степенями свободы, соответствующее заданному уровню р доверительной вероятности; Оу(х) —дисперсия у при заданном значении х.

Дисперсия Ву является функцией независимой переменной х и определяется соотношением

 


пу(х)=5у


 

N,. ^

1 (х-х)

 


где выборочная оценка дисперсии отклонения случайной не­зависимой величины у от линии регрессии по определению рав­на:

при у-112х-'.

Соотношение для дисперсии получено с учетом погрешностей определения коэффициента регрессии а{ и свободного члена а2 в уравнении регрессии (у = щ + а2х).


20 I--------------- с! --------------------------------------------------

25 30 35 40 45 50

Рис. 10. Доверительные границы для функции регрессии у (задача 8.1)

Для иллюстрации на рисунке 10 показаны доверительные гра­ницы для у при уровне доверительной вероятности р = 0, 9, пост­роенные по данным задачи 8.1.

Остановимся кратко на проблеме достаточности числа наблю­дений N.

С формальной точки зрения при построении регрессионной

зависимости у=/(а1,..., а^; х1,..., х^) с М параметрами число на­блюдений УУ должно быть не менее М. В противном случае систе­ма нормальных уравнений (при сведении их к линейным алгеб­раическим) будет вырожденной. Таким образом, минимальное ограничение на N таково: N> М. Однако с учетом требования статистической достоверности получаемых результатов ограни­чения на N существенно жестче. Действительно, несмещенная выборочная оценка для дисперсии отклонений случайной вели­чины у от поверхности регрессии определяется соотношением

Следовательно, при N-* М дисперсия стремится к бесконеч­ности, что говорит о статистической недостоверности регресси­онной зависимости. Для получения достаточно надежных оценок параметров уравнения регрессии желательно выполнение нера­венства N> М+ 50. На практике (в случае малых выборок) стре­мятся хотя бы обеспечить выполнение условия N> М+ 10.


Более строго вопрос о достаточном числе наблюдений N дол­жен решаться с учетом содержания конкретной статистической задачи, так как оно зависит от вида выборки и от того, для оцен­ки какой характеристики случайной величины она используется. Приведем формулы для расчета Я, если оценивается среднее значение у наблюдаемой случайной величины у. При этом пред­полагается, что уже проведена серия Яш пробных наблюдений над величиной у, которые позволяют оценить ее среднеквадрати-ческий разброс:

В этом случае требуемое число наблюдений N задается следу­ющими соотношениями: для бесповторной выборки

2+< 2рс2у'

для повторной выборки

, 2„2

д2

где! р — величина, определяемая из уравнения (9.2) по заданной доверительной ве­роятности р; А — допустимая ошибка определения у с доверительной вероятнос­тью, р; Л^ — число возможных значений величины у в генеральной совокупности.

Последняя из приведенных формул может использоваться, в частности, если случайная величина у может принимать любое значение в заданном интервале (то есть Л^ = °°).

Рассмотрим следующий пример: используя данные, приведен­ные в последнем столбце таблицы 13 в качестве результатов пробных наблюдений (Л^, = 12), оценить число наблюдений, при котором ошибка определения средней урожайности пшени­цы в хозяйстве с доверительной вероятностью р = 0, 95 не превы­сит А = 1 ц с 1 га. В данном случае среднеквадратический разброс урожайности в пробных наблюдениях а\, = 3, 65 ц с 1 га; величина 1р, соответствующая вероятности р = 0, 95, равна 1, 96 (см. прило­жение). По формуле для бесповторной выборки имеем

^(■, 96)'.(3, 65)^

2


Таким образом, для достижения заданной точности оценки средней урожайности пшеницы число наблюдений должно быть не менее 50.

9.4. ПРИМЕРЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА

Основываясь на приведенной выше методике, проведем кор­реляционный анализ исходных данных и результатов решения рассмотренных выше задач, а также оценим ряд дисперсионных характеристик. Основные результаты расчетов представлены в таблице 25; их анализ показывает следующее.


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.013 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал