Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Оценка погрешностей определения коэффициентов корреляции
Коэффициенты корреляции рассчитываются по выборкам и соответственно имеют статистический характер. Фактически они являются функциями случайных величин.у, хь..., л; #. В связи с этим правомерен вопрос о достоверности расчета коэффициентов по приведенным соотношениям. Ниже приводится ряд формул, позволяющих оценить указанную достоверность. Формулы получены методами математической статистики на основе ряда весьма существенных допущений, основным из которых является предположение о нормальности частных распределений величин у, х{,..., хкв генеральной совокупности. Несмотря на грубость такого допущения в большинстве реальных ситуаций, получаемые на его основе выводы относительно достоверности выборочных оценок коэффициентов корреляции приемлемы с практической точки зрения. Стандартная (среднеквадратическая) ошибка определения выборочного значения коэффициента парной корреляции при достаточно большой выборке (Л^> 50) может быть оценена по формуле 1-/-2 При малых выборках (Л" < 30) Стандартные ошибки определения коэффициента множественной корреляции г у, х\,..., хкн корреляционного отношения Л могут быть оценены по формулам в случае #> 50 ад: 1-^2 в случае #00 | 1-Л2 где Ы— объем выборки; К— число факторов. Значение стандартной ошибки позволяет оценить достоверность расчета коэффициентов корреляции. Грубая оценка может быть получена в соответствии с «правилом трех сигм»: если \)\» Зо>, то выборочная оценка коэффициента корреляции приемлема. Для более полных оценок погрешностей необходим учет закона распределения коэффициентов корреляции. При больших выборках (7У> 50) можно приближенно полагать, что выборочный коэффициент парной корреляции г распределен по нормальному закону. При таком предположении до- верительный интервал для оценки коэффициента корреляции г0 в генеральной совокупности определяется из соотношения г-{рсг< г0< г + 1роп где р — уровень доверительной вероятности. Величина 1Р определяется из уравнения: Ф(0 =р, (9.2) где Ф(?) — функция Лапласа (интеграл вероятностей): х2 Ф(')=-7=/'~ТЛ- л/2я о Решение уравнения (9.2) находится с помощью таблиц значений функции Лапласа (см. Приложение к данной главе). Приведенные соотношения могут быть использованы для ориентировочной оценки доверительных интервалов для г0 в случае Л" < 50, а также для грубых оценок доверительных интервалов для сводного коэффициента корреляции и корреляционного отношения из генеральной совокупности. Для некоторых частных случаев могут быть получены более точные соотношения. При малом объеме выборки (ЛК 30) и достаточно сильной корреляции (|а) > 0, 7) закон распределения выборочного коэффициента парной корреляции существенно отличается от нормального. В этом случае может быть использована статистика вида 2=-Ы 2 1+г 1-г Р. Фишером установлено, что статистика ^подчиняется закону, близкому к нормальному, со следующими параметрами: математическое ожидание: М(2)=±Ы
IV \-г0) 2(ЛГ-1)' дисперсия: В{2)=а]~ 1 где г0 — коэффициент корреляции в генеральной совокупности. С учетом сказанного доверительный интервал для коэффициента /о определяется из соотношения (при Ж 30, \г\ > 0, 7) г 1 _ г 1 где т11~^у_1 +(р дг_з' г, 2-^у_1 ~1р~]у^Т> /• —выборочный коэффициент корреляции; /,, —величина, определяемая по уравнению (9.2). Помимо приведенных выше соотношений для определения доверительного интервала, с вероятностью р содержащего значение коэффициента корреляции из генеральной совокупности, в математической статистике выведены формулы для проверки значимости тех или иных гипотез. Например, для проверки гипотезы о коэффициенте парной корреляции г0 = 0 (то есть предположения о том, что коэффициент корреляции из генеральной совокупности с доверительной вероятностью р не отличается значимо от нуля) в случае большого объема выборки (И> 50) используется критерий вида где 1р имеет тот же смысл, что и в соотношении (9.2). При выполнении неравенства сформулированная гипотеза считается верной. В противном случае она отвергается, то есть считается, что коэффициент корреляции значимо отличается от нуля. При объеме выборки Ы< 30 для проверки той же гипотезы строится статистика V1-'-2 распределенная по закону Стьюдента с числом степеней свободы ^ = N-2. Критерий подтверждения гипотезы г0 = 0 имеет вид где 1р и — Р-процентное (Р— 100/)) значение статистики I, определяемое по соответствующим таблицам для распределения Стьюдента с заданной доверительной вероятностью р и числу степеней свободы у (см. Приложение к данной главе). 9.3. ОЦЕНКА ЗНАЧИМОСТИ ПРЕДСТАВЛЕНИЯ ПРОИЗВОДСТВЕННОЙ ФУНКЦИИ, ПОЛУЧЕННОГО ПО РЕЗУЛЬТАТАМ ВЫБОРОЧНЫХ НАБЛЮДЕНИЙ Обобщенно задачу, указанную в заголовке данного подраздела, можно понимать как оценку соответствия сглаженной зависимости у=/{х\,..., х%), используемой в качестве производственной функции, реальной стохастической зависимости результата производства у от производственных факторов хъ..., хК. Частично этот' вопрос мы уже затронули выше, дав содержательную интерпретацию коэффициентов корреляции и корреляционного отношения. Рассмотрим теперь его более подробно. •Анализ выборочных коэффициентов корреляции позволяет сделать некоторые выводы относительно целесообразности использования сглаженных регрессионных зависимостей результата производства у от производственных факторов хи..., хк. Сначала целесообразно совместно оценить корреляционное отношение К и сводный коэффициент корреляции гу, х\,.-, хк' Если К< 0, 3 и гу; Х\,..., хк < 0, 3 (см. приведенную выше градацию тесноты связи по значению коэффициента корреляции), констатируется либо отсутствие значимой связи у с хь..., х^, либо неполнота исходной информации (малость выборки). В противном случае далее отдельно оценивается коэффициент множественной корреляции гу; х\, -, хк' При достаточной его величине (например, гу; х\,..., хк -0)8) можно предположить, что зависимость у от хь..., хк близка к линейной и, следовательно, производственную функцию можно представить в форме линейной регрессии; при этом, однако, уровень «достаточности» величины гу; Х\, -, хк опРе" деляется чисто произвольно. При промежуточных значениях коэффициента корреляции О^г^ Хл, < 0, 8 признаком линейного характера регрессии может служить близость значений К и гу\х\, -, хк' При использовании приведенных рекомендаций следует учесть, что в случае сравнительно большого числа производственных факторов (К> 3) реальный нелинейный характер влияния одного из них на у при расчете коэффициента множественной корреляции может быть замаскирован линейным характером влияния других. В этом случае дополнительную информацию может дать анализ всей матрицы коэффициентов парной корреляции. Последнее замечание подчеркивает вспомогательный характер рассмотренной процедуры определения допустимого класса функций при построении регрессии у на хи..., хк. Рассмотрим теперь вопрос о степени влияния производствен- пых факторов Хх,..., хк на результат производства у. При этом случайной будем считать только величину у, а величины х\,..., хк— неслучайными независимыми переменными. В математической статистике указанный вопрос решается на основе анализа дисперсий отклонений сглаженных значений У3 =/[х(> ■ ••> хк) от среднего наблюдаемого у[Х> реГ), а также отклонений наблюдаемых величин у-1' от сглаженных значений, то есть от линии регрессии (Д, ст): Помимо указанных дисперсий вводится их сумма: В случае линейной регрессии указанная сумма равна выборочной дисперсии величины у: По смыслу введенных дисперсий чем больше отношение /Ррег/Аэбщ. тем большую роль в изменении наблюдаемых значений у играет зависимость результатов производства от факторов х\,..., хк. В пределе при 1\> ег/А> бщ = 1, Т0 есть при Дзст = О, все наблюдаемые точки лежат на линии (поверхность) регрессии — отклонения [у3-У3) равны нулю и, значит, линия (поверхность) регрессии полностью описывает зависимость у от х{,..., хк. В противном случае величина п -°рег 7)—' называемая коэффициентом детерминации, характеризует, какая доля изменений величины у обусловлена изменением факторов хи..., хк. Соответственно отношение В0С1/Оо6щ = 1 — В характеризует долю изменений величины у, обусловленных действием неучтенных факторов. Если, например, 5=0, 9, то говорят, что порядка 90 % изменений величины у вызвано изменением производственных факторов хь..., хк, а около 10 % — влиянием неучтенных факторов. Из определения суммы дисперсий 2)общ следует, что в случае линейной регрессии коэффициент детерминации равен квадрату корреляционного отношения, то есть В = К2. Более того, можно показать, что в этом случае В=К2=г2 у; х\,..., хк> где величина гу; х\,..., хк формально рассчитывается по соотношению для выборочного коэффициента множественной корреляции, хотя при принятом выше предположении (хи..., хк — неслучайные независимые переменные) таковым не является. Сохраняя указанное предположение, рассмотрим вопрос о доверительных границах, в которых расположены истинные (из генеральной совокупности) значения у с учетом разброса наблюдаемых значений у относительно линии регрессии и ошибок определения положения самой линии. Ограничимся случаем линейной регрессии для однофакторной зависимости у= а{ + а2х. В этом случае доверительные границы для у при заданном уровне доверительной вероятности р определяются соотношением у{х)-^5^х)-1р^йу{х)< у(х)+ру(х)-(р^, где 4, „ — значение случайной величины I, имеющей распределение Стьюдента с V = N — 2 степенями свободы, соответствующее заданному уровню р доверительной вероятности; Оу(х) —дисперсия у при заданном значении х. Дисперсия Ву является функцией независимой переменной х и определяется соотношением
пу(х)=5у
1 (х-х)
где выборочная оценка $у дисперсии отклонения случайной независимой величины у от линии регрессии по определению равна: при у-1=а1+а2х-'. Соотношение для дисперсии получено с учетом погрешностей определения коэффициента регрессии а{ и свободного члена а2 в уравнении регрессии (у = щ + а2х). 20 I--------------- с! -------------------------------------------------- 25 30 35 40 45 50 Рис. 10. Доверительные границы для функции регрессии у (задача 8.1) Для иллюстрации на рисунке 10 показаны доверительные границы для у при уровне доверительной вероятности р = 0, 9, построенные по данным задачи 8.1. Остановимся кратко на проблеме достаточности числа наблюдений N. С формальной точки зрения при построении регрессионной зависимости у=/(а1,..., а^; х1,..., х^) с М параметрами число наблюдений УУ должно быть не менее М. В противном случае система нормальных уравнений (при сведении их к линейным алгебраическим) будет вырожденной. Таким образом, минимальное ограничение на N таково: N> М. Однако с учетом требования статистической достоверности получаемых результатов ограничения на N существенно жестче. Действительно, несмещенная выборочная оценка для дисперсии отклонений случайной величины у от поверхности регрессии определяется соотношением Следовательно, при N-* М дисперсия стремится к бесконечности, что говорит о статистической недостоверности регрессионной зависимости. Для получения достаточно надежных оценок параметров уравнения регрессии желательно выполнение неравенства N> М+ 50. На практике (в случае малых выборок) стремятся хотя бы обеспечить выполнение условия N> М+ 10. Более строго вопрос о достаточном числе наблюдений N должен решаться с учетом содержания конкретной статистической задачи, так как оно зависит от вида выборки и от того, для оценки какой характеристики случайной величины она используется. Приведем формулы для расчета Я, если оценивается среднее значение у наблюдаемой случайной величины у. При этом предполагается, что уже проведена серия Яш пробных наблюдений над величиной у, которые позволяют оценить ее среднеквадрати-ческий разброс: В этом случае требуемое число наблюдений N задается следующими соотношениями: для бесповторной выборки ^А2+< 2рс2у' для повторной выборки , 2„2 д2 где! р — величина, определяемая из уравнения (9.2) по заданной доверительной вероятности р; А — допустимая ошибка определения у с доверительной вероятностью, р; Л^ — число возможных значений величины у в генеральной совокупности. Последняя из приведенных формул может использоваться, в частности, если случайная величина у может принимать любое значение в заданном интервале (то есть Л^ = °°). Рассмотрим следующий пример: используя данные, приведенные в последнем столбце таблицы 13 в качестве результатов пробных наблюдений (Л^, = 12), оценить число наблюдений, при котором ошибка определения средней урожайности пшеницы в хозяйстве с доверительной вероятностью р = 0, 95 не превысит А = 1 ц с 1 га. В данном случае среднеквадратический разброс урожайности в пробных наблюдениях а\, = 3, 65 ц с 1 га; величина 1р, соответствующая вероятности р = 0, 95, равна 1, 96 (см. приложение). По формуле для бесповторной выборки имеем ^(■, 96)'.(3, 65)^5о (О2 Таким образом, для достижения заданной точности оценки средней урожайности пшеницы число наблюдений должно быть не менее 50. 9.4. ПРИМЕРЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Основываясь на приведенной выше методике, проведем корреляционный анализ исходных данных и результатов решения рассмотренных выше задач, а также оценим ряд дисперсионных характеристик. Основные результаты расчетов представлены в таблице 25; их анализ показывает следующее.
|