Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Краткие теоретические сведения. Считают, что переменные зависимы, если их значения каким-то образом согласованы друг с другом в имеющихся наблюдениях
Считают, что переменные зависимы, если их значения каким-то образом согласованы друг с другом в имеющихся наблюдениях. Например, рост человека однозначно связан с его весом, объем винчестера – с его ценой, количество автомобилей в городе с количеством аварий и т.д. Реальные процессы или объекты могут характеризоваться набором переменных, которые бывают зависимые и независимые. Независимые переменные (входные, показатели-аргументы, предикторные) – переменные описывающие условия формирования реального изучаемого процесса или функционирования объекта. Это переменные, которые поддаются заданию, измерению или частичному управлению или регулированию. Зависимые переменные (выходные, отклики, результирующие или объясняющие) – переменные, которые характеризуют процесс или результат (эффективность) функционирования объекта. Обычно это переменные позволяющие прогнозировать процесс или описывать объект. Случайные переменные (латентные, остаточные) – скрытые, которые не поддаются непосредственному измерению случайные остаточные компоненты, отражающие влияние на зависимые переменные неучтенных факторов, а также случайные ошибки в измерении или определении показателей. Часто эти переменные именуют «остатками». Зависимые и независимые переменные могут быть: ü количественные, т.е. скалярно измеряющие в определенной шкале некие свойства (денежный доход, численность рабочих, физические величины и т.д.); ü порядковые (ординарные), т.е. позволяющие упорядочить некоторые свойства процесса или объекта по степени их проявления (разряд рабочего, уровень образования и т.д.); ü классификационные (номинальные), т.е. разбивающие обследованную совокупность на однородные классы, которые не поддаются упорядочиванию (по определенным свойствам). Например: профессия рабочего, мотив эмиграции и т.д. В зависимости от видов переменных для исследования взаимосвязей применяются различные разделы статистики (см. табл. 3.1).
Таблица 3.1. – Основные разделы статистического анализа
Основные разделы этой таблицы реализованы в виде модулей в программном продукте STATISTICA. Ключевым понятием, описывающим связи между переменными, является корреляция (от английского слова correlation – согласование, связь, взаимозависимость). Две переменные могут быть связаны либо функциональной зависимостью, либо статистической, либо быть независимыми между собой. Статистическая зависимость – зависимость, при которой изменение одной из величин влечет изменение распределения другой. Если при изменении одной из величин изменяется среднее значение другой величины, то такая статистическая зависимость называется корреляционной. Коэффициент корреляции (парный коэффициент корреляции, коэффициент корреляции Пирсона) – характеризует степень тесноты связи между нормально распределенными случайными переменными X и Y. Выборочное значение r коэффициента корреляции подсчитывается по формуле: . (3.1) Значение r является измерителем степени тесноты линейной статистической связи между переменными и изменяется в пределах . При соотношение (1) подтверждает чисто функциональную линейную зависимость между переменными X и Y, при r=0 свидетельствует о полной независимости переменных. Положительные значения коэффициента корреляции указывают на одинаковый характер тенденции взаимосвязанного изменения величин X и Y (например, увеличивается X и увеличивается Y), отрицательные значения указывают на противоположную тенденцию. В случае если распределения величин X и Y отличаются от нормального или одна из величин не является случайной, коэффициент корреляции можно использовать лишь в качестве одной из возможных характеристик степени тесноты связи. Оценка значимости коэффициента корреляции основывается на проверке гипотезы об отсутствии корреляционной связи между переменными [5, стр. 327]. Известно, что величина при условии малых значений r распределена по закону Стьюдента с n-2 степенями свободы. Поэтому если окажется, что , (3.2) то гипотеза об отсутствии корреляционной связи принимается. Если , то коэффициент корреляции значимо отличается от нуля, а величины X и Y коррелированны. Здесь – 5%-ная точка распределения Стьюдента с n-2 степенями свободы. Следует иметь в виду, что значимость коэффициента корреляции сильно зависит как от его величины, так и объема выборки по которой он вычислен. Корреляционное отношение – измеритель степени тесноты корреляционной связи любой формы (в том числе и нелинейной). Для определения корреляционного отношения область значений независимой переменной X разбивают на интервалы группирования, определяют средние ординаты для каждого интервала группирования и рассчитывают корреляционное отношение , (3.3) где – дисперсия средних около общего среднего , – общая выборочная дисперсия величины y [5, стр. 270-274]. Значения корреляционного отношения лежат в пределах , причем . Частный коэффициент корреляции позволяет оценить степень тесноты линейной связи между двумя переменными, очищенной от опосредованного влияния других факторов (переменных) Его значение определяется по формуле: , где – алгебраическое дополнение для парного коэффициента корреляции в определителе корреляционной матрицы MR анализируемых показателей. Программа STATISTICA имеет специальную процедуру для вычисления корреляционной матрицы в случае многомерных таблиц исходных данных. Если исследуется связь между несколькими переменными (более двух), то корреляцию в этом случае называют множественной. Степень тесноты множественной связи оценивается множественным коэффициентом корреляции R. Квадрат величины R называют коэффициентом детерминации. Множественный коэффициент корреляции изменяется в пределах . Он оценивает, какая доля дисперсии исследуемой зависимой переменной определяется через функцию регрессии совокупным влиянием независимых переменных. В статистике в специальных вычислительных процедурах множественный коэффициент корреляции определяют или по матрице парных коэффициентов корреляции или по вектору частных коэффициентов корреляции. Коэффициенты множественной и частной корреляции определяются в модуле Множественная регрессия программы STATISTICA. Ложные корреляции. На практике существуют также ложные корреляции. Это означает, что если найдены переменные с высоким значением коэффициентов корреляции, то отсюда еще не следует, что между ними действительно существует причинная связь или закономерность. Необходимо быть уверенным, что на исследуемые переменные не влияют другие переменные. Курьезный пример из статистики – найденная статистиками высокая корреляция между числом родившихся младенцев и количеством прилетевших аистов в северных областях Европы. Причина связи лежит в третьей неизвестной влияющей переменной. Второй пример ложных корреляций – ущерб, понесенный от пожара, и количество пожарных, тушивших пожар. Здесь есть третья влияющая переменная – величина пожара. Использование частных корреляций позволяет исключать влияние подобных переменных. Наряду с группировкой и визуализацией данных вычисление корреляций – это стандартный начальный этап всякого исследования, связанного с анализом данных.
|