![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Основные представления о корреляционном, дисперсионном и регрессионном анализах
Корреляционный, дисперсионный и регрессионный анализы - это основные статистические методы установления связи между величинами. Указанные анализы тесно взаимосвязаны, дополняют друг друга и решают общую задачу. Поэтому часто объединяются общим термином «регрессионный анализ». Регрессионный анализ объединяет широкий круг задач, связанных с построением функциональных зависимостей между двумя группами числовых («интервальных» или «относительных») переменных: факторов - одна из них закономерно зависит от - другая часть - случайна по отношению к Случайное слагаемое В классической модели регрессионного анализа делаются два допущения: а) все опыты были проведены независимо друг от друга; б) дисперсия случайных составляющих ε оставалась неизменной во всех опытах (свойство гомоскедастичности). Корреляционный и дисперсионный анализы обычно предшествуют регрессионному анализу. Это объясняется следующим образом: прежде чем устанавливать характер связи, описывать её уравнением Корреляционный анализ устанавливает зависимости между случайными величинами с одновременной оценкой степени неслучайности их совместного изменения. Классический корреляционный анализ предполагает нормальное распределение рассматриваемых случайных величин. Дисперсионный анализ служит для сравнения результатов опытов, проведённых на различных уровнях исследуемых факторов, путём анализа дисперсий этих результатов. В условиях эксперимента факторы могут «варьироваться на разных уровнях», или «иметь несколько уровней». Это позволяет исследовать влияние контролируемого фактора на дисперсию отклика и сравнивать независимые слагаемые «систематической» составляющей дисперсии с дисперсией отклика, обусловленной альтернативными факторами: случайными и неконтролируемыми в данном эксперименте. При дисперсионном анализе общая вариация случайной величины разлагается на случайную составляющую, а также на несколько независимых слагаемых, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Итак: сущность дисперсионного анализа заключается в определении систематической (систематических) и случайной составляющих отклика, соотношения (соотношений) этих составляющих и установлении на этой основе существенности вклада каждой из них в величину отклика. А это очень важно для правильной постановки эксперимента. Количество факторов должно быть оптимальным. Оно не может быть очень большим, так как каждый дополнительный фактор в несколько раз увеличивает объём эксперимента. Но при этом следует учитывать факторы, оказывающие существенное влияние на изучаемый зависимый показатель yi, для чего, в частности, используют дисперсионный анализ. Только в случае учёта всех существенно влияющих факторов соотношение между систематической (систематическими) и случайной составляющими Корреляционный и дисперсионный анализы необходимы уже на первом этапе построения регрессионной модели (рис. 1.2) - на стадии планирования основного эксперимента, когда имеется лишь априорная информация. С помощью корреляционного и дисперсионного анализов выбирается (предварительно) оптимальное количество основных элементов исследования и анализа: - «независимых» факторов (называемых также «объясняющими», «экзогенными» переменными или «предикторами», - «зависимых» элементов (называемых также «эндогенными» переменными или «откликами»,
- количества опытов или наблюдений В практике статистического анализа для предварительного выбора числа наблюдений n и количества «независимых» факторов
или Кроме того, для так называемого «числа степеней свободы»
При этом каждый из исследуемых факторов должен быть независимым. Например, нельзя одновременно исследовать влияние факторов, связанных функционально (угловой скорости шпинделя и скорости резания) или факторов, имеющих высокую степень корреляции (величины подачи и шероховатости обработанной поверхности). Поэтому тесноту связи необходимо определять ещё на стадии планирования основного эксперимента (см. рис. 1.2). Следует проводить корреляционный анализ не только между каждым фактором и зависимым признаком («откликом» В машинных расчётах регрессионной модели, в том числе в MS EXCEL, дисперсионный анализ, как правило, предшествует регрессионному анализу и таблица его результатов («ANOVA») приводится раньше результатов регрессионного анализа. Это объясняется тем, что дисперсионный анализ позволяет оценить правильность выбора варьируемых факторов и правомерность самого регрессионного анализа. Использование в регрессионном анализе «наиболее влияющих» факторов может дать достоверные результаты, так как обеспечивает преобладание «систематических» составляющих дисперсии отклика над «случайной» составляющей. После проведения эксперимента, располагая большим объёмом данных, корреляционный (а иногда и дисперсионный) анализ повторяют для уточнения существенных предикторов и правильной параметризации создаваемой регрессионной модели. Наряду с рассмотренными выше взаимосвязями и логическими зависимостями различных видов статистического анализа между линейным коэффициентом корреляции и коэффициентом регрессии существует и чисто функциональная зависимость:
где
|