Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Коефіцієнти кореляції та детермінації
Побудова рівняння регресії дає нам можливість розкласти значення уі в кожному спостереженні на дві складові:
Величина
Врахувавши, що
Дане співвідношення означає, що ми можемо розкласти загальну дисперсію var(y) на дві складові: У лівій частині (1.13) маємо варіацію залежної змінної у навколо свого вибіркового середнього значення
непояснююча дисперсія. Тобто, з (1.14) маємо: Якщо загальну дисперсію вважати незмінною, то чим більша буде пояснююча дисперсія, тим менша непояснююча, а значить менший розкид точок на діаграмі розсіювання відносно оціночної прямої. Далі поділимо обидві частини (1.13) на var (y) і отримаємо:
Як можна побачити з виразу (1.17) перша частина Частина дисперсії, що пояснюється регресією, називається коефіцієнтом детермінації і позначається d або r 2:
З цієї формули видно, що коефіцієнт детермінації завжди додатній і знаходиться в межах від нуля до одиниці. Максимальне значення d =1, за умови, що лінія регресії точно відповідає всім спостереженням ( Після побудови регресійної моделі необхідно оцінити тісноту зв’язку між результативною та факторною змінними. Для цього необхідно розрахувати коефіцієнт кореляції, який саме характеризує ступінь щільності лінійної залежності між випадковими величинами х та у. Він позначається r і розраховується за формулою:
де cov(x, y) – коефіцієнт коваріації між змінними х та у, var(x), var(y) – дисперсії змінних х та у, а sx, sy – їх середні квадратичні відхилення. Коефіцієнт кореляції, на відміну від коефіцієнта коваріації, є вже не абсолютною, а відносною мірою зв’язку між двома факторами і приймає значення з інтервалу [-1; 1]. Додатне значення кореляції свідчить про наявність прямого зв’язку між змінними, а від’ємне – про зворотній зв’язок. Якщо коефіцієнт кореляції прямує до ±1, то мова йде про наявність тісного лінійного зв’язку між змінними. У той же час, коли він прямує до нуля, то лінійний зв’язок між змінними слабкий. Але, якщо нами отримано r =0, то не треба спішити з висновками про відсутність зв’язку між змінними. Можна лише робити висновок про відсутність лінійного зв’язку, але між вибраними змінними може існувати тісний нелінійний зв’язок. Коефіцієнт кореляції дає можливість робити висновок про тісноту саме лінійного зв’язку між змінними. Подивимось, чи існує зв’язок між коефіцієнтом детермінації і коефіцієнтом кореляції. Для цього здійснимо наступні перетворення для коефіцієнта детермінації:
Виконаємо аналогічні перетворення для коефіцієнта кореляції, врахувавши, що
З останньої формули видно, що знак коефіцієнта кореляції визначається знаком оцінки b. Ми бачимо, що коефіцієнт кореляції є коренем квадратним з коефіцієнта детермінації:
Приклад 1.2. На основі даних прикладу 1.1 потрібно: 1. Обчислити загальну, пояснюючу та непояснюючу дисперсію. 2. Знайти значення коефіцієнтів детермінації та кореляції. ¨ Розв’язування. 1. Для знаходження дисперсій використаємо наступні формули:
Для спрощення підрахунків побудуємо таблицю, взявши середні значення змінних з прикладу 1.1:
Отже, маємо:
2. Знайдемо значень коефіцієнтів детермінації та кореляції. Для обчислення коефіцієнта детермінації використовуємо формулу:
а це означає, що 87 % загальної дисперсії пояснюється оціночною прямою, на долю неврахованих факторів припадає 13 %. Коефіцієнт кореляції знайдемо за формулою:
Знак коефіцієнта кореляції визначається знаком кутового коефіцієнта оціночного рівняння b (в нашому випадку він додатний). Отримане значення коефіцієнта кореляції вказує на ступінь тісноти лінійного зв’язку між змінними. Значення коефіцієнта кореляції рівне 0, 93 (близьке до одиниці), а це значить, що лінійна форма зв’язку між змінними у та х вибрана вірно і цей зв’язок тісний.
|