Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Розглянемо приклад.
Маємо вибірку даних за 8 років, які характеризують продуктивність праці (Yфакт) групи однорідних підприємств в залежності від простоїв основного обладнання (Х). Побудувати парну лінійну регресійну модель виду Y=b0+b1× X. Щоб мати явний вид залежності, необхідно знайти (оцінити) невідомі параметри цієї моделі. Дані наведені в табл.2.1. Таблиця 2.1.
Реальні спостереження Yфактзобразимо точками у системі координат (Х, Y) (мал.2.1).
Малюнок 2.1. Залежність продуктивності праці від простоїв основного обладнання Візуально можна припустити, що між даними є лінійна залежність, тобто їх можна апроксимувати прямою лінією.
Малюнок 2.2. Через множину спостережуваних точок можна провести необмежену кількість прямих Y= b0 + b1x.
Yрозр
xix Малюнок 2.3.
На мал. 2.3, пряма розташована таким чином, що деякі точки знаходяться вище, деякі нижче прямої, на основі чого можна встановити відхилення (помилки) відносно цієї прямої:
Французький математик Лежандром у XIX ст. запропонував метод знаходження теоретичної лінії, наближеної до фактичних даних як мінімальну суму (S) квадратів відхилення їх ординат Yiвід теоретичних
З цього і назва методу – метод найменших квадратів (або скорочено 1МНК). Відхилення, або помилки, ще інколи називають залишками. Треба проводити пряму таким чином, щоб сума квадратів помилок була мінімальною:
Визначимо значення bо та b1, які мінімізують вираз (2.3). Мінімум функції (2.3) досягається за необхідних умов, коли перші похідні дорівнюють нулеві, тобто
Звідки отримаємо систему лінійних рівнянь:
яка називається нормальною. Всі суми, що входять в систему, обраховуються на основі вхідних статистичних даних. Таблиця 2.2
На основі обчислених згідно з вхідними даними табл.2.2 дістанемо систему рівнянь:
В результаті рішення системи отримуємо значення: b0 = 8, 96, b1 = – 0, 087. Таким чином, економетрична модель продуктивності праці (рівняння регресії) буде мати вид: Yрозр = 8, 96 – 0, 087 × Х
2.2. Оцінка тісноти та значимості зв’язку між змінними моделі Після вибору виду рівняння регресії та знаходження його параметрів розпочинають наступний етап – кореляційний аналіз, тобто дають оцінку тісноти та значимості зв'язку змінних у регресійній моделі. Тісноту зв'язку між залежною змінною Y та незалежною змінною X оцінюють за допомогою статистичних характеристик: коефіцієнт детермінації, коефіцієнт кореляції. За допомогою цих коефіцієнтів перевіряється відповідність побудованої регресійної моделі (теоретичної) фактичним даним. У поняття “тіснота зв'язку” вкладається оцінка впливу незалежної змінної (X) на залежну змінну (Y). Після встановлення тісноти зв'язку між змінними моделі
Коефіцієнт детермінації Коефіцієнт детермінації показує, якою мірою варіація залежної змінної (результативного показника) Y визначається варіацією незалежної змінної (вхідного показника) X. Тобто дається відповідь на запитання, чи справді зміна значення Y лінійно залежить саме від зміни значення Х, а не відбувається під впливом різних випадкових факторів. Він використовується як при лінійному, так і при нелінійному зв'язку між змінними та розраховується за формулою:
де Yрозр – теоретичні значення залежної змінної на підставі побудованої регресійної моделі; Yсер – загальна середня фактичних даних залежної змінної; Yфакт – фактичні індивідуальні значення залежної змінної. Коефіцієнт детермінації приймає значення від 0 (відсутній лінійний зв'язок між показниками) до 1 (відсутній кореляційний зв'язок між показниками).
Найпростішим критерієм, який дає кількісну оцінку зв’язку між двома показниками, є коефіцієнт кореляції (або індекс кореляції). Він розраховується за такою формулою:
Чим ближче коефіцієнт кореляції до одиниці, тим тісніше зв'язок між незалежною та залежною змінними. Іноді для спрощення розрахунків тісноту кореляційного зв'язку характеризують коефіцієнтом кореляції, який розраховується за формулою:
Значення R лежить у діапазоні від –1 до +1. При R=0 змінні не можуть мати лінійного кореляційного зв'язку. Ступінь тісноти їх лінійної залежності зростає при наближенні R до ±1. Кореляційний зв'язок між показниками відсутній при R=±1 Коли R> 0, то зв'язок між показниками прямий, якщо R< 0 – обернений. В залежності від значення коефіцієнта кореляції зв’язок між перемінними класифікується так:
F-критерій Фішера Тестування значимості змінної Х, або адекватності моделі проводиться за критерієм Фішера. Перевіряється, чи справді незалежна Х впливає на значення залежної Y. Використовуючи суми квадратів відхилень, обчислимо F-критерійФішера за формулою:
Розрахунковий критерій Фішера з урахуванням ступенів вільності обчислюємо за формулою:
де m, (n–m–1) – число ступенів вільності відповідно чисельника та знаменника залежності; n – кількість спостережень; m – кількість незалежних змінних. Етапи тестування за критерієм Фішера Тестування значимості змінної Х за критерієм Фішера складається з наступних етапів: × Формулюється нуль-гипотиза: Н0: β 1 = 0. × Задаємо рівень значимості α (наприклад, 5%). × Обчислюємо F-відношення. × За таблицями F-розподілу Фішера знаходимо F-критичне значення при заданому рівні значимості (або помилки) та за ступенями вільності f 1 та f 2. × Цю гіпотезу відкидаємо з 5%-ним ризиком помилитися, якщо: Fрозр > F0, 95 де F0, 95 – значення F при 5%-ному ризику помилки (знаходимо за таблицями Отже, достовірність моделі оцінюють порівнянням розрахункового (Fрозр) та табличного значень критерію Фішера. Припустимо Fрозр= 45, 3. Значення Fтабл визначають за спеціальними таблицями залежно від ступенів вільності f 1 та f 2 (див. дод. 7): f 1 = (n – m – 1), f 2 = (n – 1), де n – кількість спостережень; m – кількість незалежних змінних. Можлива помилка (рівень значимості) a може прийматися або 0, 05 або 0, 01. Це означає, що у 5% або 1% випадків ми можемо помилитися, а у 95% або 99% випадків (рівень довіри) наші висновки будуть правильними. Так, при a=0, 95 та значеннях f 1=(8–1–1)=6; f 2=(8–1)=7 табличне значення критерію Фішера буде дорівнювати Fтабл= 3, 87. Якщо за своїми значеннями Fрозр > Fтабл , то можна зробити висновок про адекватність побудованої моделі – припускаємо присутність лінійного зв'язку. Зв’язок між коефіцієнтом детермінації (R2) та F-відношення Фішера Між коефіцієнтом детермінації R2 та F-відношення Фішера є зв’язок:
Отже, можливе тестування адекватності моделі, використовуючи тільки коефіцієнт детермінації.
Ступінь вільності Під терміном “ступінь вільності” (ступінь свободи) в економетрії розуміють число, яке показує, скільки незалежних елементів інформації із змінних Yi (і=1…n) потрібно для розрахунку розглядаємої суми квадратів. В кореляційному аналізі існує рівняння, яке пов’язує відхилення загальної суми квадратів із залишковою сумою квадратів та сумою квадратів, що пояснює регресію: S y = S u + SY де S y – загальна сума квадратів відхилень:
S u – залишкова сума квадратів відхилень:
SY – регресійна сума квадратів відхилень:
Кожна із зазначених сум пов'язана з ступенями вільності: для загальної суми квадратів S y потрібно (n–1) незалежних чисел, тобто ступенів вільності; для залишкової суми квадратів Su – (n–m1)ступенів вільності; для регресійної суми квадратів SY – (m1–1) ступенів вільності.
де n– кількість спостережень; m1– кількість параметрів моделі.
2.3. Оцінка точності моделі Визначаємо стандартні похибки оцінок параметрів моделі з урахуванням дисперсії залишків:
де
т1 – кількість параметрів моделі. В залежності від значення стандартної похибки робиться висновок про ступінь незміщеності оцінок параметрів. Коли стандартні помилки параметрів Порівнюються стандартні похибки оцінки з величиною оцінки: Визначається також середньоквадратичне відхилення (похибка)
Якщо Syx= ± 0, 55 свідчить про те, що фактичні значення Y відхиляються від розрахункових його значень на ± 0, 55 тис.грн./чол. Теорія похибок рекомендує при кількості вибірок меншої від 25–30 у знаменнику підкорінної дробі використовувати (n-1) замість n. Відносна похибка
Величина відносної похибки теоретично в економічних розрахунках повинна складати не більше 6%.
2.4. Перевірка значущості та довірчі інтервали Розглянуті показники якості моделі побудовані за даними спостережень, тобто є деякими вибірковими характеристиками генеральної сукупності. З математичної статистики відомо, що будь-яка статистика має бути перевірена на значущість. За допомогою спеціальних критеріїв необхідно встановити, чи зумовлено значення цієї функції лише похибками вимірювання, чи вона відображає якусь суттєву інформацію. Неперевірений статистичний результат є лише деякою гіпотезою, яка може бути прийнята чи відхилена. Стосовно кожного статистичного результату висувається так звана нульова гіпотеза (про рівність нулю деякої випадкової величини) і альтернативна до неї гіпотеза (про її суттєву відмінність від нуля). У нульовій гіпотезі формулюють результат, який бажано відхилити, а в альтернативній, яка інакше називається експериментальною, – той, що його необхідно підтвердити. 2.4.1. Перевірка значущості коефіцієнта детермінації Для перевірки статистичної значущості коефіцієнта детермінації R2 висувається нульова гіпотеза H0: R2=0. Це означає, що досліджуване рівняння не пояснює змінювання залежної змінної (Y) під впливом відповідних незалежних змінних. У такому разі всі коефіцієнти при незалежних змінних мають дорівнювати нулю. При цьому нульову гіпотезу можна подати у вигляді H0: b1 = b2 =... = bn = 0. Альтернативною до неї є НА: значення хоча б одного параметра моделі відмінне від нуля (bj ≠ 0), тобто хоча б один із факторів впливає на змінювання залежної змінної. Для перевірки цих гіпотез застосовують F-критерій Фішера з m і n–m–1 ступенями свободи. За отриманими в моделі значеннями коефіцієнта детермінації R2обчислюють експериментальне значення F-статистики:
яке порівнюють з табличним значенням розподілу Фішера при заданому рівні значущості a (як правило, a= 0, 05 або a = 0, 01). Якщо Fексп > Fтабл нульова гіпотеза відхиляється, тобто існує такий коефіцієнт у регресійному рівнянні, який суттєво відрізняється від нуля, а відповідний фактор виливає на досліджувану змінну. Відхилення нуль-гіпотези свідчить про адекватність побудованої моделі. У протилежному випадку модель вважається неадекватною. 2.4.2. Перевірка значущості коефіцієнта кореляції Коефіцієнт кореляції, як вибіркова характеристика, перевіряється на значущість за допомогою t-критерію Ст’юдента. Фактичне значення
і порівнюється з табличним значенням t-розподілу з n–m–1ступенями свободи та при заданому рівні значущості a/2 (такий рівень зумовлений тим, що критична область складається з двох проміжків). Якщо абсолютна величина експериментального значення 2.4.3. Оцінка статистичної значущості параметрів моделі Окрім загальних показників адекватності моделі існують також оцінки, що дають змогу встановити якість окремих частин рівняння, зокрема одного чи кількох коефіцієнтів регресії. Як і в попередніх випадках, рішення відносно якості коефіцієнтів приймають на основі відповідних статистичних критеріїв. Статистичну значущість кожного параметра моделі можна перевірити за допомогою t-критерію. При цьому нульова гіпотеза має вигляд Н0: bj = 0, альтернативна НА: bj ≠ 0. Експериментальне значення t-статистики для кожного параметра моделі обчислюється за формулою
(2.14) де Сjj – діагональний елемент матриці (Х′ Х)–1;
(2.15)
Експериментальне значення tj-критерію порівнюється з табличним значенням tтабл з n–m–1 ступенями свободи при заданому рівні значущості a/2 (критична область розбивається на два фрагменти, межі яких задаються квантилем a/2). Якщо значення t-статистики потрапляє до критичної області (за абсолютним значенням перевищує tтабл), приймається альтернативна гіпотеза про значущість відповідного параметра. Інакше робиться висновок про статистичну незначущість параметра bj, а це означає, що відповідна незалежна змінна не впливає суттєво на змінювання залежної змінної. 2.5. Прогнозування за лінійною моделлю Якщо побудована модель адекватна за F-критерієм, то її застосовують для прогнозування залежної змінної. Про прогнозування за моделлю говорять тоді, коли в часових рядах прогнозний період настає пізніше, ніж базовий. Якщо регресія побудована за просторовими даними, прогноз стосується тих елементів генеральної сукупності, що перебувають за межами застосованої вибірки. Припустимо, що ми побудували модель та оцінили параметри методом найменших квадратів. На підставі побудованої моделі можна знайти прогнозні значення матриці залежних змінних Yпр, які відповідають очікуваним значенням матриці незалежних змінних Xпр. Прогноз на перспективу буває двох видів: точковий та інтервальний. Незміщена оцінка точкового прогнозу може розглядатися як точкова оцінка математичного сподівання прогнозного значення Yпр
а також як індивідуальне значення Yпр для матриці незалежних змінних Хпр, що лежать за межами базового періоду Дисперсія похибки прогнозу дорівнює
де var (B) – дисперсійно-коваріаційна матриця, яка записується у вигляді:
Елементи на головній діагоналі матриці
де сjj, cjk – елементи матриці похибок (Х¢ Х)–1.
Тоді дисперсія прогнозу буде:
Середньоквадратична (стандартна) похибка прогнозу:
Довірчий інтервал для прогнозних значень:
де ta– табличне значення t-критерія Ст'юдента з (n–m–1) ступенями вільності a – рівень значимості. Для використання t-критерія Ст'юдента необхідно обрати бажаний рівень значимості a (0, 05 або 0, 01) та число ступенів вільності (n–m–1). Інтервальній прогноз математичного сподівання М(Yпр) буде в межах:
Визначення інтервального прогнозу індивідуального значення Yпр базується на знаходженні середньоквадратичної помилки прогнозу:
Тоді інтервальний прогноз індивідуального значення буде відповідати такому довірчому інтервалу:
Контрольні запитання 1. У чому суть методу найменших квадратів? 2. Які основні причини наявності в регресійній моделі випадкового відхилення? 3. Як розрахувати невідомі параметри лінійної моделі? 4. Пояснити сутність поняття " тіснота зв'язку". 5. Пояснити сутність поняття " значимість зв'язку". 6. За допомогою яких характеристик перевіряються тіснота зв'язку між змінними моделі? 7. За допомогою якої характеристики перевіряються значимість зв'язку між змінними моделі? 8. Що показує коефіцієнт детермінації і в яких межах він приймає значення? 9. Що показує коефіцієнт кореляції? 10. Запишіть формулу дисперсії залишків. 11. З якою ціллю розраховуються стандартні похибки оцінок параметрів? 12. За якими характеристиками вибирається табличне значення критерію Фішера? 13. Як визначити коефіцієнт детермінації у парній регресійній моделі? 14. Як визначити коефіцієнт кореляції у парній регресійній моделі? 15. У чому відмінність між точковим і інтервальним прогнозом? Література [2, с. 25-38; 3, с. 43-46, 96-106, 111-130; 4, с. 44-60, 63-65, 102; 5, с. 23-29, 113-120, 127-140; 6, с. 41-58].
|