КАТЕГОРИИ:

Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Розглянемо приклад.

⇐ ПредыдущаяСтр 3 из 103Следующая ⇒

Маємо вибірку даних за 8 років, які характеризують продуктивність праці (Y_факт) групи однорідних підприємств в залежності від простоїв основного обладнання (Х). Побудувати парну лінійну регресійну модель виду Y=b₀+b₁× X.

Щоб мати явний вид залежності, необхідно знайти (оцінити) невідомі параметри цієї моделі.

Дані наведені в табл.2.1.

Таблиця 2.1.

№ заводу	Продуктивність праці, тис.грн./чол.	Простої основного обладнання, год./рік;
	Y_факт	Х
	2, 4
	3, 6
	8, 2
	6, 7
	7, 5
	7, 2
	7, 5
	8, 0

Реальні спостереження Y_фактзобразимо точками у системі координат (Х, Y) (мал.2.1).

Малюнок 2.1. Залежність продуктивності праці від простоїв основного обладнання

Візуально можна припустити, що між даними є лінійна залежність, тобто їх можна апроксимувати прямою лінією.

Малюнок 2.2.

Через множину спостережуваних точок можна провести необмежену кількість прямих Y= b₀ + b₁x.

Y_факт

u_i

Y_розр

Y=b₀ +b₁x_i

x_ix

Малюнок 2.3.

На мал. 2.3, пряма розташована таким чином, що деякі точки знаходяться вище, деякі нижче прямої, на основі чого можна встановити відхилення (помилки) відносно цієї прямої:

Французький математик Лежандром у XIX ст. запропонував метод знаходження теоретичної лінії, наближеної до фактичних даних як мінімальну суму (S) квадратів відхилення їх ординат Y_iвід теоретичних
значень Y:

З цього і назва методу – метод найменших квадратів (або скорочено 1МНК).

Відхилення, або помилки, ще інколи називають залишками. Треба проводити пряму таким чином, щоб сума квадратів помилок була мінімальною:

(2.3)

Визначимо значення b_о та b₁, які мінімізують вираз (2.3). Мінімум функції (2.3) досягається за необхідних умов, коли перші похідні дорівнюють нулеві, тобто

Звідки отримаємо систему лінійних рівнянь:

яка називається нормальною.

Всі суми, що входять в систему, обраховуються на основі вхідних статистичних даних.

Таблиця 2.2

	Y_фак	X₁	(X₁)²	Y*X₁
	2, 4			160, 8
	3, 6			230, 4
	8, 2			65, 6
	6, 7			221, 1
	7, 5			52, 5
	7, 2			201, 6
	7, 5			127, 5

S	51, 1			1155, 5

На основі обчислених згідно з вхідними даними табл.2.2 дістанемо систему рівнянь:

В результаті рішення системи отримуємо значення:

b₀ = 8, 96,

b₁ = – 0, 087.

Таким чином, економетрична модель продуктивності праці (рівняння регресії) буде мати вид:

Y_розр= 8, 96 – 0, 087 × Х

2.2. Оцінка тісноти та значимості зв’язку між змінними моделі

Після вибору виду рівняння регресії та знаходження його параметрів розпочинають наступний етап – кореляційний аналіз, тобто дають оцінку тісноти та значимості зв'язку змінних у регресійній моделі.

Тісноту зв'язку між залежною змінною Y та незалежною змінною X оцінюють за допомогою статистичних характеристик: коефіцієнт детермінації, коефіцієнт кореляції. За допомогою цих коефіцієнтів перевіряється відповідність побудованої регресійної моделі (теоретичної) фактичним даним.

У поняття “тіснота зв'язку” вкладається оцінка впливу незалежної змінної (X) на залежну змінну (Y).

Після встановлення тісноти зв'язку між змінними моделі
характеризують значимість зв'язку, яка в кореляційному аналізі частіше всього здійснюється за допомогою F-критерію Фішера.

Коефіцієнт детермінації

Коефіцієнт детермінації показує, якою мірою варіація залежної змінної (результативного показника) Y визначається варіацією незалежної змінної (вхідного показника) X. Тобто дається відповідь на запитання, чи справді зміна значення Y лінійно залежить саме від зміни значення Х, а не відбувається під впливом різних випадкових факторів. Він використовується як при лінійному, так і при нелінійному зв'язку між змінними та розраховується за формулою:

(2.4)

де Y_розр – теоретичні значення залежної змінної на підставі побудованої регресійної моделі; Y_сер – загальна середня фактичних даних залежної змінної; Y_факт – фактичні індивідуальні значення залежної змінної.

Коефіцієнт детермінації приймає значення від 0 (відсутній лінійний зв'язок між показниками) до 1 (відсутній кореляційний зв'язок між показниками).

коефіцієнт кореляції (індекс кореляції)

Найпростішим критерієм, який дає кількісну оцінку зв’язку між двома показниками, є коефіцієнт кореляції (або індекс кореляції). Він розраховується за такою формулою:

(2.5)

Чим ближче коефіцієнт кореляції до одиниці, тим тісніше зв'язок між незалежною та залежною змінними.

Іноді для спрощення розрахунків тісноту кореляційного зв'язку характеризують коефіцієнтом кореляції, який розраховується за формулою:

(2.6)

Значення R лежить у діапазоні від –1 до +1. При R=0 змінні не можуть мати лінійного кореляційного зв'язку. Ступінь тісноти їх лінійної залежності зростає при наближенні R до ±1. Кореляційний зв'язок між показниками відсутній при R=±1 Коли R> 0, то зв'язок між показниками прямий, якщо R< 0 – обернений.

В залежності від значення коефіцієнта кореляції зв’язок між перемінними класифікується так:

Значення коефіцієнта кореляції		0, 1–0, 3	0, 3–0, 5	0, 5–0, 7	0, 7–0, 9	0, 9–0, 99
Висновок про силу кореляційного зв’язку	відсутній	слабкий	помірний	середній	високий	досить високий	близький до функціо- нального

F-критерій Фішера

Тестування значимості змінної Х, або адекватності моделі проводиться за критерієм Фішера. Перевіряється, чи справді незалежна Х впливає на значення залежної Y.

Використовуючи суми квадратів відхилень, обчислимо F-критерійФішера за формулою:

Розрахунковий критерій Фішера з урахуванням ступенів вільності обчислюємо за формулою:

(2.8)

де m, (n–m–1) – число ступенів вільності відповідно чисельника та знаменника залежності;

n – кількість спостережень;

m – кількість незалежних змінних.

Етапи тестування за критерієм Фішера

Тестування значимості змінної Х за критерієм Фішера складається з наступних етапів:

× Формулюється нуль-гипотиза: Н₀: β ₁ = 0.

× Задаємо рівень значимості α (наприклад, 5%).

× Обчислюємо F-відношення.

× За таблицями F-розподілу Фішера знаходимо F-критичне значення при заданому рівні значимості (або помилки) та за ступенями вільності f ₁ та f ₂.

× Цю гіпотезу відкидаємо з 5%-ним ризиком помилитися, якщо:

F_розр > F_{0, 95}

де F_{0, 95} – значення F при 5%-ному ризику помилки (знаходимо за таблицями
F-критерію Фішера з відповідними ступенями вільності і заданим рівнем значимості).

Отже, достовірність моделі оцінюють порівнянням розрахункового (F_розр) та табличного значень критерію Фішера. Припустимо F_розр= 45, 3. Значення F_табл визначають за спеціальними таблицями залежно від ступенів вільності f ₁ та f ₂ (див. дод. 7):

f ₁ = (n – m – 1),

f ₂ = (n – 1),

де n – кількість спостережень; m – кількість незалежних змінних.

Можлива помилка (рівень значимості) a може прийматися або 0, 05 або 0, 01. Це означає, що у 5% або 1% випадків ми можемо помилитися, а у 95% або 99% випадків (рівень довіри) наші висновки будуть правильними.

Так, при a=0, 95 та значеннях f ₁=(8–1–1)=6; f ₂=(8–1)=7 табличне значення критерію Фішера буде дорівнювати F_табл= 3, 87.

Якщо за своїми значеннями F_розр> F_табл, то можна зробити висновок про адекватність побудованої моделі – припускаємо присутність лінійного зв'язку.

Зв’язок між коефіцієнтом детермінації (R²) та F-відношення Фішера

Між коефіцієнтом детермінації R² та F-відношення Фішера є зв’язок:

Отже, можливе тестування адекватності моделі, використовуючи тільки коефіцієнт детермінації.

Ступінь вільності

Під терміном “ступінь вільності” (ступінь свободи) в економетрії розуміють число, яке показує, скільки незалежних елементів інформації із змінних Y_i (і=1…n) потрібно для розрахунку розглядаємої суми квадратів.

В кореляційному аналізі існує рівняння, яке пов’язує відхилення загальної суми квадратів із залишковою сумою квадратів та сумою квадратів, що пояснює регресію:

S _y = S _u + S_Y

де S _y – загальна сума квадратів відхилень:

S _u – залишкова сума квадратів відхилень:

S_Y – регресійна сума квадратів відхилень:

Кожна із зазначених сум пов'язана з ступенями вільності:

для загальної суми квадратів S _y потрібно (n–1) незалежних чисел, тобто ступенів вільності;

для залишкової суми квадратів S_u – (n–m₁)ступенів вільності;

для регресійної суми квадратів S_Y – (m₁–1) ступенів вільності.

		Ступінь вільності
– сума квадратів відхилень фактичних значень Y від середньоарифметичного Y	Загальна сума квадратів відхилень	(n-1)
– сума квадратів відхилень фактичних значень Y від розрахункових	Залишкова сума квадратів відхилень	(n–m₁)
– сума квадратів відхилень розрахункових значень Y від середньоарифметичного Y	Регресійна сума квадратів відхилень	(m₁–1)

де n– кількість спостережень;

m₁– кількість параметрів моделі.

2.3. Оцінка точності моделі

Визначаємо стандартні похибки оцінок параметрів моделі з урахуванням дисперсії залишків:

(2.8)

де –дисперсія залишків:

(2.9)

–елемент матриці похибок С (матриця, обернена до матриці коефіцієнтів системи нормальних рівнянь);

т₁ – кількість параметрів моделі.

В залежності від значення стандартної похибки робиться висновок про ступінь незміщеності оцінок параметрів.

Коли стандартні помилки параметрів не перевищують абсолютні значення цих параметрів, то це може означати, що оцінки параметрів є незміщеними відносно їх істотних значень. Параметри можуть мати зміщення, яке обумовлене невеликою сукупністю спостережень.

Порівнюються стандартні похибки оцінки з величиною оцінки: . Якщо ці величини є невеликими (менше 10%) – це характеризує модель з хорошої сторони.

Визначається також середньоквадратичне відхилення (похибка)

(2.10)

Якщо S_yx= ± 0, 55 свідчить про те, що фактичні значення Y відхиляються від розрахункових його значень на ± 0, 55 тис.грн./чол.

Теорія похибок рекомендує при кількості вибірок меншої від 25–30 у знаменнику підкорінної дробі використовувати (n-1) замість n.

Відносна похибка

(2.11)

Величина відносної похибки теоретично в економічних розрахунках повинна складати не більше 6%.

2.4. Перевірка значущості та довірчі інтервали

Розглянуті показники якості моделі побудовані за даними спостережень, тобто є деякими вибірковими характеристиками генеральної сукупності.

З математичної статистики відомо, що будь-яка статистика має бути перевірена на значущість. За допомогою спеціальних критеріїв необхідно встановити, чи зумовлено значення цієї функції лише похибками вимірювання, чи вона відображає якусь суттєву інформацію.

Неперевірений статистичний результат є лише деякою гіпотезою, яка може бути прийнята чи відхилена.

Стосовно кожного статистичного результату висувається так звана нульова гіпотеза (про рівність нулю деякої випадкової величини) і альтернативна до неї гіпотеза (про її суттєву відмінність від нуля).

У нульовій гіпотезі формулюють результат, який бажано відхилити, а в альтернативній, яка інакше називається експериментальною, – той, що його необхідно підтвердити.

2.4.1. Перевірка значущості коефіцієнта детермінації

Для перевірки статистичної значущості коефіцієнта детермінації R²висувається нульова гіпотеза H₀: R²=0. Це означає, що досліджуване рівняння не пояснює змінювання залежної змінної (Y) під впливом відповідних незалежних змінних. У такому разі всі коефіцієнти при незалежних змінних мають дорівнювати нулю. При цьому нульову гіпотезу можна подати у вигляді

H₀: b₁ = b₂ =... = b_n = 0.

Альтернативною до неї є Н_А: значення хоча б одного параметра моделі відмінне від нуля (b_j≠ 0), тобто хоча б один із факторів впливає на змінювання залежної змінної.

Для перевірки цих гіпотез застосовують F-критерій Фішера з m і n–m–1 ступенями свободи. За отриманими в моделі значеннями коефіцієнта детермінації R²обчислюють експериментальне значення F-статистики:

(2.12)

яке порівнюють з табличним значенням розподілу Фішера при заданому рівні значущості a (як правило, a= 0, 05 або a = 0, 01). Якщо F_експ > F_табл нульова гіпотеза відхиляється, тобто існує такий коефіцієнт у регресійному рівнянні, який суттєво відрізняється від нуля, а відповідний фактор виливає на досліджувану змінну. Відхилення нуль-гіпотези свідчить про адекватність побудованої моделі. У протилежному випадку модель вважається неадекватною.

2.4.2. Перевірка значущості коефіцієнта кореляції

Коефіцієнт кореляції, як вибіркова характеристика, перевіряється на значущість за допомогою t-критерію Ст’юдента. Фактичне значення
t-статистики обчислюється за формулою

(2.13)

і порівнюється з табличним значенням t-розподілу з n–m–1ступенями свободи та при заданому рівні значущості a/2 (такий рівень зумовлений тим, що критична область складається з двох проміжків).

Якщо абсолютна величина експериментального значення
t-статистики перевищує табличне, тобто |t_експ|> t_табл, можна зробити висновок, що коефіцієнт кореляції достовірний (значущий), а зв'язок між залежною змінною та всіма незалежними факторами суттєвий.

2.4.3. Оцінка статистичної значущості параметрів моделі

Окрім загальних показників адекватності моделі існують також оцінки, що дають змогу встановити якість окремих частин рівняння, зокрема одного чи кількох коефіцієнтів регресії.

Як і в попередніх випадках, рішення відносно якості коефіцієнтів приймають на основі відповідних статистичних критеріїв.

Статистичну значущість кожного параметра моделі можна перевірити за допомогою t-критерію. При цьому нульова гіпотеза має вигляд

Н₀: b_j = 0,

альтернативна

Н_А: b_j ≠ 0.

Експериментальне значення t-статистики для кожного параметра моделі обчислюється за формулою

(2.14)

де С_jj – діагональний елемент матриці (Х′ Х)^–1;

– стандартна похибка оцінки параметра моделі:

(2.15)

Експериментальне значення t_j-критерію порівнюється з табличним значенням t_табл з n–m–1 ступенями свободи при заданому рівні значущості a/2 (критична область розбивається на два фрагменти, межі яких задаються квантилем a/2). Якщо значення t-статистики потрапляє до критичної області (за абсолютним значенням перевищує t_табл), приймається альтернативна гіпотеза про значущість відповідного параметра. Інакше робиться висновок про статистичну незначущість параметра b_j, а це означає, що відповідна незалежна змінна не впливає суттєво на змінювання залежної змінної.

2.5. Прогнозування за лінійною моделлю

Якщо побудована модель адекватна за F-критерієм, то її застосовують для прогнозування залежної змінної. Про прогнозування за моделлю говорять тоді, коли в часових рядах прогнозний період настає пізніше, ніж базовий. Якщо регресія побудована за просторовими даними, прогноз стосується тих елементів генеральної сукупності, що перебувають за межами застосованої вибірки.

Припустимо, що ми побудували модель та оцінили параметри методом найменших квадратів. На підставі побудованої моделі можна знайти прогнозні значення матриці залежних змінних Y_пр, які відповідають очікуваним значенням матриці незалежних змінних X_пр.

Прогноз на перспективу буває двох видів: точковий та інтервальний.

Незміщена оцінка точкового прогнозу може розглядатися як точкова оцінка математичного сподівання прогнозного значення Y_пр

(2.16)

а також як індивідуальне значення Y_пр для матриці незалежних змінних Х_пр, що лежать за межами базового періоду .

Дисперсія похибки прогнозу дорівнює

(2.17)

де – дисперсия залишків u, яка розраховується за формулою (2.9);

var (B) – дисперсійно-коваріаційна матриця, яка записується у вигляді:

(2.18)

Елементи на головній діагоналі матриці та за її межами розраховуються за формулами:

(2.19)

(2.20)

де с_jj, c_jk – елементи матриці похибок (Х¢ Х)^–1.

Тоді дисперсія прогнозу буде:

(2.21)

Середньоквадратична (стандартна) похибка прогнозу:

(2.22)

Довірчий інтервал для прогнозних значень:

(2.23)

де t_a– табличне значення t-критерія Ст'юдента з (n–m–1) ступенями вільності a – рівень значимості.

Для використання t-критерія Ст'юдента необхідно обрати бажаний рівень значимості a (0, 05 або 0, 01) та число ступенів вільності (n–m–1).

Інтервальній прогноз математичного сподівання М(Y_пр) буде в межах:

(2.24)

Визначення інтервального прогнозу індивідуального значення Y_пр базується на знаходженні середньоквадратичної помилки прогнозу:

(2.25)

Тоді інтервальний прогноз індивідуального значення буде відповідати такому довірчому інтервалу:

(2.26)

Контрольні запитання

1. У чому суть методу найменших квадратів?

2. Які основні причини наявності в регресійній моделі випадкового відхилення?

3. Як розрахувати невідомі параметри лінійної моделі?

4. Пояснити сутність поняття " тіснота зв'язку".

5. Пояснити сутність поняття " значимість зв'язку".

6. За допомогою яких характеристик перевіряються тіснота зв'язку між змінними моделі?

7. За допомогою якої характеристики перевіряються значимість зв'язку між змінними моделі?

8. Що показує коефіцієнт детермінації і в яких межах він приймає значення?

9. Що показує коефіцієнт кореляції?

10. Запишіть формулу дисперсії залишків.

11. З якою ціллю розраховуються стандартні похибки оцінок параметрів?

12. За якими характеристиками вибирається табличне значення критерію Фішера?

13. Як визначити коефіцієнт детермінації у парній регресійній моделі?

14. Як визначити коефіцієнт кореляції у парній регресійній моделі?

15. У чому відмінність між точковим і інтервальним прогнозом?

Література [2, с. 25-38; 3, с. 43-46, 96-106, 111-130; 4, с. 44-60, 63-65, 102; 5, с. 23-29, 113-120, 127-140; 6, с. 41-58].

⇐ Предыдущая 1 234 5 6 7 8 9 10 Следующая ⇒

Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2026 год. (0.368 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал