Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Линейная модель.
Построим линейную модель, включающую все переменные.
Модель 1: МНК, использованы наблюдения 1-153 Зависимая переменная: price
В этой модели переменные length, const и fuel значимы на 1% уровне, draft на 5 % уровне и beam на 10% уровне. Все остальные переменные оказались незначимыми. В целом уравнение значимо на 1% уровне и R2 = 0.76823. Данные результаты (небольшое количество значимых переменных при значимом уравнении в целом) свидетельствуют о наличии мультиколлинеарности в модели. Проведенный тест на мультиколлинеарность подтверждает мои предположения. Таким образом, сделанные мной выводы о необходимом исключении переменных (guest, cruising_speed) оказались правильными. Построим линейную модель без переменных guest и cruising_speed.
Модель 2: МНК, использованы наблюдения 1-153 Зависимая переменная: price
В данной модели length, fuel, const значимы на 1% уровне, draft, max_speed на 5% уровне, beam, displacement на 10% уровне. Уравнение в целом также значимо на 1% и R2= 0, 767858. Так как следующим шагом будет исключение незначимых переменных из модели, а фиктивная переменная не является значимой, то проинтерпретируем коэффициент при фиктивной переменной region. Коэффициент при переменной region означает, что цена яхты в Америке на 175152 евро выше, чем цена яхты в Европе. Таким образом, количество значимых переменных в модели увеличилось, но все равно не все переменные стали значимыми. Мною принято решение убрать незначимые переменные, при этом оставив такие переменные как power и cabin, так как, на мой взгляд, мощность является неотъемлемой характеристикой любого транспортного средства, а количество кают отображает возможное число гостей хозяина яхты. Построим данную модель. Модель 3: МНК, использованы наблюдения 1-153 Зависимая переменная: price
В данной модели length, fuel, const значимы на 1% уровне, draft, beam, max_speed на 5% уровне. Переменные displacement, power и cabin незначимы на 5% уровне значимости, но значимы на 10% уровне. Уравнение в целом значимо на 1% уровне и R2 =0, 762273.
Для построения данной модели мы пользовались методом наименьших квадратов, но для данного метода одним из необходимых условий является отсутствие гетероскедастичности. Если в модели есть гетероскедастичность, то МНК-оценки коэффициентов становятся неэффективными и стандартные ошибки коэффициентов смещены и несостоятельны => t-статистики вычисляются некорректно. Для обнаружения гетероскедастичности проведем тест Уайта. Н0: в модели нет гетероскедастичности. Тест Вайта (White) на гетероскедастичность МНК, использованы наблюдения 1-153 Зависимая переменная: uhat^2
Коэффициент Ст. ошибка t-статистика P-значение ----------------------------------------------------------------------------- const 2, 40754e+013 2, 14208e+013 1, 124 0, 2635 length 2, 19300e+011 9, 64988e+011 0, 2273 0, 8207 beam -8, 44924e+012 8, 12380e+012 -1, 040 0, 3006 draft -7, 86633e+012 5, 33894e+012 -1, 473 0, 1436 displacement 2, 48166e+011 2, 38617e+011 1, 040 0, 3007 max_speed -5, 59625e+011 4, 64055e+011 -1, 206 0, 2305 power 1, 06114e+010 5, 11135e+09 2, 076 0, 0403 ** fuel -4, 02562e+09 1, 29093e+09 -3, 118 0, 0023 *** cabin 4, 13366e+012 2, 80202e+012 1, 475 0, 1431 sq_length -7, 85703e+010 3, 60375e+010 -2, 180 0, 0314 ** X2_X3 4, 25956e+011 2, 46097e+011 1, 731 0, 0863 * X2_X4 2, 89243e+011 3, 06779e+011 0, 9428 0, 3479 X2_X5 2, 67882e+010 1, 06476e+010 2, 516 0, 0133 ** X2_X6 -3, 81329e+010 1, 63833e+010 -2, 328 0, 0218 ** X2_X7 1, 68880e+08 1, 64651e+08 1, 026 0, 3073 X2_X8 -1, 19766e+08 4, 49588e+07 -2, 664 0, 0089 *** X2_X9 1, 62140e+011 1, 00063e+011 1, 620 0, 1081 sq_beam 3, 03925e+011 6, 18554e+011 0, 4913 0, 6242 X3_X4 8, 92396e+011 1, 57036e+012 0, 5683 0, 5710 X3_X5 -1, 27627e+011 6, 14778e+010 -2, 076 0, 0403 ** X3_X6 1, 69024e+011 1, 08645e+011 1, 556 0, 1227 X3_X7 -1, 87251e+09 1, 22996e+09 -1, 522 0, 1308 X3_X8 9, 83635e+08 3, 04710e+08 3, 228 0, 0017 *** X3_X9 -1, 84479e+012 7, 32947e+011 -2, 517 0, 0133 ** sq_draft 5, 63266e+011 7, 46269e+011 0, 7548 0, 4520 X4_X5 -1, 28199e+011 4, 13969e+010 -3, 097 0, 0025 *** X4_X6 -2, 36777e+09 5, 88167e+010 -0, 04026 0, 9680 X4_X7 5, 82182e+08 5, 56418e+08 1, 046 0, 2978 X4_X8 4, 51766e+08 2, 48950e+08 1, 815 0, 0723 * X4_X9 -5, 88676e+011 5, 57806e+011 -1, 055 0, 2936 sq_displaceme 1, 10700e+09 6, 05385e+08 1, 829 0, 0702 * X5_X6 5, 64435e+09 3, 19677e+09 1, 766 0, 0803 * X5_X7 -7, 58590e+07 2, 18796e+07 -3, 467 0, 0008 *** X5_X8 -1, 11236e+07 7, 09398e+06 -1, 568 0, 1198 X5_X9 -3, 57120e+09 1, 48899e+010 -0, 2398 0, 8109 sq_max_speed 4, 86841e+09 5, 21236e+09 0, 9340 0, 3524 X6_X7 -1, 95624e+08 6, 67602e+07 -2, 930 0, 0041 *** X6_X8 1, 57180e+07 2, 24268e+07 0, 7009 0, 4849 X6_X9 2, 21308e+010 3, 32422e+010 0, 6657 0, 5070 sq_power 1, 34639e+06 358375 3, 757 0, 0003 *** X7_X8 -76908, 9 112223 -0, 6853 0, 4946 X7_X9 1, 20886e+08 2, 66676e+08 0, 4533 0, 6512 sq_fuel 17609, 3 27382, 6 0, 6431 0, 5215 X8_X9 1, 49490e+08 8, 21010e+07 1, 821 0, 0714 * sq_cabin 3, 29007e+011 1, 45331e+011 2, 264 0, 0256 **
ВНИМАНИЕ: матрица данных близка к сингулярной!
Неисправленный R-квадрат = 0, 705925
Тестовая статистика: TR^2 = 108, 006569, р-значение = P(Хи-квадрат(44) > 108, 006569) = 0, 000000
Так как тестовая статистика больше p-значения, то Н0 отвергается, то есть в модели есть гетероскедастичность. Проведем коррекцию ошибок в формуле Уайта. Предположим, что для суммы квадратов остатков верна следующая зависимость: Оцениваем параметры модели. Получаем ряд . Используем оценку дисперсии: . В качестве весов возьмем переменную w1=1/ .
Модель 4: ВМНК, использованы наблюдения 1-153 Зависимая переменная: price Весовая переменная: w1
Статистика, полученная по взвешенным данным:
Статистика, полученная по исходным данным:
В итоговой линейной модели отсутствует гетероскедастичность, все коэффициенты значимы на 10%, причем коэффициенты при const, length и fuel значимы на 1%, а при beam, draft, max_speed на 5%. В целом данное уравнении множественной регрессии значимо на 1% уровне. R2 = 0.763332 и R2 adj = 0.750184. Полученная модель отображает линейную зависимость цены яхты от длины, ширины, осадки, водоизмещения судна, максимальной скорости, запаса топлива, числа кабин, а также мощности. В процессе улучшения модели фиктивная переменная region была исключена из модели, но была проинтерпретирована ранее. Зависимость цены от ее характеристик выглядит следующим образом: Price = -5, 27394e+06 +160906*length + 517151 * beam + 505904*draft + 30938, 4*max_speed + 199, 891* fuel - 163860 * cabin + -201, 515 * power -13377, 3 displacement Проинтерпретируем коэффициенты при переменных в данной модели: ü При увеличении длины судна на 1 метр, цена яхты увеличится на 160906 евро; ü При увеличении ширины судна на 1 метр, цена яхты увеличится на 517151 евро; ü При увеличении осадки судна на 1 метр, цена яхты увеличится на 539224 евро; ü При увеличении водоизмещения яхты на 1 тонну, цена яхты уменьшится на 13377, 3 евро; ü При увеличении максимальной скорости на 1 узел, цена яхты увеличится на 30938, 4 евро; ü При увеличении запаса топлива на 1 литр, цена яхты увеличится практически на 200 евро; ü При увеличении количества кают на 1, цена яхты уменьшится на 163860 евро; ü При увеличении мощности на 1 HP, цена яхты уменьшится на 201 евро.
Среди недостатков данной скорректированной модели следует выделить отсутствие наилучших оценок среди линейных несмещенных оценок.
|