Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Точность и достоверность прогноза
Очевидно, что точность прогноза тем выше, чем меньше величина ошибки, которая представляет собой разность между прогнозируемым и фактическим значениями исследуемой величины. Вся проблема состоит в том, чтобы вычислить ошибку прогноза, так как фактическое значение прогнозируемой величины станет известно только в будущем. Следовательно, методы оценки точности по уже свершившимся событиям (апостериорные) не имеют практической ценности, так как являются лишь констатацией факта. При разработке прогноза оценку его точности требуется производить заранее (априорно), когда истинное значение прогнозируемой величины еще не известно. Как же поступать в этих случаях? Дискуссии в специальной литературе отмечают эти трудности, в итоге все предложения так или иначе связаны с определением доверительного интервала на основе статистического выборочного метода. При этом точность прогноза оценивается величиной доверительного интервала для заданной вероятности его осуществления, а под достоверностью понимают оценку вероятности осуществления прогноза в заданном доверительном интервале. Таким образом, точность прогноза выражается с помощью вероятностных пределов фактической величины от прогнозируемого значения. Следует отметить, что точное совпадение фактических данных и прогностических точечных оценок, полученных путем экстраполяции кривых, характеризующих тенденцию, – явление маловероятное, этому виной следующие источники погрешности: 1) выбор формы кривой (порядка полинома и так далее), характеризующей тренд, содержит элемент субъективизма. Во всяком случае, часто нет твердой основы для того, чтобы утверждать, что выбранная форма кривой является единственно возможной или тем более наилучшей для экстраполяции в данных конкретных условиях; 2) оценивание параметров кривых (иначе говоря, оценивание тренда) производится на основе ограниченной совокупности наблюдений, каждое из которых содержит случайную компоненту. В силу этого параметрам кривой, а следовательно, и ее положению в пространстве свойственна некоторая неопределенность; 3) тренд характеризует некоторый средний уровень ряда на каждый момент времени. Отдельные наблюдения, как правило, отклоняются от него в прошлом. Естественно ожидать, что подобного рода отклонения будут происходить и в будущем. Погрешность, связанная со вторым и третьим ее источниками, может быть отражена в виде доверительного интервала прогноза при принятии допущений о свойстве ряда. По теории математической статистики при условии, что случайные ошибки имеют нормальное распределение, величины разброса событий (доверительный интервал) при вероятности , для , для (рис. 1.1), где – среднеквадратическая ошибка прогноза. Однако полученные в ходе статистического оценивания параметры не свободны от погрешности, связанной с тем, что объем информации, на основе которой производилось оценивание, ограничен и в некотором смысле эту информацию можно рассматривать как выборку. Строго говоря, так как величина является среднеквадратичной ошибкой (СКО) «генеральной совокупности» величин yi, достигаемой лишь при i ®¥, то необходимо вводить поправку на недостаточный объем выборки. С этой целью в формулу вычисления доверительных границ интервала необходимо ввести коэффициент – значение t -статистики Стьюдента и оперировать выборочной СКО: , где – выборочная среднеквадратическая ошибка тренда; – значение t -статистики Стьюдента.
Рис. 1.1. Доверительный интервал прогноза
Величину выбирают из таблиц в зависимости от (, где Р – заданная вероятность осуществления прогноза) и v (, где n – число уровней динамического ряда, m – число параметров уравнения тренда, для линейного тренда ). Доверительный интервал для прогноза, очевидно, должен учитывать не только неопределенность, связанную с положением тренда , но и возможность отклонения от этого тренда. Если (где z – количество единиц времени, на которые продлен тренд), то доверительный интервал прогноза, учитывающий эту ошибку (среднеквадратическую ошибку прогноза), составит . При определении средней квадратической ошибки (дисперсии) прогноза, основанного на линейной модели, исходя из вышеизложенных соображений, необходимо учитывать, по крайней мере, два источника неопределенностей. Во-первых, естественно полагать, что действительные значения зависимой переменной не будут совпадать с расчетными (прогнозными), так как сама линия регрессии описывает взаимосвязь лишь в среднем, в общем. Отдельные наблюдения рассеяны вокруг нее. Таким образом, наиболее очевидным фактором, во многом определяющим надежность получаемых по уравнению регрессии прогностических оценок, является рассеяние наблюдений вокруг линии регрессии. Во-вторых, в силу того, что оценивание параметров модели осуществляется по выборочным данным, оценки a и b сами содержат некоторую погрешность. Причем погрешность в значении а приводит к вертикальному сдвигу линии регрессии. В свою очередь, колебание оценки b, связанное с ее выборочным происхождением, приводит к «покачиванию» линии регрессии. В качестве меры рассеяния наблюдений вокруг линии регрессии примем такую общераспространенную характеристику, как дисперсия. Оценка ее, как известно, равна сумме квадратов отклонений, деленной на число степеней свободы. В данном случае она составит , (1.5)
Учитывая то, что две степени свободы теряются при определении двух параметров уравнения прямой, последнее выражение можно переписать в виде . Данную дисперсию часто называют остаточной (дисперсией остатков). Погрешность в оценке параметров модели также учитывается дисперсиями – дисперсией параметра а и дисперсией параметра b. Для их определения удобно воспользоваться формулами для вычисления коэффициентов линейной регрессии при центрированной независимой переменной, а именно и , где . В этом случае параметр а есть выборочное среднее. Оценка дисперсии выборочного среднего при его распределении по нормальному закону представляет собой отношение остаточной дисперсии к общему числу наблюдений, то есть . Дисперсия параметра b представляет собой отношение остаточной дисперсии к сумме квадратов отклонений (от средней) значений независимой переменной с учетом квадрата значения независимой переменной (переменной, для которой определяется прогноз): . Из данного выражения видно, что в точке . Таким образом, оценка дисперсии прогноза, осуществленного на основании линейного тренда, или, переходя к независимой переменной t: . При статистической постановке прогнозной задачи , где – заданное; а – среднее значение независимой переменной x. Если нанести доверительные границы на график, то они расположатся выше и ниже линии регрессии в виде ветвей гиперболы, ограничивая доверительную область (рис. 2.2). Доверительный интервал уменьшается при увеличении продолжительности наблюдения (периода основания прогноза) и растет с увеличением периода упреждения прогноза. Определим доверительный интервал в рамках примера (табл. 1.1). Так как линейное уравнение регрессии содержит два оцениваемых параметра, а число наблюдений , то число степеней свободы при расчете составит 14–2=12. Необходимые для расчета квадратического отклонения показатели разности между фактическими и расчетными значениями уровней представлены в табл. 1.2.
Таблица 1.2. Расчет отклонений от линейного тренда
Сумма квадратов отклонений равна 1396. Рис. 1.2. Динамика доверительного интервала
Таким образом, . Учитывая, что прогноз осуществляется для (на 2005 г.),
и . .
При доверительной вероятности 0, 9, и значение t - статистики Стьюдента равно 1, 78 и . Таким образом, интервальный прогноз объектов. Уравнения трендов иногда определяют на основе относительно коротких динамических рядов. Естественно, что в этом случае возникает опасность того, что доверительные интервалы для линии тренда, а следовательно, и для прогностических оценок окажутся весьма широкими. Поэтому, задавшись некоторыми ограничениями на размер ошибки прогноза или ошибки уравнения тренда, можно найти минимальное число наблюдений, при котором поставленное условие будет соблюдено. Так, например, уравнение, определяющее средние квадратические ошибки линии тренда (), в общем виде можно представить как , где k – некоторая функция числа наблюдений и периода упреждения. Для линейного тренда выражение для k можно определить из следующих соображений [6]. Величина k характеризует собой отношение средних квадратических ошибок . Так как последовательность значений ti составляет натуральный ряд чисел, то и (величины, характеризующие разности , являются членами ряда с равноотстоящими элементами). Далее, величина характеризует расстояние z от середины динамического ряда до точки на оси времени, для которой делается прогностическая оценка. следовательно, . Таким образом, и представляет собой среднюю квадратическую ошибку уравнения, измеренную в единицах среднего квадратического отклонения от тренда. Этой величиной можно воспользоваться в качестве некоторого критерия погрешности и, исходя из ее значения, определить минимально необходимое число наблюдений при заданном периоде упреждения. Допустим, что средняя квадратическая ошибка уравнения не должна превышать 1 при z =1. Тогда , откуда . Определение доверительных интервалов полиномов невысоких степеней связано с более объемными по содержанию выводами зависимостей. Эти выводы широко представлены в специальной литературе, поэтому в целях более компактного изложения материала далее приводятся лишь конечные выражения. Дисперсия прогноза, основанного на квадратичной модели (знак означает суммирование ): Дисперсия прогноза, основанного на кубичной параболе: Простое сопоставление подкоренных выражений приведенных формул говорит о том, что при одной и той же величине доверительный интервал тем шире, чем выше степень полинома, характеризующего тренд. Это и понятно, поскольку дисперсия уравнения тренда определяется как взвешенная сумма дисперсий соответствующих параметров уравнений. И все-таки, если тренд лучше описывается кривой более высокого порядка, то соответственно среднеквадратическая ошибка будет ниже и, следовательно, доверительный интервал уже, чем, скажем, при линейном тренде. Вопросы для самопроверки по разделу 1 1. Что характеризует детерминированная компонента в уравнении тренда? 2. Что отражает стохастическая компонента в уравнении тренда? 3. В чем состоит задача прогноза? 4. Что является первым этапом экстраполяции тренда? 5. В чем состоит сущность метода наименьших квадратов? 6. Какие функции чаще всего используются в качестве модели тренда в практических исследованиях? 7. Что характеризует начальный (свободный) коэффициент в уравнении линейного тренда? 8. Что понимают под точностью прогноза? 9. Что понимают под достоверностью прогноза? 10. Какие источники погрешности при построении тренда Вы знаете? 11. Что такое доверительный интервал? 12. Зачем в формулу вычисления доверительных границ интервала вводят коэффициент – значение -статистики Стьюдента? 13. Какие источники неопределенности необходимо учитывать при определении средней квадратической ошибки прогноза, основанного на линейной модели? 14. Что чаще всего принимается в качестве меры рассеяния наблюдений вокруг линии регрессии? 15. Как происходит оценка дисперсии прогноза? 16. Как ведет себя доверительный интервал при увеличении продолжительности наблюдения? 17. Как меняется доверительный интервал при увеличении периода упреждения прогноза?
|