![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Общие статистические сведения
Перед тем, как непосредственно перейти к построению регрессионных моделей и привести более строгое определение регрессионного уравнения, рассмотрим некоторые основные статистические понятия. Объектом статистического изучения служит совокупность единиц, обладающих некоторыми общими свойствами. В примере 4.1.1. – это группа предприятий, производящих однотипную продукцию. Вся подлежащая изучению совокупность однородных единиц называется генеральной совокупностью. В зависимости от степени полноты охвата наблюдением изучаемой совокупности различают сплошное и выборочное наблюдение. При сплошном наблюдении обследованию подвергают все без исключения единицы генеральной совокупности. Если обследованию подлежит только часть или несколько частей статистической совокупности. то такое наблюдение называют выборочным. Часть элементов совокупности, отобранных по какому-либо заранее сформулированному правилу, образуют выборку. Статистические совокупности состоят обычно из большого числа единиц и поэтому трудно обозримы. Для сравнения совокупностей удобно пользоваться некоторыми обобщающими характеристиками, выражающими в сжатой форме наиболее существенные особенности распределения совокупности. Простейшей характеристикой совокупности являются различные виды средних, чаще всего среднеарифметическое:
где При сравнении нескольких совокупностей их средние по величине могут совпасть. Хотя отдельные значения в различных совокупностях могут существенно отличаться друг от друга как по величине, так и по структуре. Отдельные значения могут быть тесно сгруппированы вокруг среднего, либо, наоборот, сильно удалены от него. Среднее не отражает вариацию показателей. В качестве меры вариабельности отдельных значений часто используется дисперсия
Во многих случаях для анализа тех либо других экономических процессов важен порядок получения статистических данных. Но при рассмотрении пространственных данных порядок их получения не играет существенной роли. Кроме того, результаты выборочных наблюдений x1, x2, …, xn, записанные в порядке их регистрации, бывают труднообозримы и неудобны для дальнейшего анализа. Поэтому часто проводят группировку наблюдений. Если значение x i встретилось в выборке n i раз, то величина n i называется частотой значения x i, а величина
Таблица Статистический ряд наблюдений
По статистическому ряду можно построить эмпирическую функцию распределения В общем случае совокупность всех возможных значений случайной величины и соответствующих им вероятностей составляет распределение случайной величины, которое может быть задано в виде ряда распределения, функции распределения и плотности распределения вероятностей.
Пример. Анализируется прибыль Х (%) предприятий отрасли. Обследованы n=100 предприятий, данные по которым занесены следующий статистический ряд:
Необходимо построить эмпирическую функцию распределения F *(x) и ее график.
Рис. График эмпирической функции распределения.
Наглядно статистический ряд может быть представлен в виде полигона частот или полигона относительных частот:
По результатам выборочных обследований вычисляют статистические характеристики, например, средние, дисперсия и др. По величине этих характеристик делают вывод о соответствующих параметрах генеральной совокупности. В этой связи возникают две статистические проблемы: оценивание параметров генеральной совокупности и проверка гипотез относительно оценок этих параметров. При исследовании различных параметров генеральной совокупности на основе выборки возможно лишь получение оценок этих параметров. Эти оценки строятся на основе ограниченного набора данных и могут изменяться от выборки к выборке. Процесс нахождения оценок по определенному правилу будем называть оцениванием. Цель любого оценивания – получение наиболее точного значения оцениваемой характеристики. В этом смысле оценки должны обладать определенными свойствами. Мы рассмотрим самые важные из них несмещенность, состоятельность, эффективность. Если математическое ожидание оценки параметра равно значению оцениваемого параметра, то оценку называют несмещенной. Оценка называется состоятельной, если с увеличением объема выборки ( После определения оценок обычно встает вопрос об их качестве и статистической значимости, проверка которой осуществляется по схеме статистической проверки гипотез. На практике возникает необходимость статистической проверки гипотез относительно закона распределения; числовых значений параметров анализируемой стохастической системы; об общем виде модели, описывающей статистическую зависимость. По своему назначению и характеру решаемых задач статистические критерии чрезвычайно разнообразны. однако их объединяет общность логической схемы, по которой они строятся. Кратко суть схемы состоит в следующем. Выдвигается нулевая (основная) гипотеза H0, подлежащая проверке. Наряду с нулевой рассматривают гипотезу H1, которая будет приниматься, если отклоняется H0. Такая гипотеза называется альтернативной. Например, если проверяется гипотеза о равенстве параметра q некоторому значению q0, т.е. H0: q=q0, то в качестве альтернативной могут рассматриваться следующие гипотезы: H1(1): q¹ q0; H1(2): q> q0; H1(3): q< q0; H1(4): q=q1(q1¹ q0). Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются или нет данные наблюдений и выдвинутая гипотеза. Можно ли расхождение между гипотезой и результатом выборочных наблюдений отнести за счет случайной погрешности. Эта задача решается с помощью специальных методов математической статистики. При проверке гипотезы выборочные данные могут противоречить гипотезе H0. Тогда она отклоняется. Если же статистические данные согласуются с выдвинутой гипотезой, то она не отклоняется. Статистическая проверка гипотез связана с риском ошибки, при которой будет отвергнута правильная нулевая гипотеза (ошибка 1-го рода). Максимально допустимое значение вероятности совершить ошибку такого рода принято обозначать буквой a и ее называют уровнем значимости. Обычно значения a задают заранее круглыми числами (a=0, 1; a=0, 05; a=0, 01). Если a=0, 05, то это означает, что исследователь не хочет совершить ошибку 1-го рода более чем в 5 случаях из 100. Для проверки статистической гипотезы используют критерий, распределение статистики которого известно. Множество всех возможных значений статистики критерия разбивают на два непересекающихся подмножества: одно из них содержит значения статистики критерия, при которых нулевая гипотеза отклоняется, другое – при которых она не отклоняется. Совокупность значения статистики критерия, при которых нулевую гипотезу отклоняют, называют критической областью. Различают двустороннюю критическую область – она определяется в случае, когда альтернативная гипотеза имеет вид H1: q¹ q0; правостороннюю критическую область — она определяется в случае, когда альтернативная гипотеза имеет вид H1: q> q0; левостороннюю критическую область — она определяется в случае, когда альтернативная гипотеза имеет вид H1: q< q0. Прежде, чем перейти к формулировке задач статистического исследования зависимостей, введем следующие обозначения переменных:
Общая задача статистического исследования зависимости может быть сформулирована следующим образом: по результатам n наблюдений { 1). каково математическое выражение (или структура модели) зависимости между 2). в соответствии с каким критерием качества аппроксимации значений В примере 4.1.1 значения результирующего показателя – объем производства
Модель (4.1.1) строится таким образом, что математическое ожидание случайного остатка
Уравнением регрессии называется уравнение (4.1.2), которое задает зависимость среднего значения (математического ожидания) объясняемой переменной от значений объясняющих переменных. В моделях регрессии классического типа обычно используются факторы, независимые между собой и в предположении, что ошибка модели имеет свойства белого шума — процесса с нулевым математическим ожиданием, постоянной конечной дисперсией и нулевой корреляцией между остатками В основу любой регрессионной модели кладется выборка (набор наблюдений) значений объясняющих переменных После выбора экспериментальных данных для нахождения величины объясненной части В классической теории в качестве функции регрессии рассматривается линейная функция. Из предыдущих рассуждений ясно, что линейная регрессия представляет собой линейную функцию между условным математическим ожиданием зависимой переменной
в котором 1. Факторы 2. Математическое ожидание 3. Дисперсия случайных величин 4. Случайные величины 5. Случайная величина 6. Ранг матрицы
Уравнение регрессии (теоретическое уравнение регрессии) в этом случае имеет вид
На практике функция регрессии (т.е. значения параметров
для заданной выборки значений объема n – это уравнение имеет вид:
Для нахождения оценок
которая по условию (4.1.5) является функцией от Значения
при которых функция S принимает минимальное значение. Для того, чтобы полученные таким образом оценки были несмещенными и состоятельными, в классической теории должны выполняться приведенные выше предположения (1)-(6). При выполнении этих предпосылок вектор
|