Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Тема 19. Одномерные статистики и проверка гипотез
При проведении маркетинговых исследований часто необходимо получить информацию об одной переменной. Например; · Какое число потребителей хорошо информировано о предлагаемом новом товаре? · Каково соотношение между разными группами потребителей товара: много использующими, средне, или не использующими товар? · Какова средняя степень осведомленности о товаре? Сильно ли различается степень осведомленности потребителей о новом товаре? Такие данные можно получить в результате анкетирования целевой группы и анализировать с помощью частотного анализа. Частотный анализ предполагает подсчет числа ответов респондентов, по каждому из значений переменной, в отношении которой проводится анализ. Подсчет распределения частот значений переменной дает возможность построить таблицу, с указанием общего числа респондентов, отметивших значение переменной, а также преобразование полученных частот в проценты и набегающий итог для всех значений этой переменной. Частотный анализ помогает определить долю респондентов, оставивших вопрос без ответа, а также указывает долю ошибочных ответов. По каждой категории необходимо показывать не только общее число случаев, но и число допустимых. Число пропущенных ответов и их процент может быть указан в качестве примечания к таблице. Кроме того, можно установить наличие посторонних значений или выбросов, т.е. случаев с экстремальными значениями. Они не являются ошибками, а скорее наблюдениями, которые настолько сильно отличаются от остальных, что встает вопрос, следует ли их включать в общую статистику, исключать из анализа или искать особые факторы, которые обусловили это экстремальное значение. Результаты частотного анализа полезно представить в виде распределения рассматриваемойпеременной. Нагляднее всего представить распределение в виде гистограммы, на которой значения переменной размещаются по оси Х, а частота, или относительная частота появления значений указывается по оси У. Также на основе полученной гистограммы можно построить полигон частот, который получается из гистограммы путем соединения верхних точек столбцов прямыми линиями. Еще один удобный способ представления распределения данных называется кумулятивная функция распределения. При этом подходе определяется число наблюдений со значениями меньше или равными специфицированной величине, т.е. генерируются кумулятивные частоты (набегающим итогом). Кумулятивная функция распределения может использоваться для расчета некоторых широко используемых показателей, таких как медиана, квартили и перцентили. Для того чтобы обобщить сырые данные таблицы, в которую исследователи сводят результаты всех опросов, используют описательные статистики: · показатели центра распределения (среднее, мода и медиана), · показатели вариации (размах, межквартальный размах, стандартное отклонение и коэффициент вариации), · показатели формы распределения (асимметрия и эксцесс) Среднее арифметическое или выборочное среднее (mean) – это наиболее часто используемый показатель, характеризующий положение центра распределения. Он используется для оценки среднего значения в случае, если данные собраны с помощью интервальной или относительной шкалы. Среднее арифметическое X задается формулой:
где Xi – значение переменной для i-го респондента, n – общее число ответов. Мода (mode) – з начение переменной, которое чаще всего встречается в выборочном распределении. Представляет наивысшую точку (пик) распределения. Медиана (median) – значение переменной, которое приходится на середину распределения частот, т.е. одна половина всех значений больше медианы, а другая половина - меньше. Медиана— это 50-й перцентиль. Она характеризует положение центра распределения порядковых данных Каждый из вышерассмотренных показателей определяет центр распределения по-разному. Если переменную измеряют по номинальной шкале, то лучше использовать моду. Если переменную измеряют по порядковой шкале, то больше подходит медиана. Самый лучший показатель для интервальной или относительной шкалы – среднее арифметическое, а мода и медиана плохо отражают положение центра распределения. Однако среднее арифметическое чувствительно к выбросам значений и если они есть, то лучше использовать два показателя – среднее и медиану. Показатели вариации (measures of variability), вычисляются на основании данных, измеряемых с помощью интервальных или относительных шкал и включают размах вариации, межквартильный размах, дисперсию, стандартное отклонение и коэффициент вариации. Размах вариации ( range ) – это разность между наибольшим и наименьшим значениями переменной в вариационном ряду. На это значение очень сильно влияют выбросы.
Межквартильный размах (interquartile range) — это разность между 75- и 25-м перцентилями, т.е. размах вариации распределения, охватывающий центральные 50% всех наблюдений. Разность между средним значением переменной и ее наблюдаемым значением называют отклонением от среднего. Дисперсия (variance) – среднее из квадратов отклонений переменной от ее средней величины. Если значения данных сгруппированы вокруг среднего, то дисперсия невелика. И наоборот, если данные разбросаны, то мы имеем дело с большей дисперсией. Среднеквадратическое (стандартное) отклонение (standard deviation) равно квадратному корню из дисперсии. Стандартное отклонение выборки Sxвычисляют следующим образом;
где Xi – значение переменной для i-го респондента, – среднее арифметическое ответов по переменной, n – общее число ответов. Среднеквадратическое (стандартное) отклонение имеет смысл при анализе интервальных и относительных переменных. Этот показатель содержит важную информацию о разбросе и всегда рассчитывается наряду со средним значением. Однако следует принимать во внимание, что на его значение может сильно зависеть от величины выбросов выборки. Коэффициент вариации (coefficient of variation) — это отношение стандартного отклонения к среднему арифметическому, выраженное в процентах. Коэффициент вариации — показатель относительной изменчивости переменной. Он имеет смысл, только если переменную измеряют по относительной шкале. Коэффициент вариации CV вычисляют так: Показатели формы распределения, как и показатели вариации, также полезны для понимания природы распределения переменной. Форму распределения оценивают с помощью асимметрии и эксцесса. При симметричном распределении частоты любых двух значений переменной, которые расположены на одном и том же расстоянии от центра распределения, одинаковы. Равны между собой также и значения среднего арифметического, моды и медианы. Распределение асимметрично (skewness), если значения переменной, равноудаленные от среднего, имеют разную частоту, т.е. одна ветвь распределения вытянута больше другой. Эксцесс (kurtosis) - это показатель относительной крутости кривой частотного ряда по сравнению с нормальным распределением.
|