Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Порядок выполнения работы через кнопочный интерфейс Stata






После запуска Stata на экране появится основное окно программы (рисунок 4.43).

Рисунок 4.43 – Вид основных окон Stata после запуска

 

Для ввода данных используется редактор данных Data Editor, который можно вызвать кнопкой или через главное меню программы Window \ Data Editor. Используя пункт меню Paste в окне Data Editor, вставим данные, предварительно скопированные в буфер обмена (рисунок 4.44). Важно помнить, что разделителем целой и дробной части числе является точка.

 

Рисунок 4.44 – Вид окна Data Editor после вставки данных

 

Переименуем переменные, по умолчанию названные как var1, …, var5, в X1, …, X5. Для этого сделаем двойной щелчок левой клавишей мыши по заголовку переменной и в появившемся окне в поле Name внесем имя x1. В поле Label можно внести метку, или пояснение к переменной (рисунок 4.45). Нажатие кнопки Apply фиксирует внесенные изменения. Для перехода к редактированию имени следующей переменной удобно использовать расположенную на этой же форме кнопку . Повторим описанные операции для каждой из оставшихся четырех переменных.

 

Рисунок 4.45 – Вид формы редактирования имени, формата и метки переменной

 

Поскольку рассматриваемые переменные имеют разные единицы измерения, разный масштаб, то имеет смысл перейти к стандартизированным данным. Используем переход к . Для этого выберем пункт главного меню Data \ Create or change data \ Create new variable (extended) (рисунок 4.46).

 

Рисунок 4.46 – Выбор пунктов меню при стандартизации переменных

 

В появившейся форме (рисунок 4.47) нужно в поле Generate variable ввести имя новой переменной (в нашем случае nx1), в поле Expression ввести имя преобразуемой переменной (в нашем случае х1). В списке функций Egen function выбрать группу Standardized values, Options-поля Mean и Standard deviation оставить по умолчанию равными 0 и 1 – это означает, что среднее значение новой переменной будет равно 0, а стандартное отклонение 1. Нажмем кнопку ОК.

 

Рисунок 4.47 – Вид формы для преобразования переменных

 

Проделав аналогичные операции для оставшихся четырех переменных, получим следующий список переменных Variables (рисунок 4.48).

 

Рисунок 4.48 – Вид списка «Variables» после добавления стандартизированных переменных

В пакете Stata реализованы следующие агломеративные методы классификации:

Single linkage – метод «одиночной связи»;

Average linkage – метод «средней связи»;

Complete linkage – метод «полных связей»;

Weighted-average linkage – взвешенный метод средней связи;

Median linkage – метод медианной связи;

Centroid linkage – центроидный метод;

Ward′ s linkage – метод Уорда.

Воспользуемся для классификации, например, методом «полных связей». Для запуска процедуры иерахической классификации в пакете Stata выберем пункт меню Statistics \ Multivariate analysis \ Cluster analysis \ Cluster data \ Complete linkage. В появившемся окне (рисунок 4.49) в поле Variables нужно задать переменные, которые будут учитываться при классификации. В части формы (Dis)similarity measure нужно указать тип анализируемых переменных: Continuous (непрерывные), Binary (бинарные) или Mixed (смешанные). Далее выбирается метрика, по которой будет рассчитываться расстояние между классифицируемыми переменными. В State реализованы такие метрики, как

L2 (Euclidean distance) евклидово расстояние;

L2squared (squared Euclidean distance) - квадратичное евклидово расстояние;

L1 (absolute-value distance) хеммингово расстояние или city-block;

Linfinity (maximum-value distance) - расстояние Чебышева

L(#) и расстояние Минковского с аргументом #;

Lpower(#) - расстояние Минковского с аргументом #, возведенным в степень #;

Canberra – расстояние Канберра;

correlation – корреляционное расстояние;

angular - угловое расстояние.

Выберем обычное евклидово расстояние и нажмем кнопку ОК.

 

Рисунок 4.49 – Вид окна задания параметров иерархического кластерного анализа

 

Для построения дендрограммы воспользуемся пунктом меню Statistics \ Multivariate analysis \ Cluster analysis \ Postclustering\ Dendrograms (рисунок 4.50).

 

Рисунок 4.50 – Вид окна задания параметров построения дендрограммы

 

В поле Cluster analysis выбирается тот кластерный анализ, результаты которого нужно представить в виде дендрограммы. В нашем случае пока это только один вид анализа – метод полных связей, получивший по умолчанию имя _clus_1. В списке Variable containing leaf labels можно выбрать переменную, содержащую названия классифицируемых объектов (в нашем случае это районы Оренбургской области). Оставляем экспериментирование с данной возможностью на самостоятельную проработку читателя. В поле Orientation выберем ориентацию дендрограммы: Vertical (вертикальная, когда подписи объектов расположены по оси абсцисс) и Horizontal (горизонтальная, когда подписи объектов расположены по оси ординат). В поле Branches можно задать построение всей дендрограммы (Plot the full dendrogram), построение только заданного количества верхних ветвей дендрограммы (Plot top branches only) или построение только тех ветвей дендрограммы, которые находятся выше задаваемого порога (Plot branches above a (dis)similarity measure).

С помощью остальных вкладок этой формы можно настроить вид выводимой дендрограммы. При нажатии ОК откроется окно редактора графиков Stata Graph, в котором будет представлена построенная дендрограмма. После изменения заголовка диаграммы, подбора размера шрифтов для каждой оси получаем дендрограмму следующего вида (рисунок 4.51).

 

Рисунок 4.51 – Вид окна Stata Graph после редактирования дендрограммы (метод полных связей)

 

Анализируя дендрограмму, можно выдвинуть предположение, что в исследуемой совокупности объектов естественно выделяются 2 кластера (пороговое расстояние 8). Кроме визуального анализа дендрограммы для определения оптимального числа классов можно использовать так называемые stopping rules (критерии останова). В пакете Stata реализованы два наиболее эффективных критерия: индекс Калински и Харабаза и индекс Дуды и Харта. Для расчета этих индексов выберем пункт меню Statistics \ Multivariate analysis \ Cluster analysis \ Postclustering \ Cluster analysis stopping rules. В появившемся окне (рисунок 4.52) в поле Options укажем, что индекс нужно рассчитать только для разбиений на 2, 3, …, 9 классов. После нажатия кнопки ОК в окне появится таблица с результатами (отметим, что ее можно скопировать в отчет с сохранением табуляции). Рассчитаем также значения индекса Дуды и Харта (рисунок 4.53). По индексу Калински и Харабаза оптимальным следует признать количество классов, равное 2; анализируя индекс Дуды и Харта, видим, что его максимальные значения (0, 7539 и 0, 7315) достигаются для количества классов, равных 5 и 2 соответственно. Поскольку при выделении 5 классов один из классов содержит всего один объект, такую классификацию нельзя признать хорошей. Примем количество классов равным 2.

 

Рисунок 4.52 – Вид окна выбора индекса определения оптимального числа классов

 

 

 


Рисунок 4.53 – Вид таблиц с результатами расчета индексов Калински и Харабаза, Дуды и Харта (метод полных связей)

 

Создадим переменную, которая каждому объекту поставит в соответствие номер класса, в который он был отнесен. Используем пункт меню Statistics \ Multivariate analysis \ Cluster analysis \ Postclustering \ Summary variables from cluster analysis. В появившемся окне ( рисунок 4.54) в поле Generate variable(s) запишем имя переменной, в которую будет занесены номера классов. В поле Function можно выбрать Groups, если нужно сохранить результаты разделения на заданное в Number of groups to form количество групп, или Cut at value, если нужно сохранить результаты разделения при заданном пороговом расстоянии.

 

Рисунок 4.54 – Вид окна для создания переменной с результатами классификации

 

После нажатия кнопки ОК в файле с данными появится новая переменная rez1 (рисунок 4.55).

 

Рисунок 4.55 – Вид окна Data Editor после создания переменной с результатами классификации

 

Для подсчета количества элементов в каждом классе, используем описательную статистику Statistics \ Summary, tables, and tests \ Tables \ Tables of summary statistics. В появившемся окне в поле Row variable введем имя переменной с результатами классификации rez2 (рисунок 4.56).

 

Рисунок 4.56 – Вид окна для подсчета количества объектов в классах

 

После нажатия ОК в основном окне программы появится таблица (рисунок 4.57).

 

Рисунок 4.57 – Вид основного окна Stata после подсчета количества объектов в классах

 

Таким образом, первый класс содержит 16 объектов, а второй - 31. Состав классов, выделенных методом полных связей, представлен в таблице 4.5.

 

Таблица 4.5 – Результаты классификации муниципальных образований Оренбургской области методом «полных связей» (пакет Stata)

Номер кластера Количество объектов в кластере Состав класса
      Города: г. Медногорск Районы: Абдулинский, Асекеевский, Бугурусланский, Бузулукский, Гайский, Грачевский, Кваркенский, Кувандыкский, Курманаевский, Матвеевский, Новосергиевский, Пономаревский, Северный, Сорочинский, Шарлыкский.
      Города: Абдулино, Бугуруслан, Бузулук, Гай, Кувандык, Новотроицк, Оренбург, Орск, Соль-Илецк, Сорочинск, Ясный. Районы: Адамовский, Акбулакский, Александровский, Беляевский, Домбаровский, Илекский, Красногвардейский, Новоорский, Октябрьский, Оренбургский, Первомайский, Переволоцкий, Сакмарский, Саракташский, Светлинский, Соль-Илецкий, Ташлинский, Тоцкий, Тюльганский, Ясненский.

Для интерпретации полученных результатов построим график средних значений всех признаков в каждом из выделенных классов. В Statа нет команды, которая бы выполняла построение такого графика, поэтому используем команду profileplot. Параметрами команды являются переменные, средние значения по которым нужно рассчитать (в нашем случае nx1 nx2 nx3 nx4 nx5), и группирующая переменная (в нашем случае rez2). Наберем в командной строке profileplot nx1 nx2 nx3 nx4 nx5, by(rez2) и нажмем Enter. Результатом выполнения команды будет график следующего вида (рисунок 4.58).

 

Рисунок 4.58 – График средних значений признаков в классах (метод полных связей)

 

Анализируя график средних значений признаков в классах, можно сделать следующие выводы: большая часть объектов, вошедших в первый класс, - это районы, относящиеся к Западной зоне Оренбургской области. Объекты этого класса характеризуются сравнительно высокой смертностью и низкой рождаемостью, высоким удельным весом населения старше трудоспособного возраста и низким удельным весом населения в трудоспособном возрасте. В среднем эти районы непривлекательны и с миграционной точки зрения – для них характерен отрицательный миграционной прирост.

Во второй класс вошли практически все города Оренбургской области, большая часть сельских районов из Центральной зоны. Для них характерна более высокая рождаемость, низкая смертность, высокий удельный вес населения в трудоспособном и соответственно низкий удельный вес населения старше трудоспособного возраста. Это миграционно привлекательные города и районы – положительный миграционный прирост.

Очевидно, что первый класс можно назвать классом со сравнительно неблагоприятной демографической ситуацией, второй класс – со сравнительно благоприятной.

Отметим, что для наглядности различий между классами для построения этого графика использовались стандартизированные переменные. Табличное представление средних значений исходных признаков в классах можно получить, используя пункт меню Statistics \ Summary, tables, and tests \ Summary and descriptive statistics \ Means (рисунок 4.59).

 

Рисунок 4.59 – Выбор пунктов меню при расчете средних значений признаков в

классах

Использование этой команды позволит также получить доверительные интервалы для средних значений признаков. В появившемся окне (рисунок 4.60) в поле Variables выберем переменные X1, X2, X3, X4, X5. На вкладке if/in/over поставим галочку в Group over subpopulations и выберем в ставшем активным списке Group variables группирующую переменную – это наша переменная с номерами классов rez2 (рисунок 4.61). Нажмем ОК. Результаты выполнения команды представлены на рисунке 4.62.

Рисунок 4.60 – Вид окна выбора переменных для расчета средних значений признаков в классах

 

Рисунок 4.61 – Вид окна выбора группирующей переменной при расчете средних значений признаков в классах

 

Рисунок 4.62 – Вид окна Stata после расчета средних значений признаков в классах (метод полных связей)

 

Выполнив аналогичные действия для метода Уорда, получаем дендрограмму (рисунок 4.63), значения индексов Калински и Харабаза, Дуды и Харта (рисунок 4.64), график средних значений (рисунок 63), таблицу результатов классификации (таблица 4.65). Из класса 2 в класс 1 перешли четыре района (Илекский, Октябрьский, Саракташский, Ясненский) и один город – Абдулино. Интерпретация классов совпадает с интерпретацией классов, выделенных методом полных связей, за исключением нивелирования различий в общем коэффициенте рождаемости.

 

Рисунок 4.63 - Дендрограмма (метод Уорда)

 

 

 

 


Рисунок 4.64 – Вид таблиц с результатами расчета индексов Калински и Харабаза, Дуды и Харта (метод Уорда)

 

Рисунок 4.65– График средних значений признаков в классах (метод Уорда)

 

Таблица 4.6 – Результаты классификация муниципальных образований Оренбургской области методом Уорда (пакет Stata)

Номер кластера Количество объектов в кластере Состав класса
      Города: Абдулино, Медногорск Районы: Абдулинский, Асекеевский, Бугурусланский, Бузулукский, Гайский, Грачевский, Илекский, Кваркенский, Кувандыкский, Курманаевский, Матвеевский, Новосергиевский, Октябрьский, Пономаревский, Саракташский, Северный, Сорочинский, Шарлыкский, Ясненский.
      Города:, Бугуруслан, Бузулук, Гай, Кувандык, Новотроицк, Оренбург, Орск, Соль-Илецк, Сорочинск, Ясный. Районы: Адамовский, Акбулакский, Александровский, Беляевский, Домбаровский, Красногвардейский, Новоорский, Оренбургский, Первомайский, Переволоцкий, Сакмарский, Светлинский, Соль-Илецкий, Ташлинский, Тоцкий, Тюльганский.

 

Для реализации итерационного метода кластерного анализа выберем пункты меню Statistics \ Multivariate analysis \ Cluster analysis \ Cluster data \ Kmeans. В появившемся окне (рисунок 4.66) на вкладке Main в поле Variables укажем переменные (если оставить поле пустым, при классификация будет проведена по всем переменным, имеющимся в файле с данными). В списке K (the number of groups) укажем количество классов, на которые будет разбивать исследуемую совокупность объектов. В списке (Dis) similarity measure выберем тип анализируемых переменных и используемую метрику расстояния между объектами (в нашем случае евклидово расстояние). Отметим, что при реализации метода k -средних в Stata можно выбрать любую из описанных выше метрик расстояния между объектами, в отличие от пакета Statistica, где может быть использовано только евклидово расстояние.

 

Рисунок 4.66 – Вид вкладки Main окна задания параметров классификации методом k-средних

 

На вкладке Options (рисунок 4.67) задается правило выбора объектов, которые будут начальными эталонами.

K unique random observations – случайным образом выбранные K объектов.

First K observations – первые K объектов в файле с данными (при активации опции Exlude the K observations эти объекты не подлежат классификации, а используются только как начальные эталоны).

Last K observations – последние K объектов в файле с данными (при активации опции Exlude the K observations эти объекты не подлежат классификации, а используются только как начальные эталоны).

K random centers chosen from within the range of the data – эталонные значения центров классов получаются в результате генерации случайных чисел, равномерно распределенных на интервалах, соответствующих диапазонам изменения анализируемых данных.

Group means from K random partitions of the data – все объекты случайным образом делятся на K групп, и средние значения признаков в каждой из групп берутся в качестве начальных эталонов.

Group means from K partitions formed by grouping every Kth observation – формируется K групп: объекты с номерами 1, 1+K, 1+2K и т.д. образуют первую группу, объекты с номерами 2, 2+K, 2+2K и т.д. образуют вторую группу и т.д. Средние значения признаков в каждой из групп берутся в качестве начальных эталонов.

Group means from K (nearly equal) contiguous partitions of the data - формируется K групп примерно одинакового объема: приблизительно n/K первых объектов образуют первую группу, следующие n/K объектов – вторую и т.д. Средние значения признаков в каждой из групп берутся в качестве начальных эталонов.

Group means from partitions defined by initial grouping variable – в выпадающем списке выбирается переменная, содержащая разбиение объектов на группы. Эта переменная может быть сформирована, например, после реализации какого-либо иерархического метода классификации. Средние значения признаков в каждой из групп берутся в качестве начальных эталонов.

 

Рисунок 4.67 – Вид вкладки Options окна задания параметров классификации методом k-средних

 

Нажмем ОК. В файле с данными будет добавлена переменная с результатами классификации, по умолчанию названная _clus_3 (так как это третий по счету метод классификации, вызванный в текущей сессии). Аналогично вышеописанному, построим график средних значений признаков в классах (рисунок 4.68).

 

Рисунок 4.68 – График средних значений признаков в классах (метод k -средних)

 

По сравнению с классификацией иерархическими методами произошло существенное перераспределение объектов по классам, на наш взгляд, не слишком удачное: для объектов второго класса теперь характерна высокая смертность, высокий удельный вес населения старше трудоспособного возраста и одновременно положительный миграционный прирост. Попробуем провести классификацию методом k-средних, взяв в качестве начального разбиения результаты разбиения методом полных связей. В результате получаем график средних значений признаков в классе (рисунок 4.69), таблицу средних значений признаков в классах (рисунок 4.71) и таблицу с результатами классификации (таблица 4.7).

 

Рисунок 4.69 – График средних значений признаков в классах (метод k-средних, начальное разбиение по методу полных связей)

 

Рисунок 4.70 - Вид окна Stata после расчета средних значений признаков в классах (метод k-средних)

Таблица 4.7 - Результаты классификация муниципальных образований Оренбургской области методом k-средних с начальным разбиением по методу полных связей (пакет Stata)

Номер кластера Количество объектов в кластере Состав класса
      Города: Абдулино, Гай, Кувандык, Медногорск, Новотроицк, Орск. Районы: Абдулинский, Адамовский, Александровский, Беляевский, Гайский,, Кваркенский, Кувандыкский, Курманаевский, Матвеевский, Новоорский, Новосергиевский, Оренбургский, Пономаревский, Переволоцкий, Саракташский, Северный, Шарлыкский, Ясненский, Тоцкий.
      Города:, Бугуруслан, Бузулук, Оренбург, Соль-Илецк, Сорочинск, Ясный. Районы: Акбулакский, Асекеевский, Бугурусланский, Бузулукский, Грачевский, Илекский, Домбаровский, Красногвардейский, Первомайский, Октябрьский, Сакмарский, Светлинский, Соль-Илецкий, Ташлинский, Сорочинский, Тюльганский.

 

Интерпретация классов близка к интерпретации классов, выделенных методами полных связей и Уорда, за исключением нивелирования различий в уровне миграционного прироста.

С помощью метода «полных связей», метода Уорда и метода k-средних были получены различные классификации. Сводная таблица результатов классификаций муниципальных образований Оренбургской области, полученных различными методами кластерного анализа, приведена в приложении Д (таблица Д.5)

Для выбора лучшей классификации необходимо воспользоваться функционалами качества разбиения, например, .

Покажем, как оценить дисперсии признаков в каждом классе на примере разбиения, полученного методов полных связей (переменная rez2). Используем пункт меню Statistics \ Summary, tables, and tests \ Tables \ Table of summary statistics (tablestat) и в появившемся окне в поле Variables выберем анализируемые переменные, в поле укажем группирующую переменную rez2, в одном из списков Statistics to display выберем Variance (рисунок 4.71).

 

Рисунок 4.71 – Вид окна при оценке внутриклассовых дисперсий признаков (метод полных связей)

 

После нажатия ОК в основном окне программы появится таблица (рисунок 4.72).

Рисунок 4.72 – Вид основного окна Stata после расчета дисперсий признаков внутри классов, выделенных методом полных связей

 

Рассчитав дисперсии признаков в классах, выделенных методов Уорда и k -средних, сведем результаты в таблицу (таблица 4.8)

 

Таблица 4.8 – Дисперсии признаков в классах

Признак Метод классификации
полных связей Уорда k -средних
1 класс 2 класс 1 класс 2 класс 1 класс 2 класс
nx1 1, 144 0, 862 1, 261 0, 806 0, 858 0, 876
nx2 0, 330 0, 532 0, 408 0, 491 0, 331 0, 326
nx3 0, 306 0, 820 0, 298 0, 843 0, 505 0, 945
nx4 0, 617 0, 506 0, 772 0, 482 0, 512 0, 410
nx5 0, 936 0, 909 1, 189 0, 773 0, 983 1, 000
Сумма дисперсий внутри класса 3, 334 3, 628 3, 929 3, 396 3, 188 3, 557
Сумма дисперсий по всем классам 6, 961 7, 324 6, 745

 

Получаем, что , и . Таким образом, ориентируясь на данный критерий, при разделении на 2 класса наилучшей следует признать классификацию, полученную методом к-средних. Отметим, что такой подход к сравнению классификаций, полученных разными методами более обоснован, когда выбранное, например, по индексу Калински и Харабаза, оптимальное число классов одинаково для всех используемых методов. Так, для классификации по методу Уорда, число классов, равное 2, только близко к оптимальному. Поэтому, на наш взгляд, разделение муниципальных образований области на 2 класса, безусловно, довольно четко характеризует демографическую ситуацию в регионе, но лишь на довольно высоком уровне агрегирования.

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2025 год. (0.026 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал