![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Порядок выполнения работы в пакете Statistica
Порядок выполнения лабораторной работы рассмотрен на примере, где целью исследования является проведение многомерной классификации муниципальных образований Оренбургской области по показателям, характеризующим демографическое состояние региона. Объектом исследования выступают города и районы Оренбургской области. Предмет исследования – демографическое состояние региона, характеризующееся следующими показателями:
Исходные данные для анализа представлены в виде матрицы
Рисунок 4.12 – Исходные данные для анализа
Для приведения исходных переменных к стандартизованному виду можно воспользоваться операцией центрирования и нормирования данных. Для этого в пакете Statistica 7.0 необходимо выбрать пункты меню Data/Standardize. Вид экрана представлен на рисунке 4.13.
Рисунок 4.13 – Осуществление операции стандартизации данных
Результаты преобразования данных представлены на рисунке 4.14.
Рисунок 4.14 – Центрировано-нормированные значения признаков
Для реализации кластерного анализа с помощью пакета Statistica 7.0 после запуска программы и ввода исходных данных необходимо выбрать пункт меню Statistics – Критерии, подпункты Multivariate Exploratory Techniques/ Cluster Analysis – Кластерный анализ. Вид экрана представлен на рисунке 4.15.
Рисунок 4.15 – Вызов диалога кластерного анализа
На экране появится окно, изображенное на рисунке 4.16, в котором содержатся основные процедуры кластерного анализа: Joining (tree clustering) – иерархические агломеративные методы; K-mean clustering – метод k -средних; Two-way joining – метод двухстороннего присоединения, в котором классифицируются и объекты, и признаки одновременно.
Рисунок 4.16 – Основные процедуры кластерного анализа
Классификация муниципальных образований иерархическими агломеративными методами кластерного анализа Выбор процедуры Выбор переменных для анализа осуществляется нажатием на кнопку
Рисунок 4.17 – Выбор переменных для анализа
В поле Input file следует задать вид входной информации: Raw data – матрица типа «объект-свойство»; Distance matrix – матрица расстояний. Так как исходные данные представлены в виде матрицы Рисунок 4.18 – Форма задания типа входной информации
В поле Claster устанавливают объект классификации: Cases (rows)/строки – классификацияобъектов наблюдения; Variables (columns)/столбцы – классификация признаков. Так как необходимо провести классификацию объектов – муниципальных образований, то в поле Claster необходимоустановить режим Cases (rows). Форма задания режима классификации представлена на рисунке 4.19.
Рисунок 4.19 – Форма задания режима классификации
На следующем этапе необходимо определить правило объединения кластеров. При нажатии на кнопку Amalgamation (linkage) rule, появляется окно, в котором предложены различные методы объединения кластеров. Вид экрана представлен на рисунке 4.20.
Рисунок 4.20 – Методы объединения кластеров
В пакете Statistica реализованы следующие агломеративные методы классификации: Single linkage – метод «одиночной связи»; Complete linkage – метод «полных связей»; Unweighted pair group average – метод «средней связи»; Weighted pair group average – взвешенный метод средней связи; Unweighted pair group centroid – центроидный метод (невзвешенный); Weighted pair group centroid – взвешенный центроидный метод; Ward′ s method – метод Уорда. Поскольку метод «одиночной связи» не позволяет определить наиболее подходящее число классов в исследуемой совокупности объектов, воспользуемся для классификации, например, методом «полных связей». Далее необходимо задать метрику расстояний. При нажатии на кнопку Distance matrix, появляется окно, представленное на рисунке 4.21, в котором предложены следующие метрики для расчета расстояний: Squared euclidean distance – квадратичное евклидово расстояние; Euclidean distance – обычное евклидово расстояние; City-block (Manhattan) distances – манхеттенское расстояние; Chebychev distance metric – расстояние Чебышева; Power distance – специальный класс метрических функций (расстояние Минковского). В качестве метрики расстояния между объектами выберем обычное евклидово расстояние.
Рисунок 4.21 – Метрики расстояний между объектами
После задания всех необходимых параметров и нажатия кнопки
Рисунок 4.22 – Вид окна для вывода результата расчетов кластерного анализа
Для построения вертикальной дендрограммы необходимо нажать кнопку
Рисунок 4.23 – Дендрограмма объединения классов методом «полных связей»
Методом «полных связей» при пороговом значении расстояния В данном случае уровень порогового значения выбирается из тех соображений, чтобы получить небольшое количество кластеров. Далее рассчитываются средние значения показателей в каждом классе (приложение Д, таблица Д.3). Графическое изображение информации о средних значениях признаков в классах представлено на рисунке 4.24.
Таблица 4.1 – Результаты классификация муниципальных образований Оренбургской области методом «полных связей»
Рисунок 4.24 – График средних значений признаков в каждом кластере
Анализируя график средних значений в классах, можно сделать следующие выводы. Первый класс, куда вошло большинство городов Оренбургской области, характеризуется по сравнению с остальными классами наибольшими средними значениями таких показателей, как удельный вес населения в трудоспособном возрасте ( Объекты второго класса характеризуются самым высоким по сравнению с первым и третьим классами средним значением общего коэффициента рождаемости ( Третий класс схож со вторым только по показателю миграционного прироста населения ( С помощью метода «полных связей» получено достаточно неравномерное распределение объектов по классам, так во второй класс вошло 9 объектов, в то время как в первый класс - 22 объекта. Данный недостаток можно устранить методом Уорда. После задания в поле Amalgamation (linkage) rule Ward′ s method (метод Уорда) и нажатия кнопки Рисунок 4.25 – Методы объединения кластеров
Вертикальная дендрограмма объединения классов методом Уорда представлена на рисунке 4.26.
Рисунок 4.26 – Дендрограмма объединения классов методом Уорда
Методом Уорда при пороговом значении расстояния
Таблица 4.2 – Результаты классификация муниципальных образований Оренбургской области методом Уорда
Средние значения в каждом классе, представленные в приложении Д (таблица Д.4) и на рисунке 4.27, позволяют сделать следующие выводы. Первый класс муниципальных образований Оренбургской области, преимущественно города и примыкающие к ним районы, характеризуется наибольшим средним значением миграционного прироста населения ( Объекты второго класса, напротив, характеризуется наибольшим средним значением рождаемости ( Третий класс объектов характеризуется наибольшим средним значением таких показателей, как общий коэффициент смертности (
Рисунок 4.27 - График средних значений признаков в каждом кластере
Кнопка График изменения расстояния между объединенными классами может быть получен нажатием на кнопку
Рисунок 4.28 – Протокол объединения кластеров
Для просмотра матрицы расстояний необходимо нажать на кнопку
Рисунок 4.29 – Матрица расстояний
Кнопка Кнопка Классификация муниципальных образований методом k-средних Использование различных методов иерархического агломеративного кластерного анализа приводит к различным результатам классификации. Метод k -средних позволяет получить более устойчивое разбиение, но требует задания некоторых начальных условий (количество образуемых кластеров, порог завершения процесса классификации и т. д.). Выбор процедуры K-mean clustering, представленной на рисунке 4.16, и нажатие на кнопку Cluster – классификация признаков или объектов; Number of clasters – число кластеров; Number of iteration – число итераций (установленных по умолчанию 10 итераций, как правило, вполне достаточно для получения устойчивого разбиения). Радио-кнопки в группе Initial cluster centers задают способ определения начальных эталонов классов. Вид формы задания параметров классификации методом
Рисунок 4.30 – Форма задания параметров классификации методом k -средних С помощью иерархических агломеративных методов кластерного анализа было выявлено, что 47 муниципальных образований Оренбургской области целесообразно разбить на три класса (наглядной является дендрограмма объединения методом Уорда). После нажатия кнопки
Рисунок 4.31 – Вид окна для вывода результатов классификации методом k -средних
В верхней части формы указаны параметры классификации, в нижней части расположены кнопки для вывода различной информации по кластерам. Кнопка
Рисунок 4.32 – Состав кластера 1
Рисунок 4.33 – Состав кластера 2 Рисунок 4.34 – Состав кластера 3 Классификация муниципальных образований на три класса методом k -средних
Таблица 4.3 – Результаты классификация муниципальных образований Оренбургской области методом k -средних
При нажатии на кнопку
Рисунок 4.35 – Средние значения признаков в классах
Рисунок 4.36 – Расстояния между классами
Как видно из рисунка 4.36 наименьшее расстояние наблюдается между первым и третьим классами (1, 021161). Кнопка
Рисунок 4.37 – Анализ дисперсий
Чтобы получить значения межгрупповых и внутригрупповых дисперсий, необходимо сумму квадратов поделить на соответствующее число степеней свободы. Рассчитанные таким образом межгрупповые и внутригрупповые дисперсии представлены в таблице 4.4.
Таблица 4.4 – Значения межгрупповых и внутригрупповых дисперсий
Таблица, представленная на рисунке 4.37, содержит также наблюденное значение F-критерия, а также значимость нулевой гипотезы о равенстве межгрупповой и внутригрупповой дисперсий. На уровне значимости 0, 05 по всем признакам нулевая гипотеза отвергается. Это означает, что каждый из признаков вносит существенный вклад в разделение объектов на классы. Кнопка
Рисунок 4.38 – График средних значений признаков в каждом кластере Данный график, благодаря своей наглядности, оказывается полезным при интерпретации результатов классификации, которая приведена ниже. Кнопка
Рисунок 4.39 – Результаты расчета описательных статистик для каждого кластера
Сравнение классификаций С помощью метода «полных связей», метода Уорда и метода k -средних были получены различные классификации. Сводная таблица результатов классификаций муниципальных образований Оренбургской области, полученных различными методами кластерного анализа, приведена в приложении Д (таблица Д.5) Для выбора лучшей классификации необходимо воспользоваться функционалами качества разбиения. Наиболее удобным, с точки зрения реализации на ЭВМ, функционалом качества является сумма квадратов расстояний от каждого объекта до центра кластера: Для нахождения функционала качества разбиений, полученных с помощью иерархических агломеративных кластер-процедур необходимо: 1. в таблице с исходными данными оставить только те объекты, которые были отнесены к первому классу; 2. вычислить средние значения для каждого признака и добавить их в качестве последней строки в исходные данные; 3. рассчитать матрицу расстояний между объектами с помощью кнопки 4. в последней строке (столбце) матрицы будут стоять расстояния от объектов, относящихся к первому классу, до центра первого класса; 5. с помощью табличного редактора Excel рассчитать сумму квадратов расстояний; 6. проделать шаги 1-5 для каждого кластера; 7. просуммировать полученные значения квадратов расстояний для каждого кластера. Рассчитаем функционал качества классификации, полученной методом Уорда. На рисунке 4.40 представлены значения признаков для 15 объектов, отнесенных к первому классу; 10 объектов, отнесенных ко второму классу и 22 объектов, отнесенных к третьему классу. В последней строке введены средние значения каждого признака.
Рисунок 4.40 – Объекты, отнесенные к первому, второму, третьему классу соответственно По имеющимся данным рассчитаны матрицы расстояний, представленные на рисунке 4.41.
Рисунок 4.41 – Матрицы расстояний
В последней строке (столбце) данных матриц стоят расстояния от объектов до центра соответствующего класса. Результаты расчетов суммы квадратов расстояний представлены на рисунке 4.42.
Рисунок 4.42 – Результаты расчетов суммы квадратов расстояний
Тогда значение функционала качества для классификации, полученной методом Уорда, рассчитывается следующим образом:
Аналогичным образом можно рассчитать функционал качества для классификации, полученной методом «полных связей»:
Значение функционала качества
По выбранному функционалу качества наилучшей является классификация
Содержательная интерпретация результатов классификации Для того чтобы дать экономическую интерпретацию наилучшей с точки зрения функционала качества классификации, полученной методом k -средних, воспользуемся рисунком 4.38. Первый класс муниципальных образований характеризуется более высокими по сравнению с другими кластерами средними значениями таких показателей, как удельный вес населения в трудоспособном возрасте Объекты второго класса с одной стороны характеризуются наибольшим средним значением общего коэффициента рождаемости Третий класс лидирует по значениям таких показателей как общий коэффициент смертности
|