Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Порядок выполнения работы в пакете Statistica






Порядок выполнения лабораторной работы рассмотрен на примере, где целью исследования является проведение многомерной классификации муниципальных образований Оренбургской области по показателям, характеризующим демографическое состояние региона.

Объектом исследования выступают города и районы Оренбургской области.

Предмет исследования – демографическое состояние региона, характеризующееся следующими показателями:

– общий коэффициент рождаемости (‰);

– общий коэффициент смертности (‰);

– удельный вес населения в трудоспособном возрасте (%);

– удельный вес населения старше трудоспособного возраста (%);

– коэффициент миграционного прироста, снижения (‰).

Исходные данные для анализа представлены в виде матрицы . Фрагмент таблицы с исходными данными в пакете Statistica 7.0 представлен на рисунке 4.12.

 

Рисунок 4.12 – Исходные данные для анализа

 

Для приведения исходных переменных к стандартизованному виду можно воспользоваться операцией центрирования и нормирования данных. Для этого в пакете Statistica 7.0 необходимо выбрать пункты меню Data/Standardize. Вид экрана представлен на рисунке 4.13.

 

Рисунок 4.13 – Осуществление операции стандартизации данных

 

Результаты преобразования данных представлены на рисунке 4.14.

 

Рисунок 4.14 – Центрировано-нормированные значения признаков

 

Для реализации кластерного анализа с помощью пакета Statistica 7.0 после запуска программы и ввода исходных данных необходимо выбрать пункт меню Statistics – Критерии, подпункты Multivariate Exploratory Techniques/ Cluster Analysis – Кластерный анализ. Вид экрана представлен на рисунке 4.15.

 

Рисунок 4.15 – Вызов диалога кластерного анализа

 

На экране появится окно, изображенное на рисунке 4.16, в котором содержатся основные процедуры кластерного анализа:

Joining (tree clustering) – иерархические агломеративные методы;

K-mean clustering – метод k -средних;

Two-way joining – метод двухстороннего присоединения, в котором классифицируются и объекты, и признаки одновременно.

 

Рисунок 4.16 – Основные процедуры кластерного анализа

 

Классификация муниципальных образований иерархическими агломеративными методами кластерного анализа

Выбор процедуры и нажатие на кнопку позволяют перейти к окну функциональных возможностей модуля «Иерархические агломеративные методы», в котором необходимо выбрать переменные для анализа и задать основные параметры классификации.

Выбор переменных для анализа осуществляется нажатием на кнопку Переменные на форме Cluster analysis: Joining. Вид формы отбора признаков для анализа представлен на рисунке 4.17.

 

Рисунок 4.17 – Выбор переменных для анализа

 

В поле Input file следует задать вид входной информации:

Raw data – матрица типа «объект-свойство»;

Distance matrix – матрица расстояний.

Так как исходные данные представлены в виде матрицы типа «объект-свойство», то в поле Input file следует установить Raw data. Вид формы задания типа входной информации представлен на рисунке 4.18.

Рисунок 4.18 – Форма задания типа входной информации

 

В поле Claster устанавливают объект классификации:

Cases (rows)/строки – классификацияобъектов наблюдения;

Variables (columns)/столбцы – классификация признаков.

Так как необходимо провести классификацию объектов – муниципальных образований, то в поле Claster необходимоустановить режим Cases (rows). Форма задания режима классификации представлена на рисунке 4.19.

 

Рисунок 4.19 – Форма задания режима классификации

 

На следующем этапе необходимо определить правило объединения кластеров. При нажатии на кнопку Amalgamation (linkage) rule, появляется окно, в котором предложены различные методы объединения кластеров. Вид экрана представлен на рисунке 4.20.

 

Рисунок 4.20 – Методы объединения кластеров

 

В пакете Statistica реализованы следующие агломеративные методы классификации:

Single linkage – метод «одиночной связи»;

Complete linkage – метод «полных связей»;

Unweighted pair group average – метод «средней связи»;

Weighted pair group average – взвешенный метод средней связи;

Unweighted pair group centroid – центроидный метод (невзвешенный);

Weighted pair group centroid – взвешенный центроидный метод;

Ward′ s method – метод Уорда.

Поскольку метод «одиночной связи» не позволяет определить наиболее подходящее число классов в исследуемой совокупности объектов, воспользуемся для классификации, например, методом «полных связей».

Далее необходимо задать метрику расстояний. При нажатии на кнопку Distance matrix, появляется окно, представленное на рисунке 4.21, в котором предложены следующие метрики для расчета расстояний:

Squared euclidean distance – квадратичное евклидово расстояние;

Euclidean distance – обычное евклидово расстояние;

City-block (Manhattan) distances – манхеттенское расстояние;

Chebychev distance metric – расстояние Чебышева;

Power distance – специальный класс метрических функций (расстояние Минковского).

В качестве метрики расстояния между объектами выберем обычное евклидово расстояние.

 

Рисунок 4.21 – Метрики расстояний между объектами

 

После задания всех необходимых параметров и нажатия кнопки , будут произведены вычисления, и на экране появится форма Joining Results, содержащая результаты кластерного анализа. Вид формы представлен на рисунке 4.22.

 

Рисунок 4.22 – Вид окна для вывода результата расчетов кластерного анализа

 

Для построения вертикальной дендрограммы необходимо нажать кнопку . График объединения классов представлен на рисунке 4.23.

 

Рисунок 4.23 – Дендрограмма объединения классов методом «полных связей»

 

Методом «полных связей» при пороговом значении расстояния все города и районы Оренбургской области разбиваются на три класса , состав которых приведен в таблице 4.1.

В данном случае уровень порогового значения выбирается из тех соображений, чтобы получить небольшое количество кластеров.

Далее рассчитываются средние значения показателей в каждом классе (приложение Д, таблица Д.3). Графическое изображение информации о средних значениях признаков в классах представлено на рисунке 4.24.

 

Таблица 4.1 – Результаты классификация муниципальных образований Оренбургской области методом «полных связей»

Номер кластера Количество объектов в кластере Состав класса
      Города: Ясный, Оренбург, Бузулук, Новотроицк, Орск, Кувандык, Гай, Бугуруслан, Абдулино, Сорочинск. Районы: Оренбургский, Тоцкий, Саракташский, Октябрьский, Илекский, Новоорский, Беляевский, Переволоцкий, Ташлинский, Тюльганский, Сакмарский, Александровский.
      Город: Соль-Илецк. Районы: Ясненский, Соль-Илецкий, Красногвардейский, Первомайский, Домбаровский, Акбулакский, Светлинский, Адамовский.
    Город: Медногорск. Районы: Шарлыкский, Пономаревский, Северный, Матвеевский, Сорочинский, Новосергиевский, Бузулукский, Курманаевский, Бугурусланский, Кувандыкский, Кваркенский, Гайский, Грачевский, Асекеевский, Абдулинский.

 

Рисунок 4.24 – График средних значений признаков в каждом кластере

 

Анализируя график средних значений в классах, можно сделать следующие выводы.

Первый класс, куда вошло большинство городов Оренбургской области, характеризуется по сравнению с остальными классами наибольшими средними значениями таких показателей, как удельный вес населения в трудоспособном возрасте () и миграционный прирост населения (), при этом на достаточно низком уровне зафиксировано среднее значение общего коэффициента рождаемости ().

Объекты второго класса характеризуются самым высоким по сравнению с первым и третьим классами средним значением общего коэффициента рождаемости () и самым низким средним значением общего коэффициента смертности (), что свидетельствует о значительном естественном приросте населения. В тоже время объекты данного класса характеризуются низким уровнем механического движения населения, о чем свидетельствует коэффициент миграционного прироста(), который для объектов второго класса ниже, чем для объектов других классов.

Третий класс схож со вторым только по показателю миграционного прироста населения (), который находится на достаточно низком уровне. По всем остальным показателям объекты третьего класса являются полной противоположностью объектам второго класса: на фоне низкого уровня рождаемости () зафиксирован самый высокий уровень смертности () в среднем по классу. Муниципальные образования данного класса характеризуются наименьшим удельным весом населения в трудоспособном возрасте () и наибольшим удельным весом населения старше трудоспособного возраста ().

С помощью метода «полных связей» получено достаточно неравномерное распределение объектов по классам, так во второй класс вошло 9 объектов, в то время как в первый класс - 22 объекта. Данный недостаток можно устранить методом Уорда.

После задания в поле Amalgamation (linkage) rule Ward′ s method (метод Уорда) и нажатия кнопки (форма окна представлена на рисунке 4.25), будут произведены вычисления, и на экране появится форма Joining Results, содержащая результаты кластерного анализа указанным методом.

Рисунок 4.25 – Методы объединения кластеров

 

Вертикальная дендрограмма объединения классов методом Уорда представлена на рисунке 4.26.

 

Рисунок 4.26 – Дендрограмма объединения классов методом Уорда

 

Методом Уорда при пороговом значении расстояния все города и районы Оренбургской области разбиваются на три класса , состав которых приведен в таблице 4.2.

 

Таблица 4.2 – Результаты классификация муниципальных образований Оренбургской области методом Уорда

Номер кластера Количество объектов в кластере Состав класса
      Города: Оренбург, Бузулук, Орск, Кувандык, Новотроицк, Гай, Бугуруслан, Сорочинск. Районы: Оренбургский, Беляевский, Ташлинский, Переволоцкий, Тюльганский, Сакмарский, Александровский.
      Города: Ясный, Соль-Илецк. Районы: Тоцкий, Соль-Илецкий, Красногвардейский, Первомайский, Домбаровский, Акбулакский, Светлинский, Адамовский.
      Города: Абдулино, Медногорск. Районы: Саракташский, Октябрьский, Илекский, Сорочинский, Новосергиевский, Бузулукский, Ясненский, Кувандыкский, Кваркенский, Гайский, Новоорский, Курманаевский, Бугурусланский, Грачевский, Асекеевский, Шарлыкский, Пономаревский, Северный, Матвеевский, Абдулинский.

 

Средние значения в каждом классе, представленные в приложении Д (таблица Д.4) и на рисунке 4.27, позволяют сделать следующие выводы.

Первый класс муниципальных образований Оренбургской области, преимущественно города и примыкающие к ним районы, характеризуется наибольшим средним значением миграционного прироста населения () и наименьшим средним значением общего коэффициента рождаемости ().

Объекты второго класса, напротив, характеризуется наибольшим средним значением рождаемости (), но достаточно низким средним значением миграционного прироста населения (). Самое низкое среднее значение зафиксировано для таких показателей, как общий коэффициент смертности (), удельный вес населения старше трудоспособного возраста ().

Третий класс объектов характеризуется наибольшим средним значением таких показателей, как общий коэффициент смертности () и удельный вес населения старше трудоспособного возраста (). Что касается среднего значения удельного веса населения в трудоспособном возрасте (), то для городов и районов третьего класса оно значительно ниже, чем для объектов первого и второго класса.

 

Рисунок 4.27 - График средних значений признаков в каждом кластере

 

Кнопка на форме результатов Joining Results предназначена для вывода на экран протокола объединения классов. Протокол объединения классов методом Уорда представлен на рисунке 4.28.

График изменения расстояния между объединенными классами может быть получен нажатием на кнопку . График изменения расстояния при объединении кластеров методом Уорда представлен в приложении Д (рисунок Д.1).

 

Рисунок 4.28 – Протокол объединения кластеров

 

Для просмотра матрицы расстояний необходимо нажать на кнопку . Матрица обычных евклидовых расстояний между объектами представлена на рисунке 4.29.

 

Рисунок 4.29 – Матрица расстояний

 

Кнопка на форме результатов предназначена для вывода на экран описательных статистик для каждого объекта: среднего арифметического и стандартного отклонения.

Кнопка на форме результатов позволяет сохранить матрицу расстояний в файле.

Классификация муниципальных образований методом k-средних

Использование различных методов иерархического агломеративного кластерного анализа приводит к различным результатам классификации. Метод k -средних позволяет получить более устойчивое разбиение, но требует задания некоторых начальных условий (количество образуемых кластеров, порог завершения процесса классификации и т. д.).

Выбор процедуры K-mean clustering, представленной на рисунке 4.16, и нажатие на кнопку позволяют перейти к окну функциональных возможностей метода К-средних, которое содержит следующие параметры:

Cluster – классификация признаков или объектов;

Number of clasters – число кластеров;

Number of iteration – число итераций (установленных по умолчанию 10 итераций, как правило, вполне достаточно для получения устойчивого разбиения).

Радио-кнопки в группе Initial cluster centers задают способ определения начальных эталонов классов.

Вид формы задания параметров классификации методом -средних представлен на рисунке 4.30.

 

Рисунок 4.30 Форма задания параметров классификации методом k -средних

С помощью иерархических агломеративных методов кластерного анализа было выявлено, что 47 муниципальных образований Оренбургской области целесообразно разбить на три класса (наглядной является дендрограмма объединения методом Уорда).

После нажатия кнопки будут произведены вычисления, и на экране появится форма результатовклассификации k-Means Clustering Results, представленная на рисунке 4.31.

 

Рисунок 4.31 Вид окна для вывода результатов классификации методом k -средних

 

В верхней части формы указаны параметры классификации, в нижней части расположены кнопки для вывода различной информации по кластерам.

Кнопка на форме результатов позволяет вывести на экран информацию о количестве объектов в кластерах, состав кластеров, а также евклидово расстояние от объектов до центра соответствующего класса. Результаты представлены на рисунках 4.32-4.34.

 

Рисунок 4.32 – Состав кластера 1

 

Рисунок 4.33 – Состав кластера 2

Рисунок 4.34 – Состав кластера 3

Классификация муниципальных образований на три класса методом k -средних представлена в таблице 4.3.

 

Таблица 4.3 – Результаты классификация муниципальных образований Оренбургской области методом k -средних

Номер кластера Количество объектов в кластере Состав класса
      Города: Абдулино, Бугуруслан, Бузулук, Гай, Кувандык, Новотроицк, Оренбург, Орск, Сорочинск. Районы: Александровский, Беляевский, Илекский, Новоорский, Октябрьский, Оренбургский, Переволоцкий, Сакмарский, Саракташский, Ташлинский, Тюльганский.
      Города: Соль-Илецк, Ясный. Районы: Адамовский, Акбулакский, Домбаровский, Красногвардейский, Первомайский, Светлинский, Соль-Илецкий, Тоцкий, Ясненский.
          Город: Медногорск. Районы: Абдулинский, Асекеевский, Бугурусланский, Бузулукский, Гайский, Грачевский, Кваркенский, Кувандыкский, Курманаевский, Матвеевский, Новосергиевский, Пономаревский, Северны, Сорочинский, Шарлыкский.

При нажатии на кнопку появится окно, содержащее две таблицы. В первой таблице, представленной на рисунке 4.35, указаны средние значения признаков в каждом классе. Во второй таблице, представленной на рисунке 4.36, приведены расстояния между классами. Причем, ниже главной диагонали указаны расстояния между классами, рассчитанные по метрике обычного евклидового расстояния, а выше главной диагонали – расстояния между классами, рассчитанные по метрике квадратичного евклидового расстояния.

 

Рисунок 4.35 Средние значения признаков в классах

 

Рисунок 4.36 Расстояния между классами

 

Как видно из рисунка 4.36 наименьшее расстояние наблюдается между первым и третьим классами (1, 021161).

Кнопка (анализ дисперсий) на форме результатов позволяет вывести на экран информацию о значениях сумм квадратов при расчете межгрупповой дисперсии (Between) и внутригрупповой дисперсии (Within) по каждому признаку, а также соответствующие им степени свободы. Результаты представлены на рисунке 4.37.

 

Рисунок 4.37 – Анализ дисперсий

 

Чтобы получить значения межгрупповых и внутригрупповых дисперсий, необходимо сумму квадратов поделить на соответствующее число степеней свободы. Рассчитанные таким образом межгрупповые и внутригрупповые дисперсии представлены в таблице 4.4.

 

Таблица 4.4 – Значения межгрупповых и внутригрупповых дисперсий

Признаки Межгрупповая дисперсия Внутригрупповая дисперсия
6, 695 0, 741
15, 418 0, 345
8, 731 0, 649
15, 475 0, 342
8, 971 0, 638

 

Таблица, представленная на рисунке 4.37, содержит также наблюденное значение F-критерия, а также значимость нулевой гипотезы о равенстве межгрупповой и внутригрупповой дисперсий. На уровне значимости 0, 05 по всем признакам нулевая гипотеза отвергается. Это означает, что каждый из признаков вносит существенный вклад в разделение объектов на классы.

Кнопка на форме результатов предназначена для вывода графического изображения информации, содержащейся в таблице, представленной на рисунке 4.31. График средних значений признаков в классах представлен на рисунке 4.38.

 

Рисунок 4.38 – График средних значений признаков в каждом кластере

Данный график, благодаря своей наглядности, оказывается полезным при интерпретации результатов классификации, которая приведена ниже.

Кнопка позволяет вывести на экран результаты расчетов описательных статистик для каждого кластера: среднего арифметического, оценку среднего квадратичного отклонения, несмещенную оценку дисперсии по каждому признаку. Результаты расчетов представлены на рисунке 4.39.

 

Рисунок 4.39 – Результаты расчета описательных статистик для каждого кластера

 

Сравнение классификаций

С помощью метода «полных связей», метода Уорда и метода k -средних были получены различные классификации. Сводная таблица результатов классификаций муниципальных образований Оренбургской области, полученных различными методами кластерного анализа, приведена в приложении Д (таблица Д.5)

Для выбора лучшей классификации необходимо воспользоваться функционалами качества разбиения.

Наиболее удобным, с точки зрения реализации на ЭВМ, функционалом качества является сумма квадратов расстояний от каждого объекта до центра кластера: .

Для нахождения функционала качества разбиений, полученных с помощью иерархических агломеративных кластер-процедур необходимо:

1. в таблице с исходными данными оставить только те объекты, которые были отнесены к первому классу;

2. вычислить средние значения для каждого признака и добавить их в качестве последней строки в исходные данные;

3. рассчитать матрицу расстояний между объектами с помощью кнопки ;

4. в последней строке (столбце) матрицы будут стоять расстояния от объектов, относящихся к первому классу, до центра первого класса;

5. с помощью табличного редактора Excel рассчитать сумму квадратов расстояний;

6. проделать шаги 1-5 для каждого кластера;

7. просуммировать полученные значения квадратов расстояний для каждого кластера.

Рассчитаем функционал качества классификации, полученной методом Уорда.

На рисунке 4.40 представлены значения признаков для 15 объектов, отнесенных к первому классу; 10 объектов, отнесенных ко второму классу и 22 объектов, отнесенных к третьему классу. В последней строке введены средние значения каждого признака.

 

Рисунок 4.40 – Объекты, отнесенные к первому, второму, третьему классу соответственно

По имеющимся данным рассчитаны матрицы расстояний, представленные на рисунке 4.41.

 

Рисунок 4.41 – Матрицы расстояний

 

В последней строке (столбце) данных матриц стоят расстояния от объектов до центра соответствующего класса. Результаты расчетов суммы квадратов расстояний представлены на рисунке 4.42.

 

Рисунок 4.42 – Результаты расчетов суммы квадратов расстояний

 

Тогда значение функционала качества для классификации, полученной методом Уорда, рассчитывается следующим образом:

 

.

 

Аналогичным образом можно рассчитать функционал качества для классификации, полученной методом «полных связей»:

 

.

 

Значение функционала качества для классификации, полученной методом k -средних, рассчитывается на основе таблиц, представленных на рисунках 4.32-4.34.

.

 

По выбранному функционалу качества наилучшей является классификация , полученная методом k -средних.

 

Содержательная интерпретация результатов классификации

Для того чтобы дать экономическую интерпретацию наилучшей с точки зрения функционала качества классификации, полученной методом k -средних, воспользуемся рисунком 4.38.

Первый класс муниципальных образований характеризуется более высокими по сравнению с другими кластерами средними значениями таких показателей, как удельный вес населения в трудоспособном возрасте и миграционный прирост . Однако на достаточно низком уровне зафиксированы средние значения общего коэффициента рождаемости , смертности , а также удельного веса населения старше трудоспособного возраста . Прирост населения в муниципальных образованиях первого кластера происходит главным образом за счет механического движения населения, это объясняется тем, что в состав данного класса вошли практически все города Оренбургской области, где сосредоточены предприятия, предоставляющие торговые, культурные, медицинские, образовательные услуги, что весьма привлекательно для мигрантов.

Объекты второго класса с одной стороны характеризуются наибольшим средним значением общего коэффициента рождаемости , с другой стороны наименьшим средним значением общего коэффициента смертности , что, скорее всего, связано с низким удельным весом населения старше трудоспособного возраста . Очевидно, что прирост населения в городе Соль-Илецк, а также в районах, вошедших во второй класс, происходит за счет естественного движения населения. Высокий уровень рождаемости во втором классе объясняется тем, что сельские жители более привержены традициям и ценностям, которых придерживались предыдущие поколения. Заметное воздействие на рождаемость оказывает и национальный состав этих районов. Некоторые народы (например, казахи) сохранили традиции многодетности, и там, где доля этих народов в населении выше, выше и показатели рождаемости.

Третий класс лидирует по значениям таких показателей как общий коэффициент смертности и удельный вес населения старше трудоспособного возраста . Объекты, вошедшие в третий класс, характеризуются старением населения, что и обуславливает существенную естественную убыль населения. Прирост числа жителей в данных районах происходит только за счет незначительного миграционного притока. Переселенцами являются в основном либо сельские жители других регионов области, либо иммигранты из Казахстана и государств Центральной Азии, где уровень жизни в среднем ниже, чем в регионах России. Они, как правило, не обладают достаточными средствами для приобретения жилья и адаптации в городах Оренбургской области, поэтому вынуждены расселяться в сельской местности.

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2025 год. (0.039 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал