![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Иерархические методы кластерного анализа
Агломеративные кластер-процедуры Основной принцип работы иерархических агломеративных кластер-процедур состоит в последовательном объединении групп объектов сначала самых близких, а затем все более отдаленных друг от друга. На первом шаге алгоритма каждый объект рассматривается как отдельный класс. В дальнейшем на каждом шаге происходит объединение двух самых близких классов и, с учетом принятого принципа измерения расстояния между классами, пересчет матрицы расстояний, размер которой снижается каждый раз на единицу. Работа алгоритма заканчивается, когда все объекты будут объединены в один класс. Алгоритм иерархической классификации предусматривает геометрическое представление в виде дендрограммы (рисунок 4.1).
Рисунок 4.1 – Примеры горизонтальной и вертикальной дендрограмм объединения классов
Если ставится задача разбиения объектов на несколько групп, то при реализации агломеративных кластер-процедур устанавливается пороговое значение расстояния К агломеративным методам кластерного анализа относят: 1. метод одиночной связи; 2. метод полной связи; 3. метод средней связи; 4. метод Уорда. По методу одиночной связи на основе матрицы расстояния определяются два ближайших объекта, они объединяются в один класс. На следующем шаге выбирается объект, который будет присоединен к этому классу. Таким объектом будет тот, который имеет наибольшее сходство хотя бы с одним из объектов, уже включенных в класс. При совпадении расстояния для нескольких объектов будет идти образование нескольких классов. Достоинством данного метода является простота его реализации и нечувствительность алгоритма к преобразованию признаков. Основным недостатком метода является невозможность определения на основе дендрограммы наиболее подходящего числа классов, на которые следует разбить рассматриваемую совокупность объектов. В методе полной связи, по-прежнему, происходит объединение двух самых близких объектов в кластеры, однако, для расчета расстояния между классами используется принцип «дальнего соседа». По методу средней связи происходит объединение схожих объектов в кластеры, при этом расстояние между объектом и классом вычисляется по принципу «средней связи», а расстояние между двумя классами – по «центрам тяжести» групп. Метод Уорда предполагает, что на первом шаге каждый кластер состоит из одного объекта. Далее два ближайших друг к другу объекта объединяются в один класс. Для этого класса определяются средние значения признаков и рассчитывается сумма квадратов отклонений
где
В дальнейшем на каждом шаге работы алгоритма объединяются те объекты или кластеры, которые дают наименьшее приращение величины Иерархические кластер-процедуры по сравнению с другими кластер-процедурами дают более полный и тонкий анализ структуры исследуемого множества объектов. Привлекательной стороной подобных алгоритмов является возможность наглядной интерпретации проведенного анализа. К недостаткам алгоритмов следует отнести громоздкость их вычислительной реализации, т.к. на каждом шаге требуется вычисление всей матрицы расстояний. Поэтому реализация таких алгоритмов при большом числе объектов ( Пример 4.1 Потребительское поведение пяти семей характеризуется расходами в летние месяцы на питание (
Требуется с помощью иерархического агломеративного алгоритма провести классификацию семей и построить дендрограмму.
Рисунок 4.2 – Расположение исходных данных в двумерном признаковом пространстве
Из геометрических соображений можно предположить существование двух классов: первый класс состоит из объектов Проведем классификацию, выбрав в качестве метрики расчета расстояния между объектами обычное евклидово расстоянии, а в качестве метрики расчета расстояния между классами принцип «ближайшего соседа». Согласно обычной евклидовой метрике расстояние между объектами
Изначально каждый объект рассматривается как отдельный класс, т.е. На первом шаге объекты
Проведя аналогичные расчёты для других классов объектов, получим матрицу межклассовых расстояний вида:
На втором шаге объекты
На третьем шаге на расстоянии 4, 12 к кластеру с объектами
На четвертом шаге на расстоянии 5, 83 все объекты объединяются в один кластер Представим результаты классификации в виде вертикальной дендрогаммы (рисунок 4.3):
Рисунок 4.3 – Дендрограмма объединения объектов
По виду дендрограммы пороговое значение расстояния целесообразно выбрать в интервале Рассчитав средние значения признаков в кластерах, получим:
Таким образом, можно сделать вывод, что объекты второго класса состоят из более обеспеченных семей, средние расходы которых и на питание, и на отдых превышают средние расходы семей первого кластера.
Дивизимные кластер-процедуры Основной принцип работы иерархических дивизимных процедур состоит в последовательном разделении групп объектов сначала самых далеких, а затем все более приближенных друг к другу. Первоначально считается, что все Общая схема работы агломеративных и дивизимных кластер-процедур приведена на рисунке 4.4:
Рисунок 4.4 – Процесс последовательного объединения (разделения) классов иерархическими методами кластерного анализа
Пример 4.2 По данным примера 4.1 требуется с помощью иерархического дивизимного алгоритма провести классификацию семей. Возьмем за основу, рассчитанную с помощью обычной евклидовой метрики, матрицу расстояний между объектами:
Согласно дивизимному алгоритму, изначально все объекты относятся к одному кластеру На первом шаге происходит разделение наиболее удаленных друг от друга объектов 1. 2. 3. Таким образом, имеет два класса со следующим составом: На втором шаге выделим из образовавшихся классов два, наиболее удаленных друг от друга, объекта На третьем шаге, на расстоянии 3, 61 следует разделить объекты На четвертом шаге, на расстоянии 2, 24 разделяем последнюю пару объектов Таким образом, все объекты были разделены, и каждый из них образует отдельный кластер6 Представим результаты дивизимного алгоритма классификации графически (рисунок 4.5).
Рисунок 4.5 – Результаты последовательного разделениря объектов с помощью иерархических дивизимных кластер-процедур На основе графического представления результатов классификации можно сделать вывод, что пять семей целесообразно разбить на два кластера: Рассчитав средние значения признаков в кластерах, получим:
Таким образом, можно сделать вывод, что объекты двух кластеров имеют примерно одинаковые средние значения расходов на питание, однако объекты второго класса представлены более обеспеченными семьями, средние расходы которых на отдых существенно превышают аналогичные расходы семей первого кластера.
|