![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Обработка на компьютере: кластерный анализ объектов
Воспользуемся для обработки на компьютере данными примера 19.1. Исходные данные (Data Editor) представляют собой два столбца (переменные Use и Pref) и 10 строк. 1. Выбираем Analyze > Classify (Классификация) > Hierarchical Cluster... (Иерархический кластерный). 2. В открывшемся окне диалога переносим из левого в правое верхнее окно (Variables) переменные, необходимые для анализа (Pref, Use). Убеждаемся, что в поле Cluster точка установлена на Cases (Объекты), а не на Variables (Переменные) — эта установка задает то, что будет подлежать классификации: объекты или переменные. Убеждаемся, что в поле Display (Выводить) флажки установлены на Statistics (Статистики), Plots (Графики). 3. Нажимаем клавишу Statistics... (Статистики...) и убеждаемся, что установлен флажок на Agglomeration schedule (Последовательность агломерации). При необходимости можно было бы отметить и Proximity matrix (Матрица расстояний) для ее вывода, но мы этого не делаем. Нажимаем Continue (Продолжить). 4. Нажимаем клавишу Plots... (Графики...). Отмечаем флажком Dendrogram (Дендрограмма). Здесь же можно выбрать ориентацию дендрограммы: вертикальную (Vertical) или горизонтальную (Horizontal), оставляем установленную по умолчанию вертикальную ориентацию. Нажимаем Continue. 5. Нажимаем Method... (Метод...), и открывается окно главных установок кластерного анализа. В этом окне четыре поля установок метода кластеризации: Cluster Method (Метод кластеризации), Measure (Меры различия), Transform Values (Преобразование значений признаков), Transform Measures (Преобразование мер различия). В поле Cluster Method (Метод кластеризации) оставляем принятый по умолчанию Between-groups linkage (Метод средней связи). В поле Measure (Меры различия) выбираем Interval data: Euclidean distance (Интервальные данные: Евклидово расстояние). Остальные установки оставляем принятыми по умолчанию. Нажимаем Continue. Нажимаем ОК. и получаем результаты. 6. Основные результаты кластерного анализа. А) Таблица последовательности агломерации: Agglomeration Schedule
В) Дендрограмма: Помимо дендрограммы, очень важна информация, содержащаяся в таблице последовательности агломерации. В этой таблице вторая колонка Cluster Combined (Объединенные кластеры) содержит первый (Cluster 1) и второй (Cluster 2) столбцы, которые соответствуют номерам кластеров, объединяемых на данном шаге. После объединения кластеру присваивается номер, соответствующий номеру в колонке Cluster 1. Так, на первом шаге объединяются объекты 3 и 9, кластеру присваивается номер 3, далее этот кластер на шаге 3 объединяется с элементом 2, новому кластеру присваивается номер 2 и т. д. Следующая колонка Coefficients (Коэффициент) содержит значение расстояния между кластерами, которые объединяются на данном шаге. Колонка Stage Cluster First Appears (Предыдущий шаг, на котором появлялся кластер) показывает, на каком шаге до этого появлялся первый и второй из объединяемых кластеров. Последняя колонка Next Stage (Следующий шаг) показывает, на каком шаге снова появится кластер, образованный на этом шаге. Попытаемся оценить оптимальное число классов по таблице последовательности агломерации. Видно, что первый резкий скачок расстояния между кластерами наблюдается при переходе от 6 к 7 шагу. Следовательно, наиболее оптимальное количество кластеров — то, которое получено на б или 7 шаге. Это количество равно численности объектов минус номер шага, то есть 10 - б (7) = 4 (3) - 4 или 3 кластера. Выбор того или иного решения будет зависеть уже от содержательных соображений. Так, в данном случае, если обратиться к рис. 19.1, то целесообразно выделять 4 кластера, то есть отделять кластеры (4, 6) — умеренные оценки и (5, 7) — высокие оценки увлекательности и полезности занятия.
|