Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Завдання і умови






Завдання: Навчитись аналітично розв’язувати задачу кластеризації вибірки об’єктів та побудувати дендрограму розв’язку задачі.

Теоретична частина

Вступ

Кластерний аналіз (англ. Data clustering) — задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, звані кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних істотно суттєвих кластерів відрізнялися. Задача кластеризації відноситься до статистичної обробки. Кластерний аналіз — це багатовимірна статистична процедура, що виконує збір даних, що містять інформацію про вибірку об'єктів, і яка упорядковує об'єкти в порівняно однорідні групи (кластери) (Q-кластеризація, або Q-техніка, власне кластерний аналіз). Кластер — група елементів, що характеризуються загальною спільною властивістю, головна ціль кластерного аналізу — знаходження груп схожих об'єктів у вибірці. Спектр застосувань кластерного аналізу дуже широкий: його використовують в археології, медицині, психології, хімії, біології, державному управлінні, філології, антропології, маркетингу, соціології і інших дисциплінах. Проте універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що утрудняють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.

 

Завдання і умови

Мета кластерного аналізу. Достатньо багато досліджень ставлять за мету організацію отриманих даних у наглядні структури. Так, в біології часто метою є розбиття сукупності тварин на види і підвиди, у психології – класифікація видів поведінки, у педагогіці – таксономія виховних цілей тощо. Допомогти це зробити може кластерний аналіз. Фактично, кластерний аналіз є набором різноманітних алгоритмів класифікації. Техніка кластеризації застосовується в дуже різноманітних сферах діяльності. Так, автори підручника Statsoft наводять приклади застосування кластерного аналізу в медицині – кластеризації піддаються симптоми захворювання чи види лікування, і отримуються достатньо цікаві класифікації. Теж саме стосується психіатрії та психотерапії. Відомі також ряд прикладів застосування кластерного аналізу в сфері маркетингу. Загалом, коли необхідно класифікувати великі масиви інформації на групи, які придатні для подальшого аналізу – кластерний аналіз є незамінним інструментом. Цікаві можливості кластерного аналізу у сфері психологічних досліджень групових процесів та явищ.

Кластерний аналіз має одну суттєву особливість – він не є звичайним статистичним методом, оскільки до нього у більшості випадків незастосовні процеси перевірки статистичної значимості. Кластерний аналіз дає найбільш значиме рішення. Саме тому досить часто його використовують тоді, коли дослідник має набір даних, але не має жодної апріорної гіпотези про класи цих даних.

Кластерний аналіз виконує наступні основні завдання:

· Розробка типології або класифікації.

· Дослідження корисних концептуальних схем групування об'єктів.

· Породження гіпотез на основі дослідження даних.

· Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні в наявних даних.

Незалежно від предмету вивчення застосування кластерного аналізу він передбачає наступні етапи:

· Відбір вибірки для кластеризації.

· Визначення безлічі змінних, по яких оцінюватимуть об'єкти у вибірці.

· Обчислення значень тієї або іншої міри схожості між об'єктами.

· Застосування вживання методу кластерного аналізу для створення груп схожих об'єктів.

· Перевірка достовірності результатів кластерного рішення.

Кластерний аналіз представляє собою наступні вимоги до даним: по-перше, показники не повинні робити кореляцію між собою; по-друге, показники повинні бути безрозмірними; по-третє, їх розподіл повинен бути близьким до нормального; по-четверте, показники повинні відповідати вимозі «стійкості», під якою розуміється відсутність впливу на їх значення випадкових факторів; по-п'яте, вибірка повинна бути однорідна, не містити «залишків». Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує «корегування» — викладені вимоги виконуються автоматично самою процедурою факторного моделювання (є ще одна чеснота, — z-стандартизація без негативних наслідків для вибірки; якщо її проводити безпосередньо для кластерного аналізу, вона може спричинити зменшення чіткості розділення груп). Інакше вибірку потрібно коректувати.

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.005 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал