Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Міри подібності






Для обчислення відстані між об'єктами використовуються різні міри подібності, які називаються також метриками або функціями відстаней.

Зупинимося докладніше на найбільш популярних процедурах прямої класифікації – ієрархічних агломеративних і деяких інших алгоритмах кластерного аналізу.

Відстані між об'єктами припускають їх представлення у вигляді точок m- мірного простору Rm. У цьому випадку можуть бути використані різні підходи до обчислення відстаней приналежних простору вхідних змінних.

Евклідова відстань. Це, мабуть, найбільш загальний тип відстані. Вона є геометричним відстанню в багатовимірному просторі і обчислюється таким чином:

Відстань (x, y) = { ∑ i (xi - yi) 2}1/2

Зауважимо, що евклідова відстань (і її квадрат) обчислюється за вихідними, а не за стандартизованими даними. Це звичайний спосіб його обчислення, який має певні переваги (наприклад, відстань між двома об'єктами не змінюється при введенні в аналіз нового об'єкта, який може виявитися викидом). Тим не менш, на відстані можуть сильно впливати відмінності між осями, по координатах яких обчислюються ці відстані. Наприклад, якщо одна з осей виміряна в сантиметрах, а ви потім переведете її в міліметри (множачи значення на 10), то остаточне евклідова відстань (або квадрат евклідового відстані), що обчислюється за координатами, сильно зміниться, і, як наслідок, результати кластерного аналізу можуть сильно відрізнятися від попередніх.

Квадрат евклідового відстані. Іноді може виникнути бажання звести в квадрат евклідову відстань, щоб надати більші ваги більш віддаленим один від одного об'єктам. Це відстань обчислюється наступним чином (див. також зауваження в попередньому пункті):

Відстань (x, y) = ∑ i (xi - yi) 2

Відстань міських кварталів (Манхеттенський відстань). Це відстань є середнім різниць по координатах. У більшості випадків ця міра відстані приводить до таких же результатів, як і для звичайного відстані Евкліда. Проте відзначимо, що для цього заходу вплив окремих великих різниць (викидів) зменшується (так як вони не зводяться в квадрат). Манхеттенська відстань обчислюється за формулою:

Відстань (x, y) = ∑ i | xi - yi |

Відстань Чебишева. Ця відстань може виявитися корисною, коли бажають визначити два об'єкти як " різні", якщо вони відрізняються по якій-небудь одній координаті (якимсь одним виміром). Відстань Чебишева обчислюється за формулою:

Відстань (x, y) = Максимум | xi – yi |

Відсоток незгоди. Ця міра використовується в тих випадках, коли дані є категоріальними. Це відстань обчислюється за формулою:

Відстань (x, y) = (Кількість xi≠ yi) / i

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.006 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал