![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Функционалы качества разбиения. Критерии определения оптимального числа классов
При использовании различных методов кластерного анализа для одной и той же совокупности могут быть получены различные варианты разбиения. Существенное влияние на характеристики кластерной структуры оказывают, во-первых, набор признаков, по которым осуществляется классификация, во-вторых, тип выбранного алгоритма. Например, иерархические и итеративные методы приводят к образованию различного числа кластеров. При этом сами кластеры различаются и по составу, и по степени близости объектов. Выбор метрики расчета расстояния также влияет на результат разбиения. Возникает задача выбора «лучшего» разбиения. С этой целью вводится понятие так называемого функционала качества разбиения Под наилучшим разбиением 1. Сумма внутриклассовых дисперсий:
где
2. Сумма попарных внутриклассовых расстояний между объектами:
3. Обобщенная внутриклассовая дисперсия:
где При использовании методов кластерного анализа возникает задача определения оптимального количества классов. Частично это позволяет сделать уже визуальный анализ дендрограммы: например, довольно большой разрыв между уровнями, соответствующими разбиению на Индекс Калински и Харабаза сравнивает степень «разброса» данных внутри кластеров и между кластерами и рассчитывается как скорректированное на количество классов p и объем выборки n отношение следа матрицы межгруппового рассеяния В к следу матрицы внутригруппового рассеяния W:
То значение Для расчета
где
Чем больше значение данного индекса, тем лучше разделены классы. Для содержательной интерпретации результатов наилучшей, с точки зрения функционала качества, классификации определяются средние значения показателей в каждом кластере. График средних значений, благодаря своей наглядности, позволяет охарактеризовать каждый класс и провести сравнительный анализ классов. Желательно, чтобы в результате сравнительного анализа каждому классу было дано название. 4.2 Дискриминантный анализ
Дискриминантный анализ, в отличие от кластерного анализа, предназначен для решения задачи «классификации с обучением», состоящей в отнесении каждого из заданного множества объектов к одному из заранее известных классов. Решение этой задачи требует наличия помимо статистической информации об объектах классификации обучающих выборок, т.е. объектов, для которых априори известно, к какому классу они принадлежат. При этом под классом в дискриминантном анализе понимается генеральная совокупность, описываемая одномодальной плотностью распределения (или одномодальным полигоном распределения вероятностей в дискретном случае). Итак, ставится задача отнести каждый из n объектов, подлежащих классификации, к одному из p классов. Исходная информация для решения задачи состоит из двух частей: 1) матрица типа «объект-свойство», содержащая информацию о значениях признаков
где 2) обучающие выборки
Основной принцип вероятностных методов классификации заключается в следующем: объект следует отнести к тому классу (т.е. к той генеральной совокупности), в рамках которого он выглядит более правдоподобным. Иллюстрация этого принципа для случая Правило классификации для проиллюстрированного случая можно сформулировать следующим образом: если
т.к.
Рисунок 4.6 – Графическая интерпретация принципа классификации в дискриминантном анализе Для того чтобы рассмотренный принцип классификации практически реализовать, необходимо располагать полным описанием классов, т.е. знать закон распределения генеральных совокупностей, например, в форме плотности распределения вероятностей Сформулированный принцип классификации может корректироваться с учетом удельных весов классов и потерь от неправильной классификации объектов [12]. Очевидно, что методы классификации желательно строить так, чтобы минимизировать потери от неправильной классификации объектов. Обозначим через
Для того чтобы потери не зависели от числа n классифицируемых объектов (а величина
Предел в выражении (4.2) следует понимать в смысле сходимости по вероятности величины Величина Часто полагают, что потери
Действительно, получили, что средние удельные потери C будут минимальны при максимальной вероятности правильной классификации Перейдем к построению процедуры классификации, т.е. решающего правила отнесения объекта, характеризующегося многомерным вектором признаков Теорема. Процедура классификации
Доказательство. Для любых классов
Так как
где Таким образом, функционал С представляет сумму
Таким образом, объект следует отнести к классу j, когда средние удельные потери от его отнесения именно в этот класс окажутся минимальными по сравнению с аналогичными потерями, связанными с отнесением этого объекта в любой другой класс. Часто полагают, что величина потери зависит только от того, к какому классу относится объект, а не от того, к какому классу он был ошибочно отнесен:
Следовательно,
Тогда аналогично доказательству теоремы получаем, что правило отнесения объекта к j -му классу формулируется следующим образом:
В случае равных потерь
т.е. максимизируется «взвешенная правдоподобность» объекта, характеризующегося вектором признаков На практике важно не только классифицировать объект, но и вычислить с какой вероятностью он принадлежит каждому из классов, ведь одно дело, когда объект с высокой вероятностью относится к одному из классов, и совсем другое – когда объект находится на границе классов. Для этого рассчитывают апостериорные вероятности Так как под i -ым классом понимается генеральная совокупность с одномодальной плотностью распределения вероятностей Выведем плотность распределения смеси для случая Тогда согласно формуле полной вероятности получаем:
Этот результат можно записать иначе:
при
Сократив левую и правую части полученного равенства на
Тогда, в общем случае, можно записать, что плотность распределения смеси p классов имеет вид: Апостериорные вероятности Оптимальный алгоритм классификации можно записать через апостериорные вероятности: объект относится к классу j, если Для того, чтобы его реализовать правило классификации (4.4), необходимо знать априорные вероятности Если данные, составленные из всех обучающих выборок, можно считать случайной выборкой объемом Задача оценки законов распределения классов 1) параметрический дискриминантный анализ: вид функций 2) непараметрический дискриминантный анализ: вид функций Рассмотрим параметрический дискриминантный анализ в случае нормального закона распределения классов. Пусть i -ый класс ( Перепишем правило классификации (4.4) следующим образом: объект относится к классу j, если
Прологарифмируем левую и правую часть выражения (4.5):
В случае нормального закона распределения классов плотность распределения
Подставим (4.7) в выражение (4.6) и проведем следующие преобразования:
Таким образом, правило классификации (4.4) в случае нормального закона распределения классов с равными ковариационными матрицами формулируется следующим образом: объект
Для реализации правила классификации (4.8) необходимо знать параметры распределения классов
где Тогда правило классификации (4.8) в выборочном случае формулируется следующим образом: объект
Правило классификации (4.9) можно преобразовать к виду:
Таким образом, каждому i -му классу ставится в соответствие линейная дискриминантная функция Фишера вида:
где
Тогда объект Рассмотрим геометрическую интерпретацию дискриминантного анализа в случае нормального закона распределения классов. Пусть
Геометрическая интерпретация правила (4.10) представлена на рисунке 4.7.
Рисунок 4.7 – Геометрическая интерпретация дискриминантного анализа в двумерном случае
Знак в левой части неравенства (4.10) зависит от угла
где Найдем величину С, называемую константой дискриминации:
Таким образом, константа дискриминации С рассчитывается по формуле:
Используя полученные результаты, правило классификации (4.10) принимает вид: объект
Снимая ограничения на число признаков, удельные веса классов и ковариационную матрицу, объект
Дискриминантная функция в k -мерном случае имеет вид: Замечания: 1. дискриминантная функция является линейной в случае нормального закона распределения классов, в общем случае она может быть и нелинейной. Это зависит от геометрического расположения разделяемых классов в пространстве дискриминантных переменных; 2. если заранее не известно, что
Пример решения задачи на тему «Параметрический дискриминантный анализ»
Деятельность предприятий машиностроительной отрасли характеризуется двумя показателями:
По двум обучающим выборкам объемами 60 и 40 из генеральных совокупностей, распределенных по нормальному закону с равными ковариационными матрицами, рассчитаны оценки векторов математических ожиданий и ковариационных матриц:
Предприятия первого класса характеризуются высоким уровнем организации управления производством, предприятия второго класса – низким уровнем организации управления производством. К какому классу относится предприятие, рентабельность которого составляет 14%, а производительность труда – 6, 5 тыс. руб. на одного человека, если потери от неправильной классификации объекта первого класса во второй и наоборот равны.
|