![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Оценка информативности признаков
Оценка информативности признаков необходима для их отбора при решении задач распознавания. Сама процедура отбора практически не зависит от способа измерения информативности. Важно лишь, чтобы этот способ был одинаков для всех признаков (групп признаков), входящих в исходное их множество и участвующих в процедуре отбора. Поскольку процедуры отбора были рассмотрены в разделе, посвящённом детерминистским методам распознавания, здесь мы на них останавливаться не будем, а обсудим только статистические методы оценки информативности. При решении задач распознавания решающим критерием является риск потерь и как частный случай – вероятность ошибок распознавания. Для использования этого критерия необходимо для каждого признака (группы признаков) провести обучение и контроль, что является достаточно громоздким процессом, особенно при больших объёмах выборок. Именно это и характерно для статистических методов. Хорошо, если обучение состоит в построении распределений значений признаков для каждого образа Если имеются обучающая и контрольная выборки, то первая из них используется для построения Можно пойти другим путём, а именно: всю выборку использовать для обучения (построения В связи с этим представляют интерес другие меры информативности признаков, вычисляемые с меньшими затратами вычислительных ресурсов, чем оценка вероятности ошибок распознавания. Такие меры могут быть не связаны взаимооднозначно с вероятностями ошибок, но для выбора наиболее информативной подсистемы признаков это не столь существенно, так как в данном случае важно не абсолютное значение риска потерь, а сравнительная ценность различных признаков (групп признаков). Смысл критериев классификационной информативности, как и при детерминистском подходе, состоит в количественной мере " разнесённости" распределений значений признаков различных образов. В частности, в математической статистике используются оценки верхней ошибки классификации Чернова (для двух классов), связанные с ней расстояния Бхатачария, Махаланобиса. Для иллюстрации приведём выражение расстояния Махаланобиса для двух нормальных распределений, отличающихся только векторами средних где
-1 – обращение матрицы. В одномерном случае Несколько подробнее рассмотрим информационную меру Кульбака применительно к непрерывной шкале значений признаков. Определим следующим образом среднюю информацию в пространстве При этом предполагается, что нет областей, где Аналогично Назовём расхождением величину Чем расхождение больше, тем выше классификационная информативность признаков. Очевидно, что при Легко убедиться, что если признаки (признаковые пространства) В качестве примера вычислим расхождение двух нормальных одномерных распределений с одинаковыми дисперсиями и различными средними: Оказывается, что в этом конкретном случае расхождение равно расстоянию Махаланобиса Промежуточные выкладки предлагается сделать самостоятельно.
|