Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Общая идея метода
Предположим, что множество выборки разбито на классы, так что получено m классов выборок Q1, …, Qm, выборки X1, …, Xm для каждого класса получены независимо и в соответствии с вероятностью P(X/Qi). Предполагается, что плотность P(X/Qi) задана в известной параметрической форме, и, следовательно, однозначно определяется вектором параметров . Можно получить, например, распределение P(X/Qi)~N(mi, å I), в котором компоненты ai составлены из компонент mi и Ki. Тогда P(X/Qi) запишем как P(X/Qi, ai). Задача состоит в использовании информации, получаемой из выборки, для удовлетворительной оценки векторов параметров {ai}. Для облегчения задачи предположим, что выборки, принадлежащие Xj, не содержат информации об ai, i¹ j, т.е. предполагается функциональная независимость параметров, принадлежащих разным классам {Qi}. В результате получается i отдельных задач, формулируемых следующим образом: на основании множества {X} независимо полученных выборок в соответствии с вероятностным законом P(X/a) оценить неизвестный параметрический вектор . Предположим, что Х содержит n выборок: X = {x1, …, xn}, т.к. выборки получены независимо, имеем: где P(X/a) – правдоподобие величины а относительно данного множества выборок. Определение: Оценка по максимуму правдоподобия величины а есть такая , при которой P(X/a) максимальна. Интуитивно это означает, что в некотором смысле такое значение величины а наилучшим образом соответствует реально наблюдаемым выборкам. Для анализа удобнее использовать логарифм правдоподобия как монотонно возрастающую функцию, т.е. максимуму логарифма и максимуму правдоподобия соответствует одна и та же величина . Если P(X/a) есть гладкая дифференцируемая функция а, то определяется посредством обычных методов дифференциального исчисления. Пусть есть р – компонентный вектор = (а1, …, ар)Т, пусть Ñ а – оператор градиента. Т.е. Ñ а = , и пусть (а) – функция логарифма правдоподобия. , т.е. и Совокупность условий, необходимых для определения оценки по максимуму правдоподобия величины а, может быть получена, т.о. из решения системы р уравнений Ñ аL=0: Ñ аL=0 для одного а Случай многомерного N(m, s) при неизвестном m: При том: 1) 2) где к - ковариационная матрица. Если отождествлять m и “a”, то оценка по максимуму правдоподобия для m должна удовлетворять уравнению: После умножения на к и преобразования получим: Этот результат весьма убедителен. Он свидетельствует о том, что оценки по максимуму правдоподобия при неизвестном среднем по совокупности в точности рана среднему арифметическому выборок – выборочному среднему. Если представить “И” выборок, то выборочное среднее будет центром этого облака. Таким образом, и в случае обучения по методу максимума правдоподобия неизвестное среднее (математическое ожидание) находится как выборочное среднее – максимально правдоподобное решение. Случай многомерного N(m, s), когда неизвестны ни m, ни s. Эти неизвестные параметры образуют компоненты параметрического вектора . Рассмотрим одномерный случай, приняв a1=m и a2=s2. Тогда имеем: Тогда получим: и где и - оценки по максимуму правдоподобия соответствуют а1 и а2. После подстановки получим: Для многомерного случая соответственно имеем: Следствие: Таким образом, оценка по максимальному правдоподобию для среднего значения вектора – то выборочное среднее. А оценка по максимальному правдоподобию для ковариационной матрицы – это среднее арифметическое n матриц т.к. подлинная ковариационная матрица и есть ожидаемое значение матрицы (x-m)(x-m)T, то полученный результат также весьма естественен.
б) метод Байесовской классификации. Несмотря на то, что результаты по Байесу и методу максимального правдоподобия оказываются весьма близкими, подход к решению по критерию Байеса различен (сильно отличаются). Здесь параметры рассматриваются как случайные переменные с некоторым априорно заданным распределением. Исходя из результатов распределения выборок, это распределение преобразуют в апостериорную плотность, используемую для уточнения имеющегося представления об истинных значениях параметров. В байесовском случае характерным следствием привлечения добавочных выборок является заострение формы функции апостериорной плотности, подъем ее вблизи истинных значений параметров. Это явление принято называть байесовским обучением. Определение: Сущность байесовской классификации заложена в расчете апостериорных вероятностей P(Qi/X). Байесовское правило позволяет вычислить эти вероятности по априорным вероятностям P(Qi) и условным по классу распределениям P(X/Qi). Однако, как быть, если эти величины неизвестны? Общий ответ: Лучшее, что можно сделать – то вычислить P(Qi/X), используя всю информацию, имеющеюся в распоряжении. Часть информации – априорная, часть информации – в выборках. Пусть имеется множество выборок {X}, тогда вычисляются апостериорные вероятности P(Qi/x, X). По этим вероятностям мы можем построить байесовский классификатор. Согласно байесовскому правилу: Это выражение означает, что мы можем использовать информацию, получаемую из выборок, для определения как условных по классу распределений, так и априорных вероятностей. Впредь полагаем, что истинные значения априорных вероятностей известны, так что P(Qi/X) = P(Qi). Кроме того, т.к. в данном случае мы имеем дело с наблюдаемыми значениями, то можно разделить выборки по классам в подмножеств x1, …, xm, причем выборки из Xi принадлежат Qi. Выборки из Xi не оказывают влияния на P(X/Qi, X), если i¹ j. Отсюда вытекают два следствия: 1) можно иметь дело с каждым классом в отдельности, используя для определения P(x/Qi, X) только выборки из Xi. Вместе с тем, что априорные вероятности известны, то следствие позволяет записать:
2) так как каждый класс может рассматриваться независимо, можно отказаться от ненужных различий классов. По существу, здесь имеется m отдельных задач вида: требуется определить P(x/X), используя множество Х выборок, взятых независимо в соответствии с фиксированным, но неизвестным Р(Х). Это и составляет главную задачу байесовского обучения. Предпосылка 1: Р(Х) неизвестно, но имеет известный параметрический вид. Выразим это утверждением что функция Р(Х/а) полностью известна. Предпосылка 2: При байесовском подходе предполагается, что всю информацию до наблюдения выборок дает известная априорная плотность Р(а). Наблюдение выборок превращает ее в апостериорную плотность Р(а/х), которая, как можно предположить, имеет крутой подъем вблизи истинного “a”.
Обучение без учителя (самообучение)
До сих пор мы предполагали, что обучающие выборки, используемые для распознавания, были помечены, чтобы показать, к какой категории они принадлежат. Это – обучение с учителем. Пусть имеется набор непомеченных выборок. Имеются три основных причины необходимости самообучения (работы с непомеченными выборками). 1) сбор и мечение большого количества выборочных образов требует много средств и времени; 2) во многих практических задачах характеристики образов медленно меняются во времени; 3) на ранних этапах исследования иногда бывает интересно получить сведения о внутренней природе или структуре данных. Первое предположение: пусть функциональный вид плотностей распределения известен, и, единственное, что надо узнать, то значение вектора неизвестных параметров. Формальное решение этой задачи оказывается почти идентичным задаче с учителем. Задача формулируется следующим образом: 1. Выборки производятся из известного числа m классов; 2. Априорные вероятности P(Qi) для каждого класса известны, i=1, 2, …, m. 3. Вид условных по классам плотностей P(x/Qi, a) известен, i=1, …, m. 4. Единственное неизвестное – это значения m параметрических векторов a1, …, am. Предполагается, что выборки получены выделением состояния природы Qi с вероятностью P(Qi) и последующим выделением Х в соответствии с вероятностным законом P(x/Qi, a). Таким образом, функция плотности распределения выборок определяется как: Р(Х/а) – плотность смеси. Условные плотности P(X/Qi, ai) называются плотностями компонент, а априорные вероятности P(Qi) – параметрами смеси. Если мы знаем а, то можем разложить смесь на компоненты и задача решена. Однако, если несколько различных значений а могут дать одни и те же значения для Р(Х/а), то нет надежды получить единственное решение. Эти рассмотрения приводят нам к следующему определению: Определение: Плотность Р(Х/а) считается идентифицируемой, если а¹ а/ следует, что существует х такой, что Р(х/а)¹ Р(х/а/). Таким образом, самообучение значительно упрощается, если мы ограничиваемся идентифицируемыми смесями. Для нормальной плотности: Идентификация смеси имеет место, если P(Q1)¹ P(Q2).
|