Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Построение главных компонент
Найдем дисперсию первой главной компоненты , где – вектор коэффициентов линейного преобразования исходных признаков для построения первой главной компоненты:
где – ковариационная матрица исходных признаков . Согласно определению первой главной компоненты, для её построения необходимо максимизировать дисперсию: . Поскольку определяется неоднозначно, на вектор накладывается требование нормированности: . Таким образом, для построения первой главной компоненты необходимо решить оптимизационную задачу вида:
(5.2)
Для решения задачи условной оптимизации (5.2) воспользуемся методом множителей Лагранжа. Составим функцию Лагранжа:
Воспользуемся необходимым условием существования экстремума функции, получим:
Так как второе выражение является тождеством согласно постановке задачи, то имеем следующую систему уравнений:
. (5.3)
Система (5.3) – это однородная система k -линейных уравнений с k неизвестными и одним параметром . Для того, чтобы существовало ненулевое решение системы (5.3), матрица должна быть вырожденной:
. (5.4)
Уравнение (5.4) называется характеристическим для матрицы . Известно, что при симметричности и неотрицательной определенности матрицы (каковой она и является, как всякая ковариационная матрица) это уравнение имеет k вещественных неотрицательных корней , называемых собственными значениями матрицы . Пусть . Для выяснения, какое из решений уравнения (5.4) необходимо выбрать, проведем с системой (5.3) следующие преобразования:
; ; ( слева) ; .
Таким образом, для построения первой главной компоненты необходимо выбрать наибольшее собственное число (т.к. это и есть дисперсия первой главной компоненты). Далее подставляется в систему (5.3) и система решается относительно вектора . Решением системы (5.3) является собственный вектор матрицы , соответствующий наибольшему собственному числу . Обозначим решение системы (5.3) через . Для того, чтобы было выполнено требование , проводят нормировку вектора . Тогда искомый вектор определяется следующим образом: . Известно, что собственные векторы, соответствующие разным собственным числам, ортогональны. Тогда для построения второй главной компоненты должен быть выбран второй по величине характеристический корень матрицы , т.е. , и найден соответствующий этому корню собственный вектор . Построение главных компонент продолжается до тех пор, пока не будет обеспечен требуемый уровень информативности (5.1), который, как правило, составляет не менее 0, 7. Найденные векторы составляют матрицу коэффициентов линейного преобразования исходных признаков U размерности . Всего можно построить k главных компонент. В этом случае матрица U является ортогональной, т.е. . Рассмотрим случай, когда корень характеристического уравнения (5.4) имеет кратность порядка r. Пусть . Тогда . В этом случае в системе уравнений , , k - r неизвестных компонент вектора считают базисными переменными (базисный минор отличен от нуля), а r неизвестных переносят в правую часть и считают параметрическими (они не попали в базисный минор). Далее каждому набору параметрических переменных , , …, , присваиваются значения 1 или 0: , где . Замечание: если исходные признаки измеряются в различных единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных ситуациях рекомендуется переходить к безразмерным признакам, т.е. помимо центрирования, проводить еще нормирование. Вследствие предположения о центрированности и нормированности исходных признаков в процессе построения главных компонент будут определяться собственные числа и собственные векторы не ковариационной матрицы , а корреляционной матрицы .
|