![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Неметрическое шкалирование
В метрическом шкалировании предполагалось, что имеющиеся различия Р.Шепард, а затем Дж. Краскал, предложили метод оценки координат объектов при менее жестких предположениях, чем у Торгерсона [26]. В отличие от модели Торгерсона, требующей выполнение условия (5.26), алгоритм Шепарда основан на следующем предположении:
где
Примерами таких функций могут служить линейная, степенная, показательная, логарифмическая функции. В алгоритме Краскала используется более общее предположение о том, что данные монотонно связаны с расстояниями в любом пространстве Минковского: Если у исследователя нет серьезных теоретических оснований предпочесть неевклидову модель или если неизвестна размерность признакового пространства (как это обычно бывает), то по вычислительным соображениям применяют евклидову модель [26]. Определение Любой алгоритм оценки координат объектов, основанный на предположении, что различия между объектами связаны с расстояниями в пространстве неизвестной монотонной функцией, удовлетворяющей условию (5.35), называется алгоритмом неметрического многомерного шкалирования [26]. Постановка задачи неметрического многомерного шкалирования состоит в нахождении в пространстве выбранной размерности оценок координат объектов Важнейшим этапом неметрического многомерного шкалирования является выбор меры соответствия, которая позволит количественно оценить, насколько оценки координат объектов
Рассмотрим три основных меры соответствия: «стресс», «S-стресс» и «коэффициент отчуждения». Краскал предложил две стресс-формулы («стресс, формула 1» и «стресс, формула 2»):
где Формулы (5.37) и (5.38) различаются только нормализующей константой в знаменателе дроби под знаком квадратного корня. Ф. Юнг предложил две формулы типа «S-стресс»:
где С вычислительной точки зрения удобнее использовать функцию Л. Гуттман предложил третью меру – коэффициент отчуждения:
где
Коэффициент монотонности Для анализа качества модели в многомерном шкалировании используют два типа графиков разброса [26, 16]. 1. Диаграмма образов Гуттмана: по одной оси откладываются оценки расстояний 2. Диаграммы Шепарда – это графики зависимости оценок отклонений Алгоритм неметрического многомерного шкалирования состоит из четырех основных этапов: 1. поиск стартовой конфигурации; 2. стандартизация расстояний и оценок координат; 3. оценка отклонений (неметрический этап); 4. оценка координат объектов (метрический этап). На первом этапе ищется матрица Второй, третий и четвертый этапы образуют итерационный процесс, который продолжается до тех пор, пока изменение меры соответствия от одной итерации к другой не станет меньше какого-либо небольшого числа, например, 0, 001. Вначале каждой итерации осуществляется стандартизация текущих расстояний (
На неметрическом этапе на основе матрицы различий Рассмотрим алгоритм построения монотонной регрессии, предложенный Краскалом. Неметрический этап состоит из ряда шагов, на которых каждое отклонение Оценки расстояний на ( После упорядочения данных о различии по возрастанию алгоритм начинает серию проходов по данным. В начале первого из проходов на конкретной итерации отклонениями являются текущие оценки расстояний из предыдущей итерации или стартовой конфигурации. В начале каждого из последующих проходов на той же итерации отклонения берутся из предыдущего прохода. Проход начинается с разбиения оценок отклонений на блоки равных значений. Оставшаяся часть каждого прохода состоит из сравнения соседних блоков. Пусть m – индекс, обозначающим блоки от самого низкого ( Рассмотрим алгоритм неметрического этапа, предложенный Л. Гуттманом. Он является альтернативой описанному неметрическому алгоритму Краскала. На неметрическом этапе Гуттмана каждое отклонение устанавливается равным одной из текущих оценок расстояний. А именно, если пара объектов Монотонную последовательность Следует отметить, что при реализации этого этапа важен только ранговый порядок данных На метрическом этапе используются отклонения, рассчитанные на неметрическом этапе ( Задача нахождения Для нахождения
Для того чтобы избежать деления на нуль, при Как и в метрическом шкалировании, в неметрическом шкалировании сталкиваются с решением вопросов о размерности, вращении и интерпретации полученного решения. На практике при решении задачи неметрического многомерного шкалирования размерность конфигурации k, как правило, не известна и определяется в процессе анализа. В этом случае рекомендуется получить решения в пространствах различных размерностей k и выбрать одно из них исходя из критериев интерпретируемости, воспроизводимости и соответствия. Критерий интерпретируемости диктует выбор минимально возможно размерности, в которой проявляются существенные характеристики объектов (упорядочения или группировки). Воспроизводимость требует, чтобы решение было составлено из тех координатных осей, которые возникают в разных подвыборках. Один из способов оценки соответствия состоит в построении графика зависимости меры соответствия от размерности признакового пространства. Значение, при котором наблюдается изгиб графика, и рекомендуется выбрать в качестве k. На практике редко возникает необходимость добавлять больше координатных осей, чем это необходимо для снижения стресса ниже 0, 05. Согласно Дж. Краскалу и М.Вишу, не следует признавать решение со значением стресса выше 0, 1, если это решение не одномерно. При Неевклидовы решения поворачивать не следует, так как при этом уменьшается соответствие оценок расстояний данным. В приложениях типа «верификация конфигурации» и «сжатие данных» в размерностях 1 и 2 важные характеристики объектов будут очевидны и без поворота. В координатных приложениях, а также в размерностях 3 и больше для интерпретации поворот может быть необходим. В неметрическом многомерном шкалировании интерпретация решения происходит так же, как и в метрическом. Она состоит в основном в идентификации важных группировок и упорядочений объектов. Кроме того, нужно назвать или описать характеристики объектов, соответствующие каждому упорядочению, а также описать характеристики объектов, которые являются общими в каждой из групп объектов. При применении алгоритмов неметрического многомерного шкалирования возникают три проблемы: локальный минимум, вырожденность и отсутствие сходимости. Для уменьшения вероятности локального минимума можно применять рациональную стартовую конфигурацию, основанную на подходе Торгерсона. В некоторых случаях прибегают к нескольким стартовым конфигурациям. Полностью вырожденные решения легко выявляются и часто имеют близкое к нулю значение стресса. При обнаружении вырожденного решения моно применить к данным метрический анализ. Отсутствие сходимости можно избежать, увеличив допустимое число итераций.
|