![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Особенности проектов Data Mining, типовая структура аналитических систем.
В большинстве случаев Data Mining проекты не оправдывают ожидания клиентов потому, что они относятся к ним как к стандартным проектам. Проект – это уникальная деятельность, имеющая начало и конец во времени, направленная на достижение заранее определенной цели, создание уникального продукта или услуги при заданных ограничениях по ресурсам и срокам, а также требованиям к качеству и допустимому уровню риска. Однако Data Mining проект – это вообще не проект, а научное исследование. Суть Data Mining – построение и применение моделей, а модель есть приближение реального процесса, следовательно: -никакая модель не является финальной, всегда есть неучтенные факторы. -модель со временем нужно перестраивать, т.к. меняются описываемые ей процессы. -некоторые процессы не поддаются моделированию, для них необходимо изобретать особые способы работы. Все модели предполагают, что данные удовлетворяют базовым требованиям: точности, достоверности, полноты… На практике в данных всегда присутствуют ошибки: опечатки, пропуски, аномалии, дубликаты… Именно плохое качество данных является одной из самых серьезных проблем любого Data Mining проекта. Применение методов очистки и предобработки данных позволяет частично решить эту проблему, но полностью ее не снимает. Если известны правила, формулы и закономерности, при помощи которых можно получить искомый результат, то в применении Data Mining нет необходимости. Data Mining – это поиск скрытых закономерностей. Следовательно, до начала исследования аналитик даже не догадывается о том, какие закономерности существуют, он может только предполагать их наличие. Data Mining – это исследование, и его целью является не получение результата с гарантированным качеством (что невозможно в принципе), а лучшей модели из возможных в данной ситуации. Рабочий цикл Data Mining Формирование гипотез – Сбор данных – Очистка данных – Построение моделей – Мониторинг качества. Особенности Data Mining процесса определяют требования к программному обеспечению: - ориентация на аналитика: 95% времени – это работа аналитика, связанная с подбором моделей и анализом результатов. - гибкость. Необходимо подстраиваться под постоянные изменения требований. -очистка данных: без нее результат будет гарантированно плохим. -моделирование: для каждого класса задач нужны соответствующие алгоритмы. - интеграция: необходим механизм быстрого переноса лучших моделей в рабочий процесс. Критически важным для процесса являются возможности развития и адаптации моделей. Для этого необходимо: - наличие аналитиков, способных самостоятельно контролировать процесс и развивать систему. -возможность понять логику анализа и при необходимости ее изменять. -реализация самообучающихся алгоритмов, способных перестраиваться при поступлении новых данных. -встроенные механизмы визуализации, позволяющие оценить качество результата и интерпретировать построенные модели. Data Mining нетривиален, однако реальной альтернативы ему нет. В компаниях накопились такие объемы данных, что физически невозможно обработать их «ручными» методами. Из-за этого информация, представляющая огромную ценность, лежит мертвым грузом. Data Mining – это единственный на сегодня систематизированный способ увидеть варианты будущего, объективно их сравнивать и определить потенциальные последствия альтернативных решений.
|