Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Особенности проектов Data Mining, типовая структура аналитических систем.






В большинстве случаев Data Mining проекты не оправдывают ожидания клиентов потому, что они относятся к ним как к стандартным проектам.

Проект – это уникальная деятельность, имеющая начало и конец во времени, направленная на достижение заранее определенной цели, создание уникального продукта или услуги при заданных ограничениях по ресурсам и срокам, а также требованиям к качеству и допустимому уровню риска.

Однако Data Mining проект – это вообще не проект, а научное исследование.

Суть Data Mining – построение и применение моделей, а модель есть приближение реального процесса, следовательно:

-никакая модель не является финальной, всегда есть неучтенные факторы.

-модель со временем нужно перестраивать, т.к. меняются описываемые ей процессы.

-некоторые процессы не поддаются моделированию, для них необходимо изобретать особые способы работы.

Все модели предполагают, что данные удовлетворяют базовым требованиям: точности, достоверности, полноты… На практике в данных всегда присутствуют ошибки: опечатки, пропуски, аномалии, дубликаты… Именно плохое качество данных является одной из самых серьезных проблем любого Data Mining проекта. Применение методов очистки и предобработки данных позволяет частично решить эту проблему, но полностью ее не снимает.

Если известны правила, формулы и закономерности, при помощи которых можно получить искомый результат, то в применении Data Mining нет необходимости. Data Mining – это поиск скрытых закономерностей. Следовательно, до начала исследования аналитик даже не догадывается о том, какие закономерности существуют, он может только предполагать их наличие.

Data Mining – это исследование, и его целью является не получение результата с гарантированным качеством (что невозможно в принципе), а лучшей модели из возможных в данной ситуации.

Рабочий цикл Data Mining

Формирование гипотез – Сбор данных – Очистка данных – Построение моделей – Мониторинг качества.

Особенности Data Mining процесса определяют требования к программному обеспечению:

- ориентация на аналитика: 95% времени – это работа аналитика, связанная с подбором моделей и анализом результатов.

- гибкость. Необходимо подстраиваться под постоянные изменения требований.

-очистка данных: без нее результат будет гарантированно плохим.

-моделирование: для каждого класса задач нужны соответствующие алгоритмы.

- интеграция: необходим механизм быстрого переноса лучших моделей в рабочий процесс.

Критически важным для процесса являются возможности развития и адаптации моделей. Для этого необходимо:

- наличие аналитиков, способных самостоятельно контролировать процесс и развивать систему.

-возможность понять логику анализа и при необходимости ее изменять.

-реализация самообучающихся алгоритмов, способных перестраиваться при поступлении новых данных.

-встроенные механизмы визуализации, позволяющие оценить качество результата и интерпретировать построенные модели.

Data Mining нетривиален, однако реальной альтернативы ему нет. В компаниях накопились такие объемы данных, что физически невозможно обработать их «ручными» методами. Из-за этого информация, представляющая огромную ценность, лежит мертвым грузом.

Data Mining – это единственный на сегодня систематизированный способ увидеть варианты будущего, объективно их сравнивать и определить потенциальные последствия альтернативных решений.

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.007 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал