![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Понятие, задачи Data Mining и связи с другими дисциплинами.
Data Mining – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретаций знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Задачи Data Mining: -классификация; -кластеризация; -прогнозирование; -ассоциация; -визуализация; -анализ и обнаружение отклонений; -оценивание; -анализ связей; -подведение итогов. -классификация – это отнесение объектов к одному из заранее известных классов. -регрессия – установление зависимости непрерывных выходных переменных от входных значений. -кластеризация – объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. -ассоциация – нахождение зависимости, что из события Х следует событие Y. -последовательность – установление зависимостей между связанными во времени событиями. - анализ отклонений – установление зависимостей между связанными во времени событиями. Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. На сегодня наибольшее распространение получили самообучающиеся методы и машинное обучение. Data Mining – это процесс обнаружения в «сырых» данных, ранее неизвестных и нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других. Data Mining- это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. Data Mining сводится к решению 5 классов задач: -классификация; -регрессия; -ассоциация; -последовательность. Регрессия – нахождение функциональной зависимости между входными атрибутами и непрерывным выходным атрибутом. Позволяет оценивать вероятность возникновения события или его численное значение: -прогнозирование спроса; -оценка ценовой эластичности; -оценка вероятности повторных продаж; -расчет загруженности склада, магазина, кассы; -анализ влияния различных факторов на спрос. Кластеризация – разбиение объектов на кластеры, т.е. на группы схожих элементов. Этот метод позволяет анализировать одни объекты по аналогии с поведением других: -кластеризация товаров, выявление товаров со схожей структурой спроса; -разбиение клиентов на близкие по структуре и особенностям поведения группы; -анализ спроса в зависимости от комбинации входных показателей; -обнаружение аномальных отклонений. Ассоциация – это анализ транзакций, т.е. событий, происходящих вместе. Обнаружение зависимости, что из события А с определенной вероятностью следует событие Б: -предсказание поведения клиента и предложение товара, который, скорее всего, его заинтересует; -размещение товара на полках, в каталогах; -кросс-продажи – стимулирование продаж одних товаров за счет продажи других; -оптимизация складских запасов. Последовательность – анализ событий, связанных между собой по времени. Обнаружение зависимости, что после события А спустя определенного время произойдет событие Б: -анализ потребности клиентов в расходных материалах, сопутствующих товарах, ремонте. -повторные продажи, оценка наиболее вероятного времени потребности в модернизации. -предсказание наиболее вероятного поведения потребителя.
|