![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Методы эффективной работы с большими данными для Data Mining.
Во многих компаниях, особенно в розничных торговых сетях, аккумулируется огромное количество данных. Для их обработки необходимо использовать специальные механизмы. Не существует универсальных способов анализа и алгоритмов, пригодных для любых случаев и любых объемов информации. Методы анализа данных существенно отличаются друг от друга по производительности, качеству результатов, удобству применения, требованиям к данным. Способы повышения производительности: Производительность при обработке больших объемов данных можно повысить различными способами: -Оборудование. Многопроцессорные системы, ОЗУ большой емкости, RAID-массивы. -Базы данных: тяжелые СУБД, разбиение на разделы, оптимальное индексирование… -Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей… -Исходная информация: репрезентативные выборки, сегментирование данных, группировка… -Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели. Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл. Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов. Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству.
41. Deductor – принципы работы и структура платформы. Возможности взаимодействия с другими системами. В Deductor включен полный набор инструментов для решения задач прогнозирования, начиная от сбора данных и кончая построением адаптивных моделей. Последовательность работы: выдвижение гипотез – сбор данных – очистка данных – трансформация данных – построение модели – прогноз. В качестве места хранения данных для прогнозирования лучше всего использовать многомерное хранилище данных – Deductor Warehouse, включенное в состав системы. Реальные данные очень часто содержать избыточную или некорректную информацию, которую желательно удалить или очистить до загрузки в хранилище. Deductor Studio содержит набор инструментов для решения задач очистки данных: -редактирование аномалий; -заполнение пропусков; -очистка от шумов; -сглаживание; -поиск дубликатов и противоречий. Трансформация данных является последним шагом перед построением прогностической модели. На этом шагу данные приводятся к виду, пригодному для использования различных способов построения моделей. В Deductor Studio реализованы следующие способы трансформации: -преобразование к скользящему окну; -квантование; -группировка и сортировка; -приведение типов. При прогнозировании необходимо решать задачу регрессии, т.е. предсказать значение непрерывного выходного поля на основе нескольких входных показателей. В Studio встроены следующие типы моделей: -пользовательские; -классические статистические модели; -линейная регрессия; -нейронные сети. После построения прогностической модели можно получить, собственно, сам прогноз. Состав платформы Deductor -Warehouse – хранилище данных -Studio – рабочее место аналитика -Viewer – рабочее место конечного пользователя -Server – аналитический сервер -Client – клиент доступа к аналитическому серверу. Dеductor легко интегрируется в любое программное окружение, позволяет извлечь из накопленных в компании данных интересную и практически полезную информацию и трансформировать ее в конкурентные преимущества. Deductor имеет встроенные механизмы работы со множеством источников и приемников данных, поддерживает практически все популярные форматы: -txt, csv, xml, html -офисные приложения -драйвера прямого доступа ко множеству СУБД -поддержка ODBC и ADO -1С: Предприятие
|