Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Аналитическая обработка данных, системы оперативной аналитической обработки (ОLAP).
Системы аналитической обработки данных OLAP —это системы поддержки принятия решений, ориентированные на выполнение более сложных запросов, требующих статистической обработки исторических данных, накопленных за определенный промежуток времени. Они служат для подготовки бизнес-отчетов по продажам, маркетингу в целях управления, так называемого Data Mining — добычи данных, т.е. способа анализа информации в базе данных для отыскания аномалий и трендов без выяснения смыслового значения записей. Аналитические системы, построенные на базе OLAP, включают в себя средства обработки информации на основе методов искусственного интеллекта и средства графического представления данных. Эти системы определяются большим объемом исторических данных, позволяя выделить из них содержательную информацию, т.е. получить знания из данных. Требования к скорости и качеству анализа привело к появлению систем OLAP. Оперативность обработки достигается за счет применения мощной многопроцессорной техники, сложных методов анализа, специализированных хранилищ данных. Причина использования OLAP для обработки запросов — это скорость. Реляционные базы данных хранят сущности в отдельных таблицах, которые обычно хорошо нормализованы. Эта структура удобна для операционных баз данных (системы OLTP), но сложные многотабличные запросы в ней выполняются относительно медленно. Более хорошей моделью для запросов, а не для изменения, является пространственная база данных. Система OLAP делает мгновенный снимок реляционной базы данных и структурирует ее в пространственную модель для запросов. Структура OLAP, созданная из рабочих данных, называется OLAP-кубом. Куб создается из соединения таблиц с применением схемы «звезда». В центре «звезды» находится таблица фактов, содержащая ключевые факты, по которым делаются запросы. Преимущства OLAP: - предметная ориентированность; - многопользовательский режим работы; - прямой доступ к данным, - удобные средства доступа; - удобная навигация по данным; - визуализация информации; - онлайн функционирование; - неизменность данных; - хорошая оперативность; - высокая точность отчетов и т.д. Недостатки OLAP - системы оперативной аналитической обработки данных: - слабая предрасположенность к произвольному дизайну форм, т.к. OLAP-отчеты – это, как правило, сводные таблицы; - выгрузка данных из баз в хранилище, разработка ХД, схемы наполнения его данными – требует высокого уровня знаний специалиста; и т.д. Интеллектуальный анализ данных (Data Mining) и знаний (Knowledge Мining). Управление и анализ больших объемов данных (Big data). Системы бизнес-аналитики (Business Intelligence, BI). Интеллектуальный анализ данных (ИАД) – общий термин для обозначения анализа данных с активным использованием математических методов и алгоритмов (методы оптимизации, генетические алгоритмы, распознавание образов, статистические методы, Data Mining и т.д.), использующих результаты применения методов визуального представления данных. В общем случае процесс ИАД состоит из трех стадий: 1) выявление закономерностей (свободный поиск); 2) использование выявленных закономерностей для предсказания неизвестных значений (прогнозирование); 3) анализ исключений для выявления и толкования аномалий в найденных закономерностях. Иногда выделяют промежуточную стадию проверки достоверности найденных закономерностей (стадия валидации) между их нахождением и использованием. Data Mining (DM)– это технология обнаружения в «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Задачи, решаемые методами DM: 1. Классификация – отнесение объектов (наблюдений, событий) к одному из заранее известных классов. 2. Прогнозирование. 3. Кластеризация – группировка объектов на основе данных, описывающих сущность этих объектов. 4. Ассоциация – выявление закономерностей между связанными событиями. 5. Последовательные шаблоны – установление закономерностей между связанными во времени событиями. 6. Анализ отклонений – выявление наиболее нехарактерных шаблонов. Наибольшее распространение получили следующие методы Data Mining: нейронные сети, деревья решений, алгоритмы кластеризации, алгоритмы обнаружения ассоциативных связей между событиями и т.д. Knowledge Discovery in Databases (KDD) следующих этапов: - Подготовка исходного набора данных – создание набора данных из различных источников, для чего должен обеспечиваться доступ к источникам данных, в том числе, к хранилищам данных. - Предобработка данных – удаление пропусков, искажений, аномальных значений и т.д., дополнение данных некоторой априорной информацией. Данные должны быть качественны и корректны с точки зрения используемого метода DM. - Трансформация, нормализация данных – приведение информации к пригодному для последующего анализа виду. - Постобработка данных – интерпретация результатов и применение полученных знаний в бизнес-приложениях. Knowledge Discovery in Databases определяет последовательность действий, необходимую для получения знаний, а не набор методов обработки или алгоритмов анализа. BI-инструменты включают корпоративные BI-наборы (Enterprise BI Suites, EBIS), предназначенные для генерации запросов и отчетов, и BI-платформы, представляющие собой набор инструментов для создания, внедрения, поддержки и сопровождения BI-приложений. BI-приложения содержат встроенные BI-инструменты (OLAP, генераторы запросов и отчетов, средства моделирования, статистического анализа, визуализации и Data Mining). По оценкам агентства IDC рынок Business Intelligenceсостоит из 5 секторов: 1. OLAP-продукты; 2. Инструменты добычи данных; 3. Средства построения Хранилищ и Витрин данных (Data Warehousing); 4. Управленческие информационные системы и приложения; 5. Инструменты конечного пользователя для выполнения запросов и построения отчетов. Как правило, функции BI включают поддержку принятия решений, запросы и отчетность, аналитическую обработку online, статистический анализ, прогнозирование и количественный анализ.
|