Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Просто данные vs Большие данные
Большие данные сегодня – это модная тема. У читателя новостных колонок, в особенности в профильных изданиях, складывается ощущение, что Big Data, или Большие Данные, являются новым, но уже повсеместным явлением. Так ли это на самом деле? Действительно ли Большие Данные предлагают кардинально новый подход к информации? Действительно ли они нужны всем? Попробуем сделать краткий анализ. Немного подробнее остановимся на применении Big Data в индустрии страхования. Обзор новых тенденций в страховании в мировых и российских масштабах дает поле для размышлений и, кто знает, и последующих инноваций. Для начала дадим формальное определение термину Big Data: Big data (большие данные) — огромные объемы неоднородной и быстро поступающей цифровой информации, которые невозможно обработать традиционными инструментами. Стоит иметь в виду, что в русскоязычной среде под большими данными подразумевают также технологии их обработки, тогда как в мировой практике Большими Данными называют только объект анализа. Чем же принципиально отличаются Большие Данные от просто данных? Принято говорить, что сегодня мы живем в эпоху перехода от капиталистического к информационному обществу. Таким образом, справедливо будет добавить к знаменитым факторам производства еще один: теперь миром управляют земля, труд, капитал, безусловно, предпринимательские способности, и информация. Но информация – это очень общее понятие. К примеру, часто под Big Data дата имеются в виду один из частных случаев— большие объемы накопленных однородных данных, как правило, в финансовой сфере. Но если бы данные действительно в массе своей были однородными, то человечество бы, безусловно, заставило бы их работать на себя уже много лет назад. По результатам одного из самых полных исследований по данной теме «Информация и количество данных», проведенного в 2012 году М.Гилбертом из Университета Южной Калифорнии, на начало 2013 года в мире было накоплено 1, 2 зеттабайта данных. Это немыслимо много, к примеру, автор приводит следующую аналогию: если записать 1, 2 зеттабайта на стандартные компакт-диски и сложить их в одну стопку, то «башня» дотянется до луны, и таких стопок получится 5 штук. Интересно, что к началу 2000 года только четверть мировой информации хранилась в цифровом виде, остальные же три четверти представляли собой книги, виниловые пластинки, магнитные кассеты и тому подобные носители. А в 1986 году около 40% вычислительной мощности общего назначения в мире приходилось на карманные калькуляторы, которые были мощнее, чем компьютеры того времени. Однако всего несколько десятилетий спустя количество аналоговой информации составляет всего 2%. Наша цивилизация начала накапливать данные в невиданных доселе размерах. Поэтому для обработки всей этой информации нужны новые методы, поскольку при новых масштабах предыдущие перестают быть эффективными. Итак, с чем мы имеем дело? Широко известен структурированный язык запросов к базам данных, SQL. Данные хранятся в типизованном табличном виде, и посредством простейших команд могут быть извлечены любые подборки при необходимых условиях. Тем не менее, стоит понимать, что только около 5% цифровых данных хранятся в виде, струкурированном для БД. Вся остальная часть представляет собой неупорядоченные сведения: тексты, публикации, отметки «мне нравится», поисковые запросы, социальные связи, афишируемые и не афишируемые предпочтения и многое другое, что составляет жизнь пользователей интернета, но раньше не рассматривалось как данные, имеющие какую-либо ценность. Кстати, подчеркнем, что когда упоминается ценность, то чаще всего имеется в виду ценность коммерческая, что неудивительно, поскольку именно бизнес является основой инноваций в наши дни. Хотя на самом деле первопроходцами в накапливании огромных массивов статистической информации еще до массового распространения интернета были государственные институты. В качестве ярчайших примеров можем вспомнить досье, собираемые КГБ, либо данные, полученные в результате переписей населения. В результате на выходе получается огромный массив информации, потенциал которого сложно было оценить без глобального подхода.
|