Мировой объем оцифрованной информации растёт по экспоненте. По данным компании IBS, в 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), в 2011 году — до 1,76 зеттабайта, а в 2013 году — до 4,4 зеттабайта. К 2015 года глобальное количество данных превысило 6,5 зеттабайта. К 2020 году, по прогнозам, человечество сформирует 40–44 зеттабайтов информации. По расчётам IBS, в 2013 году только 1,5% накопленных массивов данных имело информационную ценность.
Это влечёт за собой ряд задач: весь этот массив информации нужно как-то хранить, обрабатывать и извлекать из неё экономическую выгоду.
Таким образом, около 10 лет назад появился термин Big Data.
Большие данные (Big Data) — общее название для структурированных и неструктурированных данных огромных объёмов, которые обрабатываются с помощью технических средств (автоматизированная обработка) данных, альтернативных традиционным системам управления базами данных.
Рассмотрим в сравнении традиционный подход к обработке данных и big data:
Традиционный:
- Постепенный анализ небольших пакетов данных.
- Редакция и сортировка данных перед анализом.
- Старт с гипотезы и её тестирования относительно данных.
- Данные собираются, обрабатываются, хранятся и лишь затем анализируются.
Big Data:
- Анализ всего массива доступных данных.
- Данные анализируются в их исходном виде.
- Поиск корреляций по всем данным до получения искомой информации.
- Анализ данных в реальном времени по мере поступления.
Приведём некоторые источники данных:
Логи поведения пользователей в интернете (соцсети, форумы, блоги, СМИ и т.д);
GPS-сигналы от автомобилей для транспортной компании;
Показания устройств — датчиков, счётчиков, метеорологические данные, данные сотовой связи;
Оцифрованные данные в любой государственной базе, архивы;
Информация о транзакциях всех клиентов банка;
Информация о всех покупках в крупных ритейл-сетях и т.д.
Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.
Техники и методы анализа, применимые к Big data по McKinsey:
- Data Mining;
- Краудсорсинг;
- Смешение и интеграция данных;
- Машинное обучение;
- Искусственные нейронные сети;
- Распознавание образов;
- Прогнозная аналитика;
- Имитационное моделирование;
- Пространственный анализ;
- Статистический анализ;
- Визуализация аналитических данных.
Технологии:
- NoSQL;
- MapReduce;
- Hadoop;
- R;
- Аппаратные решения.
Формировать собственные Big Data сейчас может почти любая компания. Анализ больших данных перестаёт быть сложным и дорогим процессом. От руководства компании теперь требуется правильно формулировать вопросы к собранной информации, в то время как невидимых серых зон практически не остается.
Для того, чтобы руководители понимали ценность в обработке и дальнейшем использовании больших данных и могли правильно формулировать задачи для своих аналитиков big data наша школа проводит курс "Аналитика больших данных для руководителей", где подробно рассматриваются сценарии применения технологий работы с Большими Данными (Big Data) в различных отраслях бизнеса (Банки и финансовые учреждения, промышленность, торговля и транспорт) и организациях государственного сектора. Особое внимание уделяется вопросам работы с персональными данными, монетизации больших данных, обеспечение безопасности при работе с большими данными и возможные сложности и специфика при работе с большими данными для различных секторов экономики.