На смену относительно простым системам, таким как хранилище и озера данных, постепенно приходят более сложные экосистемы, содержащие большое количество технологических решений. Эти решения позволяют закрыть потребности в высокой доступности большого объема разноструктурированных данных, их финансово выгодном хранении и защите от несанкционированного доступа.
Изменения затронули и интеграционные процессы. Раньше это были механизмы, которые брали пачку данных, перекладывали их из одного места в другое, выполняли некую математику, проверку качества данных. Следующим шагом появилась лямбда-архитектура, которая привнесла онлайн-интеграцию, и казалось, что этого достаточно. Далее в мир пришел IoT (интернет вещей), данных стало еще больше, они стали иначе поступать и обрабатываться. На смену пришла каппа-архитектура, которая может быть, как самостоятельным решением, так и дополнять лямбда-архитектуру — это тоже достаточно многокомпонентная система, с которой необходимо уметь правильно взаимодействовать.
Трансформируется и средства предоставления информации конечным потребителям. Вместо простых отчетов появляется огромный класс различных сервисов, которые позволяют пользователю решать большое количество задач, связанных с получением выгоды от данных: либо посредством прямой реализацией информации, либо косвенная выгода, от оптимизации сопутствующих процессов. Появляются различные сервисы,«песочницы данных», в которых пользователи могут апробировать свои предложения, проанализировать насколько они эффективны и применимы.
Весь этот комплекс решений мы называем Big Data «Фабрика данных». Это единое место, работы с любыми типами и массивами данных.
Технологически Big Data и «Фабрики данных» эволюционно выросли из хранилищ данных, поэтому концептуально можно выделить три больших слоя технологической реализации: интеграционный, слой хранения и сервисный слой. Также в фабрику данных следует добавить систему управления данными, сервисы DevOps и DataOps, которые позволяют правильно настраивать и управлять жизненным циклом внедрения различных потоков данных и обращения с ними.
Важно выделить такое новшество, как «песочницу» или маркетплейс данных, когда конечный пользователь может заказать в фабрике какой-то набор данных и независимо работать с ним, реализовывая концепции.
Но и здесь появляются новые компоненты, такие как система управления данными или Data Governance: Data Catalog, Data Lineage. Сюда же можно отнести MDM и Data Quality системы, то есть все системы, которые управляют данными как бизнес-сущностью. Тематика Data Governance гораздо шире, чем фабрика данных, это уже отдельная область знаний, в которую входят организационные единицы, методологические регламенты, программные компоненты.
Как пример из окружающей нас жизни: сейчас в большом количестве запускаются различные приложения у государственных структур, банков, телекоммуникационных компаний. Умные сервисы помогают конечному пользователю в разных жизненных сферах.
Одна из ключевых компонент стэка Big Data — это экосистема Hadoop. Программный продукт покрывает огромный спектр задач.