О решении

С каждым годом мы все больше погружаемся в цифровой век. Хранилища данных, существующие на рынке уже много лет, начали перестраиваться под новые запросы, образовывая целые фабрики данных.

На смену относительно простым системам, таким как хранилище и озера данных, постепенно приходят более сложные экосистемы, содержащие большое количество технологических решений. Эти решения позволяют закрыть потребности в высокой доступности большого объема разноструктурированных данных, их финансово выгодном хранении и защите от несанкционированного доступа.

Для решения подобных задач строятся сложные программно-аппаратные комплексы путем комбинирования большого количества различных компонентов.

Изменения затронули и интеграционные процессы. Раньше это были механизмы, которые брали пачку данных, перекладывали их из одного места в другое, выполняли некую математику, проверку качества данных. Следующим шагом появилась лямбда-архитектура, которая привнесла онлайн-интеграцию, и казалось, что этого достаточно. Далее в мир пришел IoT (интернет вещей), данных стало еще больше, они стали иначе поступать и обрабатываться. На смену пришла каппа-архитектура, которая может быть, как самостоятельным решением, так и дополнять лямбда-архитектуру — это тоже достаточно многокомпонентная система, с которой необходимо уметь правильно взаимодействовать.

Трансформируется и средства предоставления информации конечным потребителям. Вместо простых отчетов появляется огромный класс различных сервисов, которые позволяют пользователю решать большое количество задач, связанных с получением выгоды от данных: либо посредством прямой реализацией информации, либо косвенная выгода, от оптимизации сопутствующих процессов. Появляются различные сервисы,«песочницы данных», в которых пользователи могут апробировать свои предложения, проанализировать насколько они эффективны и применимы.

Весь этот комплекс решений мы называем Big Data «Фабрика данных». Это единое место, работы с любыми типами и массивами данных.

Три слоя технологической реализации

Технологически Big Data и «Фабрики данных» эволюционно выросли из хранилищ данных, поэтому концептуально можно выделить три больших слоя технологической реализации: интеграционный, слой хранения и сервисный слой. Также в фабрику данных следует добавить систему управления данными, сервисы DevOps и DataOps, которые позволяют правильно настраивать и управлять жизненным циклом внедрения различных потоков данных и обращения с ними.

Интеграционный слой
Если более детально рассматривать концептуальную архитектуру и изучать интеграционный слой на технологическом уровне, можно отметить классические ETL/ELT-средства. Стоит обратить внимание, что сейчас наблюдается тренд: вместо популярных несколько лет назад Enterprise-решений от больших вендоров на первый план выходят Open Source-средства, такие как NiFi, Airflow, с возможностью писать интеграции либо на уровне баз данных, либо на уровне дополнительных скриптов на Python, которые оказываются сопоставимы с Enterprise-решениями. В них выше порог входа, но это компенсируется гибкостью и стоимостью самого программного средства, которая, зачастую, либо очень низка, либо бесплатна. Говоря об интеграции, нельзя забывать про стриминговые платформы, message-broker, такие как RabbitMQ, Kafka, которые позволяют передавать большие потоки данных в режиме реального времени, при этом производить с ними еще относительно несложные трансформации.
Слой хранения данных
Эту составляющую не коснулись кардинальные изменения: по-прежнему применяется классическое температурное хранение данных с выделением области витрин. Витрины могут быть сделаны с использованием большого количества различных технологий, которые потребляют данные из единой платформы хранения в согласованной модели. Такой подход показывает хороший результат и минимизирует работу по адаптации пользователей к изменениям.


Важно выделить такое новшество, как «песочницу» или маркетплейс данных, когда конечный пользователь может заказать в фабрике какой-то набор данных и независимо работать с ним, реализовывая концепции.

Но и здесь появляются новые компоненты, такие как система управления данными или Data Governance: Data Catalog, Data Lineage. Сюда же можно отнести MDM и Data Quality системы, то есть все системы, которые управляют данными как бизнес-сущностью. Тематика Data Governance гораздо шире, чем фабрика данных, это уже отдельная область знаний, в которую входят организационные единицы, методологические регламенты, программные компоненты.

Концептуальный слой
Направлен на конечного потребителя данных. Эта составляющая тоже усложняется: появляются различные бизнес-сервисы, «песочницами данных», Data-порталы, где пользователь может дополнять готовые схемы.


Как пример из окружающей нас жизни: сейчас в большом количестве запускаются различные приложения у государственных структур, банков, телекоммуникационных компаний. Умные сервисы помогают конечному пользователю в разных жизненных сферах.

Спектр задач

Одна из ключевых компонент стэка Big Data — это экосистема Hadoop. Программный продукт покрывает огромный спектр задач.

Хранение данных любого типа, в том числе неструктурированных данных

  • Системы управления документами и контентом
  • Хранение и регистраций событий, данные датчиков, каталоги товаров
  • Резервное копирование других СУБД

Озера и фабрики данных

  • Единый хаб всех данных компании
  • Возможность быстрого развертывания и сворачивания зон «песочниц» для пилотных проектов и проверки статистических гипотез
  • Работа со всеми аналитическими инструментами в единой среде

Машинное обучение и искусственный интеллект

  • Поддержка R, Phyton и Madlib
  • Distributed ML на базе Spark
  • Возможность эффективной эксплуатации моделей в SQL среде с помощью встроенных функций Madlib

Разгрузка западных систем/Импортозамещение

  • Миграция с иностранных систем (Oracle BDA, Cloudera), в т.ч. и для решения задач по импортозамещению
  • Прозрачная методика перехода, минимум рисков и сохранение всех преимуществ

Заказчики

Проекты

Связаться с нами

Евгений Исаков
Руководитель направления корпоративных аналитических систем
+7 (495) 967-80-80
Спасибо
Ваша заявка успешно отправлена.
Мы скоро вам перезвоним.
Сайт IBS использует cookie. Это дает нам возможность следить за корректной работой сайта, а также анализировать данные, чтобы развивать наши продукты и сервисы. Посещая сайт, вы соглашаетесь с обработкой ваших персональных данных.