BIG DATA в Облаке КРОК: инструменты и практика
О технологиях

BIG DATA в Облаке КРОК: инструменты и практика

1259
30 минут

Запись онлайн-митапа и подробная расшифровка выступлений спикеров.


egorov.png

Павел Егоров,
менеджер проектов и эксперт Big Data, КРОК


sultanov.png

Руслан Султанов,
архитектор Big Data, КРОК


timchur.png

Александр Тимчур,
директор департамента поддержки продаж Arenadata


zinkevich.png

Сергей Зинкевич,
директор по развитию бизнеса КРОК Облачные сервисы, модератор


Экосистема больших данных на базе технологий Open Source

1-1.jpg


Александр Тимчур. Я расскажу про использование технологий Open Source для обработки больших данных в облачных и необлачных окружениях.

Единая платформа данных

big data_2Единая платформа данных

На архитектурной диаграмме слева представлены источники данных различного характера и скорости — ERP-система управления предприятием, аналитическая система для взаимодействия с пользователем и т. д. Это могут быть любые источники, которые хранят данные на дисках, в том числе базы данных и файловые источники, а также потоковые источники.

Arenadata Streaming (AD.S) — первый компонент, с которым мы начинаем работать. Это транспортный компонент, построенный на базе двух продуктов из мира Open Source — Apache Kafka и Apache Nifi. Он играет роль шины данных и оркестратора, позволяющего строить транспортные потоки для извлечения и загрузки данных. Такие потоки можно напрямую «приземлить» на нашу платформу хранения и обработки.

Возможен вариант, когда перед загрузкой данных необходима их очистка и преобразование. В таком случае в игру вступают компоненты ETL/ELT-платформ, в качестве которых мы используем партнерские решения. Одно из наиболее развитых и удобных для пользователей решений — платформа Informatica: PowerCenter или подсистема больших данных. В результате мы получаем обработанные и очищенные данные, которые можно загрузить на нашу платформу.

Слой хранения включает основной компонент нашей платформы — Arenadata DataBase (AD.B). AD.B построен на продукте Open Source Greenplum — реляционной аналитической базе данных, которая позволяет максимально быстро обрабатывать аналитические запросы, строить модели данных, выполнять преобразование данных при помощи ELT-процессов и масштабироваться до петабайтных объемов. Greenplum — фантастическое хранилище, предназначенное для реляционных данных.

Слой хранения обогащен еще одним компонентом — Arenadata Hadoop (AD.H), который работает с неструктурированными данными или обеспечивает «холодное» хранение, когда необходимо разгрузить центральное хранилище и часть данных перевести в более дешевую инфраструктуру.

Между AD.B и AD.H используется наш специализированный коннектор, который позволяет перемещать данные между компонентами не только во время обслуживания, например, во время ежедневной выгрузки порции исторических данных, но и в процессе работы пользователей.

Третий компонент платформы — Arenadata QuickMarts (AD.QM) — сверхбыстрые витрины. Это подсистема из мира Open Source, которая помогает максимально быстро получать данные из систем хранения, как правило, реляционных хранилищ. AD.QM умеет строить быстрые витрины и предоставлять их пользователям. Когда пользователей становится очень много и нагрузка возрастает, AD.QM помогает максимально быстро загружать хранилища и передавать данные на плоские витрины, дашборды и инфопанели.

Между AD.B и AD.QM тоже есть специализированный коннектор. Коннектор масштабируется, а кластер AD.B и кластер AD.QM напрямую работают друг другом для максимально быстрой передачи данных не только во время технологических процессов обмена, но и во время работы пользователей.

Для понимания схемы работы необходимо рассмотреть, что из себя представляют федеративные запросы. Представим, что в различных системах горячего, теплого и холодного хранения — AD.B, AD.H и AD.QM хранятся одни и те же сущности. Пользователь хочет обратиться к этим данным, не желая разбираться, в какой системе они хранятся. Наша система позволяет открыть так называемое единое окно для запросов пользователей и обратиться с запросом к AD.B, а запрос перенаправляется в систему, в которой находятся нужные данные. В результате пользователь получает данные максимально быстро и бюджетно для компании, не прилагая дополнительных усилий, чтобы понять, где эти данные расположены и как с ними работать.

Четвертый компонент нашей системы хранения — Arenadata In-Memory Grid (AD.G) — распределенная система для больших данных, построенная на инфраструктуре Mail.RU Tarantool. Tarantool — это не аналитическая, а транзакционная система для сверхбыстрого хранения данных в памяти и передачи их по запросам пользователей. Например, в случаях, когда компании  нужен оперативный кэш данных, который хранит оперативные копии данных реляционных баз данных для максимально быстрого обращения к ним из оперативных источников, например, из личного кабинета пользователя на сайте. В данном случае у пользователя нет необходимости ждать, когда транзакционная система сможет отдать эти данные. Компонент In-Memory Grid предоставляет данные за секунды.

После слоя представления отражены потребители данных. Это могут быть любые BI-инструменты, совместимые с IDBC/ODBC, например, reporting, кастомные компоненты, личные кабинеты пользователей, все, что взаимодействует с платформой по промышленным протоколам.

В нижней части диаграммы отражено нестандартное применение — это использование наборов данных для Data Science и машинного обучения в пул запросов. Масштабные данные также можно выгрузить из компонентов Arenadata во внешние системы машинного обучения для их обработки.

Arenadata Cluster Manager (AD.CM) — компонент, затрагивающий все системы, разработанные нами и предлагаемые заказчикам. AD.CM служит для управления кластерами систем — обеспечивает развертывание, обновление и мониторинг. В нашей платформе все компоненты централизовано и единообразно разворачиваются, обновляются, управляются и контролируются из единого компонента AD.CM, который имеет собственный веб-интерфейс и позволяет из любой точки сети обращаться к нашим системам и управлять ими.

Кроме того, в нижней части диаграммы представлена инфраструктура. Инфраструктура может быть любой — построенной на серверах Power 9 или обычных дешевых машинах x86 или x64, расположенных в ЦОД или облаках, а также частично в публичном и частично в частном облаке заказчика. Все это поддерживается AD.CM, поэтому системы могут работать единообразно в таком окружении.

Практически каждый из компонентов нашей платформы построен на ядре продукта Open Source, доработанного, чтобы стать частью платформы.

big data_3

В рамках платформы все эти продукты не являются разрозненными, а формируют единую платформу. Когда мы решаем включить компонент в платформу, мы определяем, для какой нагрузки и задачи он предназначен. После этого мы выбираем компонент, производя следующие действия:

  • Анализ кода, чтобы понимать, как компонент масштабируется, причем масштабируется горизонтально, чтобы такое масштабирование было экономически эффективно.

  • Интеграция с модулем мониторинга, чтобы обеспечить единообразный и понятный формат мониторинга всех продуктов.

  • Проверка отказоустойчивости любого продукта, чтобы удостовериться, что продукт может работать даже в случае сбоя любого из серверов кластера.

  • Доработка возможностей параллельной интеграции между компонентами, поскольку все компоненты нашей платформы обмениваются друг другом данными в параллельном режиме, и информационный обмен должен быть максимально быстрым.

  • Прочие проверки и доработки.

  • Внутреннее обучение персонала поддержки, поскольку поддержка — существенный элемент продукта, предлагаемого в рамках модели Open Source.

Соответственно, заказчик получает экономически выгодный продукт, который, возможно, уже знает и использует, но до сих пор не имеет грамотной системы техподдержки, позволяющей быстро и эффективно использовать продукты Open Source и максимально быстро получать выгоду от их применения.


Преимущества Arenadata EDP

big data_4

Преимущества Arenadata EDP


  В целом наша платформа позволяет:
  1. хранить и обрабатывать данные любых типов:
    — структурированные,
    — неструктурированные.

  2. поддерживать промышленную нагрузку любого типа:

— OLTP,            

— OLAP,

— транзакционную,

—  аналитическую,

—  streaming.

Поддержка может обеспечиваться в рамках гибридной ИТ-инфраструктуры на серверах Intel, Power 9 и т. д., расположенных в публичных и частных облаках (multicloud).

Пользователям предлагается единая точка входа в платформу.

Модульность платформы обеспечивается возможностью использования отдельных продуктов для отдельных задач и беспроблемной интеграции в случае, если такие задачи «сливаются» в одну. Многие заказчики начинают с одного компонента, как правило, AD.B или AD.H, и по мере появления новых задач дополняют набор своих продуктов.

Все компоненты платформы Arenadata предусматривают горизонтальное масштабирование, чтобы обеспечить экономическую эффективность. Каждый кластер наших продуктов состоит из отдельных серверов, работающих параллельно и обрабатывающих свою часть данных.

Мы обеспечиваем возможность федеративных запросов, т. е. пользователи могут единообразно обращаться с данными, которые хранятся и обрабатываются в наших системах.

Все наши продукты для каждой из Enterprise-версий компонентов имеют Open Source-составляющую. Таким образом, даже если заказчик начал работать с нашим платным продуктом, он может в любой момент перейти на бесплатную community-версию. При этом теряется возможность использования части функционала, но сохраняется возможность применять свои наработки и знания сотрудников и развивать свои ИТ-системы без нудной и дорогостоящей миграции.

Гибридное корпоративное облако

hybrid cloud

Гибридное корпоративное облако

Все наши компоненты при помощи операционного слоя Arenadata Cluster Manager можно разворачивать в облаках — публичных, частных или гибридных. Все это будет работать на инфраструктурном слое любой природы, собственных серверах, серверах провайдера или на гибридной общей части. Система управляется единообразно при помощи интерфейса AD.CM и портала самообслуживания в облаке.

Вопрос из чата: Что происходит с поддержкой Ambari?

Александр Тимчур. Мы приняли решение перейти на AD.CM, а не развивать Ambari, потому что компания Cloudera решила не развивать этот продукт. Мы использовали функционально развитый Ambari для Arenadata Hadoop и пытались понять, достаточно ли у нас сил, чтобы «потянуть» развитие Ambari. Мы пришли к выводу, что это невозможно, потому что развитие и поддержка Ambari вынудит нас прекратить развитие собственных прикладных систем хранения и обработки. Поэтому мы перешли на AD.CM, который мы разрабатываем самостоятельно и используем для всех продуктов. AD.CM функционально беднее, чем Ambari, но это единственная возможность развиваться дальше.

Вопрос из чата: Когда планируется поддержка Kerberos?

Александр Тимчур. Этот вопрос относится к инфраструктуре Arenadata Hadoop 2.1, потому что Arenadata Hadoop 1.6 обеспечивает встроенную поддержку Kerberos. Для новых версий Arenadata Hadoop поддержка Kerberos активно разрабатывается, и мы планируем закончить разработку и тестирование и выпустить дистрибутив с поддержкой Kerberos в 4 квартале 2021 года.

Озеро данных в Облаке КРОК

Павел Егоров. Наша команда Big Data & BI была организована в компании КРОК в 2013 году, состоит более чем из 50 экспертов во всех областях, необходимых для реализации комплексных проектов — архитекторов, разработчиков, аналитиков и т. д. Наша команда реализует проекты во многих отраслях: с 2017 года мы активно развиваем проекты в промышленности, банковском секторе, ритейле, транспортной отрасли и страховании.

big data croc


О цифровой платформе для промышленной аналитики

Цифровая платформа

цифровая платформа крок

Цифровая платформа

Преимуществом использования единой цифровой платформы является возможность организации работы цифровых сервисов предприятия в одном месте.

На базе цифровой платформы, содержащей все данные компании, можно:

— создать единую точку доступа для любых бизнес-пользователей через инструменты BI, бизнес-аналитики и т. д.;

— использовать единую точку доступа и управления цифровыми инструментами;

— эффективно собирать и анализировать технологическую информацию.

Благодаря использованию Greenplum со стандартным интерфейсом для создания точки доступа можно достаточно быстро и легко подключаться и получать данные. Помимо единой точки доступа к цифровым сервисам и данным цифровая платформа также обеспечивает:

  • Интеграцию и сбор данных. Наши 2 фреймворка включают модули, которые позволяют проще интегрироваться с внешними источниками, как реляционными, так и потоковыми.

  • Стандартный паттерн обработки интеграционных сценариев и стандартный механизм сбора и обработки данных (потоковых и непотоковых), что позволяет быстро реализовать стандартный сценарий. Например, в рамках проекта в промышленности мы можем быстро создать аналитические витрины по контролю отклонений и по расчету определенных показателей.

  • Аналитику данных (BI) и, соответственно, возможность использования решений для бизнес-аналитики — Tableau, Power BI или российские аналоги.

  • Возможность подключения цифровых инструментов и разработки математических моделей после проведения бизнес-аналитики и обеспечения доступа к данным, а также подключение дополнительных сервисов, в том числе силами заказчика.

Всеми этими возможностями можно пользоваться в едином пространстве, поскольку платформа обеспечивает совместную работу цифровых сервисов. Таким образом, можно создавать не только локальные математические модели или локальную предиктивную аналитику на конкретном участке или производственном объекте, но и строить комплексную цифровую модель всего предприятия.

1-8.jpg

Цифровая платформа обеспечивает для предприятия:

  • Единое хранилище данных, доступное для анализа и моделирования (прогнозирования). Благодаря цифровой платформе можно проводить натурные эксперименты с данными и проверять бизнес-гипотезы. Например, можно моделировать события в случае остановки оборудования или снижения продаж и находить другие технологические и прочие параметры для тех или иных бизнес-процессов.

  • Удобную платформу для сбора и анализа разнородной информации (временных рядов, реляционных данных, неструктурированной информации), в том числе с системами видеоаналитики, логирования и т. д. для аудита событий информационной безопасности.

  • Оптимизацию и повышение прозрачности бизнес-процессов.

  • Выявление тенденций за счет использования технологий искусственного интеллекта и машинного обучения.

  • Снижение нагрузки на учетные системы и системы управления. Например, при разработке математической модели для определенного подразделения, в модели скорее всего будут использоваться данные из той или иной системы, например, АСУ ТП, что увеличивает нежелательную нагрузку на такие системы. Благодаря горизонтальному масштабированию наша платформа обеспечивает распределение нагрузки на кластер.


Предоставляем платформу для работы с big data
Получите все преимущества аналитики больших данных с меньшими затратами сил, времени и средств


Функциональная архитектура

Руслан Султанов. Функциональная архитектура платформы включает две ключевые подсистемы — подсистему интеграции, выполняющую все классические задачи по сбору и загрузке данных, потоковой и пакетной обработке данных, и подсистему хранения и обработки данных, в которой выделяют различные слои хранения:

— первичный слой,

— слой долговременного хранения,

— детальный слой (характерный для аналитических платформ), витрины данных,

— слой, к которому обращаются пользователи и аналитические приложения для получения данных.

Функциональная архитектура

Функциональная архитектура

Платформа также включает традиционную BI-платформу, возможность создания аналитической отчетности и пользовательских отчетов, математических моделей и т. д. На базе платформы может быть организована так называемая область лаборатории данных, когда пользователям выделяются определенные ресурсы и полномочия, и они могут работать с данными внутри платформы, проверять гипотезы, в том числе, используя Python, и в целом выполнять все традиционные задачи.

Не стоит забывать про системы класса Data Governance (подсистемы управления данными), поскольку именно они обеспечивают прозрачность источников и процессов получения данных, преобразования данных перед использованием в витринах, что улучшает осведомленность пользователей и создает объективную картину данных. К решению класса Data Governance также относится каталог данных. Все эти модули в подсистеме управления данными, как правило, уместны и внедряются вместе с платформой.

К платформе можно подключать различные системы, например подсистему управления бизнес-процессами (BPM), которая обращается за данными, чтобы запустить некий бизнес-процесс.

Используемые технические решения

big data_5

Используемые решения

Как правило, при внедрении подобных платформ мы используем компоненты Arenadata. Например, мы используем стриминговую платформу Arenadata Streaming на базе NiFi и Kafka — устоявшегося тандема в составе подсистемы интеграции для работы с потоковыми данными, который обеспечивает получение данных в режиме реального времени. NiFi также часто используется как оркестратор, который запускает и выполняет различные процессы обработки данных.

ETL — классические решения по извлечению, трансформации и загрузке данных. Можно использовать любые инструменты, уже интегрированные в инфраструктуру пользователя. Для решения ETL-задач мы используем NiFi, Airflow, а также PXF — фреймворк для Arenadata DB Greenplum.

В составе подсистемы хранения и обработки данных используется Hadoop, чтобы иметь возможность обрабатывать и хранить данные в любом формате.

В качестве Data Warehouse мы используем решение Arenadata DB Greenplum, которое становится все более популярным в России. Мы сотрудничаем с Greenplum с 2014 года и считаем, что этот продукт уместен как для решений класса Big Data, так и для обособленных хранилищ данных. При этом Greenplum и Hadoop создают устойчивый тандем, позволяющий обмениваться данными.

Мы также используем ClickHouse в быстрых витринах Arenadata QuickMarts. Например, для получения быстрого отклика по большому массиву данных можно сохранить такой массив в ClickHouse или подготовить данные в Greenplum на уровне Hadoop и отправить данные в ClickHouse.

ELT-фреймворк

Мы построили ELT-решение на основе:

  • ArenadataDB (Greenplum),

  • PXF для быстрой загрузки данных и для связки с Hadoop или с реляционной СУБД,

  • оркестратора, например, NiFi или Airflow,

  • Data Vault для детального слоя КХД,

  • Power Designer для ведения моделей данных и карт S2T,

  • унификации методов работы с данными и кодогенерации на основе S2T карт,

  • возможности настройки вместо разработки: эффективное применение разработанных методов по работе с данными.

Мы используем общие паттерны работы с данными. Это означает, что сначала мы применяем принцип унификации методов работы данных и кодогенерацию, т. е. необходимые процедуры по обработке данных возникают в процессе работы с данными, когда генерируются все необходимые инструкции. 

big data_6

Кроме того, мы стремимся следовать принципу настройки вместо разработки, т. е. использовать уже разработанные методы для всех таблиц для обработки данных. Фактически мы применяем определенную последовательность:

— настройка источников,

— настройка необходимых заданий на загрузку данных,

— загрузка данных.

1-12.jpg

Сведение задач разработки к настройке

ELT-фреймворк применяется:

  • как ядро корпоративного хранилища данных. ELT-фрейморк обеспечивает функциональность, необходимую, чтобы развивать хранилище, подключать новые источники, развивать витрины и т. д.;

  • для декомпозиции процесса разработки, когда каждый сотрудник в команде играет ключевую роль: аналитик работает с данными, архитектор создает модель данных, разработчик обеспечивает выполнение необходимых процессов загрузки данных и т. д.;

  • в рамках использования ELT-парадигмы, когда обработка данных выполняется средствами платформы;

  • для оптимизации под MPP-платформу, при этом Greenplum — это MPP СУБД;

  • для оркестрации на любых инструментах.

Применение методологии Data Vault

Data Vault — популярная современная методология, в которой соблюдаются базовые принципы. Эта методология дает ответы на многие вопросы, возникающие в отношении хранилищ данных.

Data Vault позволяет контролировать и отслеживать прозрачные связи между сущностями модели.

1-13.jpg

Data Vault обеспечивает унификацию подходов к ведению таблиц и процессов загрузки. Учитывая строгость методологии, которая накладывает определенные ограничения, Data Vault позволяет использовать такие ограничения в свою пользу и строить очень эффективные процессы по работе с такими таблицами.

Data Vault использует хэш-ключи по MD5 или SHA-1 для PL/FK и, соответственно, при построении детального слоя при загрузке данных можно рассчитывать ключи в другой системе и эффективно объединять в общие объекты уже в Greenplum.

Мы применяем принципы append-only на основных таблицах Data Vault — Hub, Sat, Link, т.е. можем записывать новые данные без обновления данных в таблицах, что позволяет строить такие решения, как ELT Framework.

Преимущества ELT Framework

Можно выделить следующие основные преимущества ELT Framework:

  • Сокращение времени на разработку. Подключение новых таблиц из систем-источников к КХД может занимать всего несколько часов.

  • Повышение эффективности.

  • Снижение time-to-market — повышение скорости передачи бизнесу необходимых данных, т. е. возможность быстро подключать таблицы к хранилищу и загружать данные, быстро строить детальный слой и витрины на основании новых данных и т. д.

  • Снижение требований к квалификации команды развития КХД благодаря упрощению работы с хранилищем и активное привлечение аналитиков для работы с настроенными механизмами.

  • Контроль и следование принципам. Архитектура фреймворка унифицирует подходы к обработке данных и, соответственно, обеспечивает целостность архитектуры и возможность контролировать развитие хранилища.

  • Сокращение совокупных затрат на задачи развития КХД и ELT.

Real-time framework

Real-time framework появился в промышленных проектах, когда пришлось обрабатывать большие объемы телеметрии и других данных. Именно тогда мы пришли к выводу, что существуют стандартные сценарии обработки телеметрии, которые необходимо предусмотреть в готовом фреймворке, чтобы обеспечивать значительно более быструю и эффективную реализацию пилотных и промышленных проектов. Текущий функционал этого фреймворка может быть масштабирован на любую отрасль, в которой приходится работать с телеметрическими данными.

big data_7

Real-time framework 



Фреймворк состоит из модуля настройки расчетов, в котором можно задавать расчетные формулы на основе получаемых показателей. Можно производить расчеты любой сложности, которые поддерживает стандартный калькулятор. Расчеты выполняются в режиме near real time и могут производиться без привлечения экспертов благодаря готовому функционалу расчетов по формулам.

Фреймворк обеспечивает настройку расчетов и обработку потоковых данных, которые передаются в Kafka с датчиков оборудования. Для быстрого подключения к источникам данных, в том числе промышленным, мы используем NiFi. NiFi также поддерживает промышленные протоколы для работы с телеметрией, например MQTT. Кроме того, можно использовать прекрасное расширение NiFi — MiNiFi которое позволяет собирать данные с помощью агентских технологий.

Решение является максимально масштабируемым. Мы получаем потоковые (телеметрические) данные, используем модуль расчетов и расчетные формулы, после чего расчеты сохраняются в хранилище данных, к которому уже можно подключать BI-аналитику и математические модели.

При разработке потоковых математических моделей всегда остро стоит вопрос проверки качества поступающих данных (телеметрии). Благодаря модулю потоковых расчетов можно предусмотреть все эти правила и проверить корректность поступающих данных, наличие всплесков и т. д.

Таким образом, вы получаете готовое решение «из коробки», которое позволяет сократить время для реализации как аналитических сценариев для Real-time framework, так и для построения простых дашбордов и внедрения систем предиктивной аналитики.

Инструменты пользователя

  • Система НСИ — гибкая система нормативно-справочной информации для классификации показателей с возможностью создания расчетных параметров и ведением иерархических моделей. В ней задаются расчетные и телеметрические показатели, которые должны поступать в систему.

  • Дашборды — информационные стенды с лаконично представленными статистическими данными и ключевыми метриками. Чаще всего информация представлена с элементами иконографики.

  • Ad hoc аналитика — нестандартные отчеты, которые генерируются с помощью нерегламентированных запросов (ad hoc query) к базе, хранилищу или витрине данных посредством визуального интерфейса.

  • Стандартизированная отчетность — набор документов, состав атрибутов которых зафиксирован и не подлежит изменению. Используется в качестве источника принятия управленческих и экономических решений в отношении предприятия.

  • Рабочее место Data Science специалиста — набор инструментов Data Science для проверки гипотез, построения математических моделей с использованием специализированных библиотек с доступом даже к потоковым данным. Благодаря единой точке доступа, к данным достаточно легко подключаться. Кроме того, модулем нормативно-справочной информации задается стандартизированная модель данных. Соответственно, можно подключиться из стандартного Jupiter со стандартным Python и разрабатывать и реализовывать свои математические модели.

Примеры визуализации

Платформа обеспечивает возможность анализа данных за длительный период:

  • Анализ выполнения KPI производства за отчетный период.

  • Гибкий инструментарий для выявления зависимостей (построение трендов, корреляций и т. д.)

1-15.jpg

Примеры визуализации

После того как мы собрали отклонение показателей датчиков или данные онлайн-мониторинга, можно объединить все данные в дашборд, достаточно понятный для руководителей среднего звена, для демонстрации состояния сбора данных и результатов бизнес-процессов. Кроме того, можно построить тепловую карту анализа отклонений для выявления нежелательных закономерностей, с которыми необходимо бороться. Можно также «провалиться» в детальные показания датчиков и телеметрии, чтобы посмотреть, что происходит с каким-либо показателем и почему.

При использовании типового интерфейса, пользователю предлагается просмотр древовидной структуры предприятия, включая, например, отделения и установки, по которым отображаются собираемые показатели, на вкладке Показатели. Расчетные показатели задаются на вкладке Формулы. Дополнительные атрибуты, необходимые для построения математических моделей или дашбордов по различным показателям или временным рядам, задаются на вкладке Атрибуты.

В пользовательском интерфейсе можно заложить полную и исчерпывающую информацию обо всех данных, которые характеризуют, например, телеметрические показатели.

1-16.jpg

Типовой интерфейс для промышленного предприятия


Когда полезны Big Data из облака

Для бизнеса:

  • Начало работы с Big Data/запуск нового проекта с минимальными затратами и минимальным набором собственных компетенций. Благодаря возможностям облачных сервисов и оплате только используемых ресурсов в течение периода использования можно избежать серьезных инвестиций в создание инфраструктуры для проверки бизнес-гипотез и выявления факторов эффективности.

  • Платформа on-premise с высокой ТСО (Oracle, SAP) и, соответственно, высокой стоимостью поддержки и внедрения.

  • Немасштабируемая платформа больших данных (неэффективная реализация бизнес-задач). В случае использования решений, не масштабируемых горизонтально, рано или поздно вы можете столкнуться с тем, что платформа перестает масштабироваться, и вам придется изобретать все новые и новые костыли, чтобы заставить все работать. Архитектура становится все сложнее и в целом может поддерживаться только одной командой, т. е. вы не можете расширять свой функционал. Кроме того, растет стоимость сопровождения и реализации новых бизнес-кейсов.

Для ИТ:

  • Необходимо озеро данных, но не хватает собственных ресурсов. Ресурс для поддержки и озера, и инфраструктуры, необходимой для озера данных для работы с Big Data, можно переложить непосредственно на подрядчика, например, на компанию КРОК. КРОК обеспечивает все уровни поддержки и единую точку доступа для реализации задач поддержки, проработку архитектурных решений, архитектурного сопровождения решения и т. д. Компания КРОК максимально гибко прорабатывает различные варианты взаимодействия, в том числе всего объема поддержки с помощью заказчика.

  • Объемы данных растут, а возможности их обработки ограничены. Интересны случаи гибкой тарификации. По мере роста данных можно, во-первых, горизонтально масштабировать не только программные возможности, но и инфраструктуру. Например, приобретение оборудования всегда занимает время, часто несколько месяцев. В данном случае можно все сделать достаточно оперативно.

  • ИТ-специалисты перегружены задачами по обслуживанию хранилища данных. Если не приходится заниматься задачами поддержки, ИТ-специалисты могут заниматься уже более серьезными задачами для бизнеса, а не рутинной поддержкой. Если вы начинаете работать с Big Data с нуля, вам не обязательно нанимать сотрудников и выстраивать процесс работы с Big Data. Все эти задачи можно переложить на компанию-партнера.

  • Недостаток квалификации для выстраивания процессов работы с Big Data. Если собственных компетенций недостаточно, компания КРОК может подготовить концептуальный проект по реализации бизнес-сценария, чтобы максимально быстро запустить в продуктивное использование.

  • У команды недостаточно компетенций для работы с open source.



Преимущества облачной платформы больших данных

  • Сокращение time-to-market и быстрый старт проверки гипотез после внедрения необходимой инфраструктуры и оптимизации бизнес-процессов.

  • Финансовая выгода до 60% благодаря анализу рынка и оптимизации бизнеса (согласно информации из открытых источников и результатам проектов КРОК).

  • Быстрый старт проектов без больших инвестиций в оборудование.

  • Гибкая платформа с гибким биллингом.

  • Строгий SLA провайдера — поддержка платформы и инфраструктуры Big Data, т.е. независимость от собственных ресурсов, отсутствие необходимости мотивировать ИТ-персонал и т. д.

  • ИТ-персонал освобождается от рутинных задач, а затраты на обслуживание сокращаются почти в 3 раза (по результатам пилотных проектов КРОК Облачные сервисы).

  • Ускорение создания аналитических отчетов и, соответственно, скорости принятия бизнес-решений.

  • Быстрое масштабирование платформы с оплатой по факту использования ресурсов.



КРОК Облачные сервисы — сильный партнер в области облачных сервисов

  • КРОК Облачные сервисы работает на рынке c 2009 года, обслуживает более 550 заказчиков, предлагает круглосуточную поддержку 7 дней в неделю.

  • КРОК Облачные сервисы занимает первое место по качеству облачных сервисов в рейтинге Cnews 2020 года.

  • КРОК Облачные сервисы предлагает собственную сеть ЦОД уровня Tier III Gold.

  • SLA — 10 минут (компания быстро подключается к решению бизнес-задач).


Общие вопросы и ответы

В каких отраслях отмечается наибольший спрос на проекты, связанные с большими данными?

Александр Тимчур. Спрос на технологии для обработки больших данных растет там, где есть такие данные, а также потребности и деньги для их обработки. На первом месте — финтех. Второе место, по моему мнению, занимает ритейл. На третьем месте — госорганизации, как это ни странно.

Аналитика больших данных понемногу внедряется и в промышленности. При этом основной проблемой, с которой сталкиваются предприятия, разбросанные по всей стране, является сложность получения от предприятий данных в едином формате, потому что каждое предприятие пользуется своей экосистемой. Могут ли в этом помочь большие данные или необходимо сначала унифицировать разные системы?

Руслан Султанов. У нас достаточно большой опыт работы именно с проектами на промышленных предприятиях. Когда мы приходим к заказчику, и нам необходимо начать реализацию проекта и консолидировать данные на некой единой аналитической платформе, мы сталкиваемся именно с необходимостью унификации данных. Это классическая задача. У каждого предприятия в той или иной мере существует потребность в интеграции, и мы с коллегами создаем подобные решения и интегрируем данные. При этом одна и та же сущность может быть по-разному представлена в разных учетных системах, и сопутствующая типовая задача в рамках наших проектов часто заключается в унификации такой сущности, т. е. приведении ее к единому целевому формату. Мы помогаем предприятиям решать такие задачи, используя различные инструменты.

Последние несколько лет мы слышим лозунг, что данные — это новая нефть. Чем так ценны данные, и как их монетизировать?

Павел Егоров. Данные это действительно новая нефть, потому что на основе данных можно разрабатывать очень много крутых штук, которые будут помогать бизнесу. Например, в промышленности это могут быть решения промышленной аналитики, которые позволяют строить аналитические дашборды и исследовать эффективность технологического процесса в целом или производственного процесса того или иного подразделения, т. е. собирать аналитику производственного процесса с разных сторон. Поскольку источников данных, например, цехов очень много, часто необходима общая аналитика.

В банках мы часто мы встречаемся с кейсами, когда большие данные используются, чтобы предлагать банковские продукты для потенциальных клиентов.

В ритейле большие данные используется для формирования ассортиментной матрицы и прочих предложений. Так что большие данные — это действительно новая нефть, и они позволяют повысить эффективность бизнес-процессов компании.

В новостях часто говорят о том, что многие компании сейчас строят так называемые озера данных. Чем озера данных отличаются от больших данных? Это составляющая больших данных или есть какие-либо отличия?

Александр Тимчур. Озера данных — это составляющая часть больших данных. Особенность озер данных заключается в том, что они предназначены для сбора разнородной информации — структурированной или неструктурированной. Поскольку появляется потребность сохранять неструктурированные данные без возможности разобраться в структуре до сохранения, важным свойством озер данных является именно изменение парадигмы работы с данными: сначала мы сохраняем данные, а потом начинаем разбираться в них. Таким образом, озера данных позволяют «прикопать» сейчас то, что мы получили, разобраться с тем, как это использовать, построить промышленные сервисы и, наконец, встроить данные из озер в инфраструктуру.

Чем отличаются озера данных от хранилищ данных?

Александр Тимчур. Озера данных — это не хранилища, и часто случается, что озера данных превращаются в болото. Разница заключается в том, что озера данных — это место, куда сохраняются любые наборы данных, которые могут дублироваться, и единая версия правды создается уже после сохранения. В хранилище изначально сохраняется единая версия правды — структурированная информация без дублей. Во-вторых, хранилища строятся на регламентных процессах, и информация в хранилища поступает исключительно из проверенных источников, которыми управляет исключительно ИТ-служба предприятия. Сохранить информацию в озере данных, обработать ее и подготовить витрины может фактически любой сотрудник, который имеет такое право. Применяется парадигма service preparation, когда сотрудники сами разбираются в данных и готовят из них некие результаты в виде витрин или автосетов. Итак, разница заключается в типах данных, различной нагрузке, различном применении, различных паттернах работы и вовлечении пользователей в процесс обработки данных.

31 января 2022
НАЦ «Информзащиты» провел аттестацию «КРОК Облачные сервисы» на соответствие требованиям к обработке персональных данных
30 декабря 2021 года команда КРОК Облачные сервисы получила аттестат, который подтверждает высший (первый) уровень защищенности облачной платформы для обработки любых типов персональных данных.
2 минуты
866
20 мая 2021
CROCS повышает скорость работы 1С в Облаке КРОК
Российское подразделение компании Crocs, мирового лидера по производству комфортной повседневной обуви для женщин, мужчин и детей, теперь использует Облако КРОК для надежной, производительной работы системы 1С и ряда инфраструктурных сервисов.
2 минуты
1421
scrollup