Оптимизируй и управляй: как работать с большими данными в облаке?

23.01.2024

478

22 минуты

Содержание:

1. Спикеры
2. Запись митапа
3. Трудности проектов построения корпоративного хранилища данных и решение КРОК
4. Цифровая аналитическая платформа
5. Корпоративное хранилище Arenadata DB
6. Кейсы миграции с SAP BW
7. Фреймворки для оптимизации работы с данными
8. BI: аналитика и визуализация данных на базе Apache Superset
9. Облако КРОК – инфраструктура для больших данных
10. Вопросы и ответы

Рост объемов информации, развитие технологий хранения и интеллектуальной обработки данных привели к тому, что многие компании осознали важность не только сбора, но и всестороннего анализа big data для получения бизнес-преимуществ.

Вместе с тем бизнес часто сталкивается с недостатком ресурсов и компетенций для решения задач больших данных. Кроме того, современные реалии диктуют необходимость искать замену зарубежным продуктам. Здесь на помощь приходят комплексные российские системы и облачные сервисы.

На онлайн-митапе эксперты КРОК Облачные сервисы, К2Тех и Arenadata обсудили, как сделать большие данные эффективным инструментом для бизнеса и как в этом поможет облачная платформа.

Предлагаем вашему вниманию запись и расшифровку митапа.

Спикеры

Александр Фикс
Менеджер по развитию бизнеса
КРОК Облачные сервисы

Павел Егоров
Менеджер по развитию решений по промышленной аналитике
К2Тех

Антон Коваленко
Руководитель направления продуктового маркетинга
Arenadata

Запись митапа

Александр Фикс. Сегодня мы поговорим:

о комплексных проектах по построению корпоративного хранилища данных,
о платформе аналитики на базе облачной платформы, об ELT-фреймворках, которые оптимизируют работу с данными и извлечение данных из источников,
о корпоративном хранилище Arenadata DB, о BI-системе, которую мы предлагаем в комплексных проектах,
и о нашей облачной платформе как инфраструктуре для больших данных.

Трудности проектов построения корпоративного хранилища данных и решение КРОК

построение корпоративного хранилища данных и решение КРОК

Александр Фикс. Одной из первостепенных проблем является скорость — КХД надо внедрять быстро. Такие проекты могут длиться полгода-год, но всегда нужно стремиться максимально сократить пилотную часть и переходить к анализу продуктивных данных. Однако для быстрого внедрения необходимы ресурсы и время. В текущей ситуации CDO и CIO должны решать огромное количество задач. Например, по-прежнему актуальна локализация инфраструктурных сервисов и бизнес-систем. Найти возможность для реализации проектов КХД не всегда просто.

Важный вопрос — стоимость проекта. Если компания будет размещать инфраструктуру on premise, потребуется оборудование. Даже в крупных компаниях, располагающих свободными ресурсами, в 90% случаев эти ресурсы уже зарезервированы под масштабируемость текущих проектов, поэтому нелегко выделить оборудование и лицензии для проекта КХД. К тому же выгода проекта по большим данным, если судить по статистике и отзывам клиентов, не очевидна, потому что часто непонятно, насколько такая аналитика поможет бизнесу и как она на него повлияет. Мы часто слышим от клиентов, что это — «прыжок веры», и компания сначала «прыгает», а потом уже разбирается, как извлекать пользу из данных. Получается, что стоимость такого проекта высокая, а преимущества не очевидны.

Помимо этого, если реализовывать проект самостоятельно, потребуются компетенции и опытная команда для внедрения и поддержки КХД: архитектор, дата-инженеры и т. д. На найм хорошего архитектора с опытом и высоким уровнем компетенций уйдет не меньше полугода. И, например, не всегда очевидно, зачем ритейлеру выращивать команду дата-инженеров, если аналитика данных или построение КХД не является основным бизнесом.

Часть заказчиков по-прежнему используют зарубежные решения КХД, но рано или поздно им придется мигрировать на отечественные, потому что, с одной стороны, на этом настаивают регуляторы, а с другой не понятно, что делать с текущими решениями. Их необходимо масштабировать, но купить новые лицензии и получить поддержку вендора невозможно, так же как гарантировать уровень сервиса и компетенции возможного подрядчика.

В настоящий момент на рынке КХД много болезненных проблем. КРОК предлагает комплексное решение, которое охватывает максимальный спектр задач — от источников данных до дашбордов и визуализации аналитики для конечных пользователей. Все это, включая инфраструктуру, лицензии и поддержку, предоставляется как сервис, поэтому клиент может не заботиться об экспертизе в построении КХД и освобожден от капитальных затрат, нужно просто ежемесячно оплачивать стоимость сервиса. Кроме того, мы разворачиваем дополнительные мощности в облаке и активируем лицензии за считанные часы, что обеспечивает быстрый старт проекта, а также легкую масштабируемость.

Корпоративное хранилище данных

Цифровая аналитическая платформа

Павел Егоров. Если необходимо начать управлять бизнесом на основе данных, чтобы повысить его прозрачность, встает вопрос об аналитической платформе. Аналитическая платформа — это не просто КХД, а система, которая решает разнообразные задачи.

Цифровая аналитическая платформа

Предоставление единой точки доступа к цифровым сервисам и данным, будь то отчетность, предиктивные модели или сервисы, которые помогают оптимизировать тот или иной бизнес-процесс. Благодаря единой точке доступа бизнес получает непротиворечивые консистентные данные в хранилище.
Интеграция и сбор данных. Чтобы загрузить данные в аналитическое хранилище, необходимо интегрировать источники. Здесь используются инструменты от Arenadata, а также обвязка этих инструментов и визуальный интерфейс — наши фреймворки, которые позволяют настраивать подключение к источникам, определять, какие данные необходимо загрузить в хранилище, и загружать информацию в слой непротиворечивых консистентных данных.
Обработка данных после интеграции и загрузки в единую точку доступа, чтобы определить расчетные показатели, необходимые для принятия бизнес-решений. Обрабатывать данные можно на базе хранилища или использовать наш отдельный фреймворк. Если необходимо обрабатывать данные в режиме, близком к реальному времени, можно быстро посчитать формулы на Spark и загрузить результат в аналитическое хранилище на базе Greenplum.
Сервисы аналитики данных (BI) подключаются после того, как все данные загружены в единую точку доступа. Мы видим тренд на использование в аналитических платформах инструмента Superset в качестве замены западных решений. Это BI-система open source с хорошей визуализацией, богатой функциональностью и, самое основное, большим количеством коннекторов для различных сценариев интеграции с аналитической платформой.
Следующий шаг после получения красивой аналитики и дашбордов — использование цифровых инструментов. Мы можем подключать наши математические модели к единой точке доступа, обучать их на базе КХД, можем выстроить поток данных в режиме, близком к реальному времени, и предоставлять предиктивную аналитику и рекомендации для улучшения бизнес-процессов.

Рассмотрим, как это реализуется на практике.

Аналитическая платформа

Источники данных бывают различных типов, поэтому мы используем инструменты для извлечения данных в режиме пакетной загрузки (ETL) и в режиме потока (Streaming), например, для данных телеметрии. Для стриминга используются NiFi и Kafka.

Если требуется подключить реляционный источник данных, забрать пакет из ERP-системы или, например, системы лабораторных анализов, мы используем NiFi для оркестрации и PXF-коннектор от Greenplum и Airflow. На текущий момент логика мониторинга и исполнение job-ов по загрузке данных реализованы в Airflow. С помощью визуального интерфейса можно настраивать правила загрузки, например, выбирать таблицы для загрузки и т. д.

Для обработки данных предназначены компоненты Arenadata Hadoop. Мы используем исключительно Spark, для того чтобы можно было в режиме, близком к реальному времени, рассчитать показатели и обеспечить горизонтальную масштабируемость расчетов. Например, если нужно посчитать 100 000 показателей в секунду, берется один сайзинг, а если 1 000 000, сайзинг увеличивается в несколько раз, и мы считаем другой объем данных в единицу времени. После этого мы все загружаем в единую точку доступа, для чего используется Arenadata Greenplum. Если необходимо ускорить аналитику или предоставить доступ к витрине большому количеству потребителей, например, более 100, то нужно также использовать ClickHouse в тесной интеграции с Greenplum через PFX-коннектор, либо можно перекладывать данные из ClickHouse в Greenplum и наоборот.

Потребители данных — это системы BI-аналитики, например, Superset в Облаке КРОК, а также ML-модели, которые вы можете запускать на базе дата-платформы. Для оркестрации запуска ML-моделей можно пользоваться решениями на базе Kubernetes, в частности, решением нашего партнера ArenaSoft.

Корпоративное хранилище Arenadata DB

Антон Коваленко. Я расскажу про один из ключевых продуктов компании Arenadata — Arenadata DB и про несколько кейсов успешной миграции, которые произошли за последние 2 года.

Предлагаю мысленно вернуться на 2-3 года назад и вспомнить, какие технологии и продукты использовались в ИТ-ландшафте компаний. Я условно разделил их на две ниши: небольшие базы данных для КХД объемом до 3 ТБ и базы данных для крупных КХД объемом примерно от 3 до десятков сотен ТБ.

Рынок небольших баз данных был поделен между Oracle, Microsoft и SAP с продуктом SAP BW. Эти же вендоры были представлены и в нише больших КХД со своими специализированными продуктами для хранения и обработки больших данных, например, Oracle Exadata, SAP HANA и т.д. В этой нише также были представлены компании, которые специализировались на решениях для больших данных, например, Teradata и Vertica.

Однако после февраля 2022 года зарубежные вендоры покинули российский рынок. Из чего в текущих реалиях может выбирать заказчик при развертывании небольшой базы данных, небольшого КХД или хранилища под большие объемы данных?

В нише небольших СУБД осталась одна зрелая, сопоставимая по функциональности и распространенная в российском комьюнити технология — PostgreSQL — и многочисленные вариации ее сборок от российских вендоров, в том числе и наш продукт Arenadata Postgres. На рынке решений для больших КХД единственная зрелая технология, которая имеет большое комьюнити в России, в том числе и усилиями компании Arenadata, это open source-СУБД Greenplum, на базе которой реализован один из ключевых продуктов компании — Arenadata DB. Мы позиционируем ADB в качестве основного компонента для реализации больших корпоративных хранилищ данных.

Если раньше проекты миграции с продуктов зарубежных вендоров на их российские аналоги были продиктованы регуляторными требованиями или экономическими соображениями, то с февраля прошлого года это стало мейнстримом, а для многих компаний — вопросом выживания. Им грозила приостановка бизнеса, поскольку они были очень сильно завязаны на зарубежные ИТ-решения и данные.

Количество задач по миграции возросло кратно. Мы разрабатываем продукты на базе open source и стараемся довести решения open source до уровня enterprise ready, чтобы процесс миграции был безболезненным и чтобы заказчики чувствовали, что не только не теряют важные функции продуктов больших зарубежных вендоров, но, наоборот приобретают новые возможности.

Поясню на примере проекта Greenplum, что именно мы делаем и с точки зрения сервисов, и с точки зрения функциональности, и каким образом дорабатываем продукты open source, чтобы они соответствовали enterprise-уровню.

Отличия в сборках Greenplum

Реализована единая система управления, инсталляции и мониторинга как для данного продукта, так и для всей экосистемы продуктов Arenadata.
Разработаны специализированные инструменты

ADB Control для мониторинга и управления запросами внутри базы данных;
Arenadata DB Backup Manager (ADBM) для управления резервным копированием в СУБД. Мы также разработали механизм создания бинарных или физических бэкапов, что позволяет создавать DR-кластеры — это была функция «из коробки» в таких решениях как, например, Oracle.

Дорабатываем либо разрабатываем с нуля высокопроизводительные коннекторы, так как для больших кластерных систем очень важно отсутствие узких мест в их взаимодействии между собой.
Предоставляем на русском языке документацию и техподдержку 8×5 и 24×7, обучаем специалистов. Наш учебный центр готовит около тысячи специалистов ежегодно как для заказчиков, так и для партнеров, которые занимаются внедрением наших решений. Мы предлагаем разноплановое обучение. Например, по Greenplum есть курсы для администраторов, для разработчиков и аналитиков.
Предлагаем профессиональные сервисы (архитектурный надзор, консалтинг, Technical Account Management, DB-as-a-Service), к которым привыкли заказчики крупных международных вендоров.

При этом мы не забываем и про open source. В прошлом году по объему коммитов в ядро проекта Greenplum наша компания стала лидером в комьюнити (без учета Pivotal, разработчика этой технологии).

Кейсы миграции с SAP BW

Многим хорошо известна архитектура SAP BW/4HANA.

Вариантом миграции с этого решения является архитектура, в которой Arenadata DB выступает ядром КХД.

ядро КХД

В зависимости от задач данная архитектура дополняется другими продуктами Arenadata, например, Hadoop для хранения данных или аналитики больших данных, Arenadata QuickMarts для витрины и BI-аналитики, а также ELT-фреймворком, разработанным нашими партнерами в КРОК, для управления потоками данных. Эта задача неоднократно прорабатывалась на различных проектах миграции. Рассмотрим несколько комбинированных кейсов миграции с продуктов SAP или Oracle с использованием облачных технологий.

Миграция из SAP HEC в on premise

Это кейс одного из ведущих российских ритейлеров. У коллег была реализована финансовая отчетность и финансовое закрытие в облачном SAP — SAP HEC (HANA Enterprise Cloud). После февраля 2022 они получили уведомление SAP об отключении ЦОД в России через несколько месяцев. Коллегам пришлось в крайне напряженном режиме решить сразу несколько задач. Первая — забрать большой объем данных (несколько сотен терабайт) из ЦОД, чтобы их не потерять. Нужно было оперативно найти инфраструктуру и перенести все функции, которые были реализованы в облаке SAP. Коллеги справились, хотя речь шла об очень ограниченном периоде времени. Все было сделано меньше чем за год.

Особо критичные данные оставили on premise в SAP, а оперативную аналитику перенесли на новый технологический стек — на наш продукт ADB в комбинации с ClickHouse, после чего у них появились дополнительные функциональные возможности и больше гибкости при работе с этими данными. Кроме того, коллеги снизили TCO и обезопасили себя от потенциальной потери данных и зависимости от зарубежного облачного вендора.

Слайд13.JPG

Миграция из on premise в облако

Технологический стек одного из крупнейших в России B2B-ритейлеров состоял из решений SAP BW и КХД на Oracle. Когда коллеги решили уделить больше внимания веб-аналитике, оказалось, что данные веб-аналитики занимают в хранилище на Oracle большую часть дискового пространства, а задачи решаются медленно и неэффективно.

Коллеги проанализировали несколько вариантов и выбрали технологию Greenplum от Arenadata. Мы предоставили продукт на базе Greenplum с поддержкой и всеми необходимыми сервисами. После событий февраля 2022 года у компании возникли проблемы с поставкой оборудования, поэтому было принято решение мигрировать в облако.

Arenadata DB в облаке

В облаке была оперативно развернута Arenadata DB, в которую перенесены все данные. Протоколы для сжатия в нашем продукте были более эффективными, чем у Oracle, поэтому объем данных и дискового пространства уменьшился. Кроме того, снизилась TCO, появилось больше возможностей и гибкости в работе с данными. И в разы выросла производительность по сравнению с тем, что коллеги получали на классической инфраструктуре on premise на базе Oracle. Проект был реализован меньше чем за год.

Миграция из облака в облако

Третий кейс — миграция из облака Azure в российское облако. Российская «дочка» глобальной FMCG-компании после февральских событий была вынуждена технологически отделиться от материнской компании, то есть перенести свои данные и реализовать всю функциональность, которая была доступна в Microsoft Azure.

Миграция с облака Azure в облако РФ

В этом случае коллеги также воспользовались нашими продуктами и развернули их в российском облаке, использовав практически весь стек технологий Arenadata, включая Arenadata DB в качестве ключевого элемента для реализации КХД. При этом удалось не только полностью повторить всю функциональность из Microsoft Azure, но и расширить ее за счет использования новых продуктов Arenadata для управления данными.

Таким образом, коллеги обеспечили независимость от материнской компании и международного вендора и благодаря этому смогли существенно сократить time to market. Этот проект также был реализован меньше чем за год.

Подчеркну, что задачи миграции с таких зарубежных решений, как Oracle, SAP и т. д., не должны вас пугать. Этот путь уже хорошо изучен, накоплен опыт и известны эффективные решения.

Фреймворки для оптимизации работы с данными

Павел Егоров. Наша команда занимается стеком технологий big data с 2013 года, а проектами по внедрению Greenplum с 2015-го, начинали еще тогда, когда это был проприетарный продукт — программно-аппаратный комплекс компании Pivotal. Мы накопили большой опыт и поняли, что некоторые задачи повторяются из проекта в проект. Для того чтобы выполнять проекты более эффективно и быстро, мы решили разработать инструмент для оптимизации загрузки данных и формирования детального слоя.

Так появился первый фреймворк.

Аналогичные причины повлияли на создание второго фреймворка — для расчетов. Когда мы поняли, что считать на Spark в режиме, близком к реальному времени, простые формулы и арифметические выражения — стандартная задача, мы решили, что необходим такой инструмент. Так и родились наши фреймворки.

ELT-фреймворк

Хранимые процедуры для загрузки данных написаны на Greenplum. Загрузка осуществляется с помощью PXF-коннектора к внешним источникам. Основная нагрузка идет на Greenplum.

Для оркестрации используется NiFi. Реализованы различные механизмы извлечения и обновления данных в аналитическом хранилище. Все эти конструкции — это кодогенерация, и все процессы можно адаптировать в рамках проекта или самостоятельно, потому что они поставляются в виде открытых исходных кодов, то есть скриптов в NiFi, которые можно править.

Для быстрого обнаружения ошибок мы используем много метрик, в том числе логов, которые собираются нашими фреймворками. Поэтому всегда можно оперативно выяснить, что произошло. Мы собираем метрики по объему данных в таблицах на системах-источниках, по объему данных в таблицах в сыром слое, в детальном слое. Кроме того, доступны стандартные инструменты мониторинга загрузки от Arenadata, которые позволяют локализовать проблемы, в том числе проблемы с производительностью. В целом мы предлагаем богатый набор функций «из коробки».

Методология Data Vault

Одна из основных частей фреймворка — это не только загрузка данных в сырой слой из источников «как есть», но и автоматизация формирования детального слоя по методологии Data Vault. Мы выбрали именно Data Vault, потому что все объекты, которые там создаются, регламентированы и хорошо поддаются автоматизации и кодогенерации.

Это современная методология, которая применяется многими компаниями, например крупными финтех-компаниями. У нас также есть заказчики в промышленности и в ритейле, которые внедряли аналитическое хранилище с детальным слоем по методологии Data Vault.

Один из ключевых моментов заключается в том, что Data Vault строится по принципам append-only. Применение только вставки без изменений и удалений — хорошая практика для Greenplum.

пример интерфейса ELT-фреймворка

Выше представлен пример интерфейса и формы настройки подключения. Непосредственно из интерфейса можно настроить PXF-коннектор без написания скрипта. Можно настроить, куда подключиться, и сформируется PXF-профиль для подключения. Есть возможность настройки механизма загрузки — полной, инкрементальной с настройкой инкрементов, а также настройки source to target, то есть соответствия полей между источником и приемником.

Real-time фреймворк

Real-time фреймворк построен на базе Spark и работает на базе Hadoop. Для оперативного кэша мы используем Hbase, а Kafka — для получения данных для расчетов и последующей выгрузки обратно. Мы выгружаем в Kafka или записываем в Greenplum.

Суть фреймворка заключается в том, что есть интерфейс, где можно задать формулу. Эта формула записывается непосредственно в хеш фреймворка. Дальше есть определенный job, написанный на Spark, который парсит формулу, понимает, какие показатели требуются и что с ними нужно сделать, отслеживает изменения этих показателей и, в случае изменений, выполняет пересчет заложенных формул. Эти расчеты записываются в Greenplum.

Поддерживаются стандартные арифметические формулы с математическими конструкциями (скобками и математическими выражениями), а также контроль на нормативное значение (чтобы значение не превышало/было не меньше заданного уровня или входило/не входило в заданный диапазон). Кроме того, отслеживается корректность поступающих данных, например, данных по скользящей средней и значительные отклонения. Это нужно для данных, которые приходят с телеметрии, потому что с телеметрией бывают проблемы, и такие данные желательно отслеживать в режиме онлайн. Базовый механизм в рамках фреймворка также доступен.

Резулбтаты внедрения фреймворков

Итак, какого эффекта мы добились? Во-первых, это снижение требований к команде развития аналитической платформы. Даже если все источники были подключены в рамках проекта, появляются новые источники, новые данные и новые таблицы в старых источниках. Чтобы поддерживать управление на основе данных (data-driven), необходимо подключать все или большинство источников, а это большой объем работы. Использование фреймворков позволяет не привлекать к простым задачам экспертов, а отдавать их аналитикам, которые могут даже не знать технологический стек и какие скрипты пишутся в Greenplum или NiFi. Они просто забивают мэппинг в интерфейс фреймворка, определяющий, какие таблички нужно загрузить и куда их положить, настраивают расписание загрузки, паттерны и т. д. В итоге через 5 минут в сыром слое оказываются данные.

Это также дает эффект сокращения time to market.

Эффекты от внедрения аналитической платформы

Рассмотрим пример. Сотруднику нужны данные. Он сначала выгружает информацию из одной учетной системы, потом из другой смежной системы, сверяет все в Excel, сводит этот Excel. На подготовку хорошего отчета для руководителя сотрудник тратит минимум 2 дня.

Благодаря использованию нашего подхода и инструментов Arenadata можно свести все данные в единую точку доступа, на уровне платформы обеспечить консистентность и качество этих данных, сделать расчеты на базе фреймворков, предоставить витрины для BI-системы и получить результат за 5 минут. Подключение источников согласовывать не нужно, потому что все данные уже есть, все интеграционные каналы уже согласованы с внутренними службами и с владельцами систем. Согласование необходимо, чтобы добавить новые данные, но и это происходит быстро. Таким образом, сокращается время, во-первых, на получение данных, поскольку бизнес-пользователю не приходится выгружать и сводить данные в Excel, и, во-вторых, если мы говорим о математических моделях, на согласование получения данных и на проработку интеграционных протоколов, уже сделанную в рамках предыдущих интеграций. Любые дополнения и дозагрузки занимают минуты или максимум часы, но не дни и не месяцы.

Таким образом, можно прогнозировать, какие задачи в какие сроки будут выполняться, и вводить SLA для команды поддержки. Это набор обычных операций (загрузка, расчет, подключение BI-дашборда), сроки выполнения которых можно оценить.

Наконец, очень важно соблюдение архитектурных принципов, чтобы исключить зависимость от конкретных разработчиков, у каждого из которых может быть свое видение. Все хранилище разработано в едином стиле, чтобы можно было легко во всем разобраться; есть документация, позволяющая понять правила создания и ведения новых сущностей, витрин и т. д.

Кроме того, обеспечивается контроль архитектурных паттернов. За счет того что оркестрация расчетов и загрузки происходит на базе фреймворка, много моментов контролируется именно на базе фреймворка, и он просто не даст сделать что-то непонятное. Это повышает прозрачность разработанного аналитического хранилища.

BI: аналитика и визуализация данных на базе Apache Superset

Александр Фикс. Мы рекомендуем в комплексных проектах по аналитической платформе использовать наш BI-сервис на основе open source-решения Apache Superset.

Слайд28.JPG

Мы обладаем хорошими компетенциями по этой системе и обеспечиваем ее поддержку. Система несложная и закрывает все требования наших комплексных проектов, включая:

интерактивные дашборды для визуализации и анализа данных;
набор инструментов для создания графиков, таблиц, фильтров;
шаблоны, с помощью которых можно выводить эти графики и таблицы по заданным параметрам;
удобный интерфейс.

Интерфейс хорошо знаком пользователям BI-системы Tableau, обучение Superset не займет много времени. Кроме того, система позволяет подключать различные источники, хотя нас больше всего интересовала интеграция с Arenadata DB. Эти решения хорошо работают вместе.

Apache Superset

Superset предлагает более 50 стандартных визуализаций, благодаря которым можно строить удобную аналитику для конечных пользователей.

Облако КРОК – инфраструктура для больших данных

Облако КРОК является фундаментом комплексного проекта КХД, на его базе разворачивается цифровая аналитическая платформа.

croc cloud

Облачная платформа КРОК — наша собственная разработка на базе ПО с открытым кодом. Реализована на базе 3 дата-центров КРОК, расположенных в Москве. Это три зоны доступности — Availability Zone (AZ). Облачная платформа входит в Реестр российского ПО и не привязана ни к каким вендорам программного обеспечения или оборудования. Поэтому с февраля 2022 года мы не сталкивались с какими-либо сложностями, и в будущем я их также не предвижу.

Развитие, сопровождение, разработка новых функций — все делается нашими собственными силами. Большая команда экспертов готова оказывать поддержку миграции систем в облако.

В каких случаях компаниям, которые планируют проект корпоративного хранилища данных, стоит обратить внимание на российское облако? Облачная платформа помогает бизнесу:

начать строить КХД с минимальными затратами денег и собственных ресурсов;
продолжить текущий проект, если возникли проблемы с модернизацией оборудования;
масштабировать существующее КХД (это может быть сложно, если вы использовали зарубежное решение);
повысить производительность аналитической обработки больших данных.

С точки зрения ИТ развертывание КХД в облаке будет полезно, если

в компании использовалась платформа on premise на базе зарубежных решений (Cloudera, Oracle, SAP, Teradata, Microsoft SQL и др.), рано или поздно придется мигрировать на отечественную платформу;
ИТ-специалисты перегружены задачами по обслуживанию хранилища данных или не хватает собственных компетенций в этой области;
нужно перенести фокус с поддержки КХД на аналитику данных; например, ИТ-специалистам в ритейле или финансовом секторе нецелесообразно отдавать много сил построению, поддержке и администрированию КХД, потому что основной бизнес ждет от них полезную аналитику;
нужны дополнительные навыки работы с open source — здесь снова речь о нехватке компетенций, потому что системы open source часто требуют долгой и сложной подготовки специалистов.

Решить все эти задачи позволяет выбор облачной платформы в качестве инфраструктуры для КХД.

Преимущества облачной платформы КРОК

В работе с большими данными Облако КРОК обеспечивает следующие преимущества.

Нагрузочное тестирование совместно с инженерами Arenadata показало, что облачная платформа подходит для размещения Arenadata DB и работает в соответствии с заявленными показателями.
Облако обеспечивает быстрый старт проекта. Предоставление необходимых вычислительных ресурсов и лицензирование по облачной модели SPLA позволяют запустить проект за несколько недель без вложений в оборудование.
Масштабируемость: для расширения инсталляции мы просто добавляем сегмент-ноды, развернутые на виртуальных машинах, лицензируем их и запускаем за считанные часы.
С учетом ТСО облачная модель приносит до 60% финансовой выгоды, поскольку нет необходимости тратить большой бюджет здесь и сейчас на закупку оборудования и лицензий, а также наращивать свой штат дата-специалистов. Мы предоставляем SLA и поддержку платформы и инфраструктуры, а ваш персонал будет освобожден от рутины сопровождения инфраструктуры КХД и сможет заняться профильными задачами, что позволит оптимизировать ФОТ.
Облако КРОК и ADB внесены в Реестр российского ПО, ELT-фреймворки являются собственной разработкой К2Тех. Таким образом, этот комплекс полностью отвечает требованиям перехода на отечественные решения.

Вопросы и ответы

Вопрос. Вы проводите обучение по Arenadata и Superset?

Александр Фикс. Обучение по Arenadata проводится.

Павел Егоров. Обучение по Superset возможно только в рамках проектов, как один из этапов реализации наряду с внедрением, настройкой и поддержкой. Отдельно мы такую услугу не предоставляем, хотя в будущем планируем.

Вопрос. Есть ли возможность преобразовать SAP BO Universe в витрину данных или что-то аналогичное?

Антон Коваленко. Я сегодня рассказывал про кейс миграции Universe из SAP BO в SAP BW на стек Arenadata + BI (кейс миграции из облака в on premise). Более детально про этот кейс можно послушать на нашем YouTube-канале в выступлении на клиентской конференции Arenadata. Коллеги успешно справились с задачей миграции Universe. Все технологии SAP были перенесены, то есть проведен необходимый рефакторинг.

4 апреля 2024

Счастье клиента в B2B: как предвосхищать ожидания и поднимать продажи

В выпуске#12 видеоподкаста «Откровенно об ИТ-инфраструктуре» обсудили, что должен знать и уметь customer success manager, почему его задачи нельзя путать с сервис-менеджментом и тем более с техподдержкой, какие приемы и практики помогают в достижении успеха клиента и почему методология customer success важна любым менеджерам, а не только тем, кто работает с клиентами компании.

В гостях Алсу Бикбаева, ATTERA Consulting, и Ренат Сайфутдинов, КРОК Облачные сервисы.

1 минута

234

13 февраля 2024

Частное облако и как его правильно готовить

В выпуске#11 видеоподкаста «Откровенно об ИТ-инфраструктуре» обсудили, что такое частное облако, в чем его отличия от публичного, когда и кому оно необходимо, какие существуют подходы к построению частного облака и управлению гибридной инфраструктурой.

В гостях Павел Горюнов, К2Тех и Сергей Мерещенко, Orion soft.

1 минута

424

27 декабря 2023

Цифровизация-2024: путь к новой эффективности

В выпуске#10 видеоподкаста «Откровенно об ИТ-инфраструктуре» обсудили, в чем особенности цифровизации-2024, какие вызовы стоят перед российскими компаниями и какое место в технологических и бизнес-трендах наступающего года занимает облако.

В гостях Сергей Никитчук, Б1-ИТ, и Екатерина Мелькова, КРОК.

1 минута

796

19 октября 2023

Контейнеры: технологии и процессы глазами разработчика

В выпуске#9 видеоподкаста «Откровенно об ИТ-инфраструктуре» поговорили о роли контейнеров в разработке. Приглашенные эксперты обсудили специфику использования Kubernetes и сокращение time-to-market в контексте контейнеризации.

В гостях Михаил Гудов, Orion soft, и Василий Колосов, Smartex.

1 минута

792

4 октября 2023

Облака и безопасность: дружба против киберугроз

На выпуск#8 видеоподкаста «Откровенно об ИТ-инфраструктуре» мы пригласили суперпрофессионалов из компании «Лаборатория Касперского», чтобы развеять мифы и серьезно поговорить о тенденциях, подходах и технологиях защиты облачных инфраструктур.

В гостях Тимофей Минин, Kaspersky, Петр Богданов, Kaspersky, и Андрей Макаренко, К2 Кибербезопасность.

1 минута

771

8 сентября 2023

Большие данные – большие возможности: как выбрать инфраструктуру для big data

В выпуске#7 видеоподкаста «Откровенно об ИТ-инфраструктуре» обсудили, как решается вопрос выбора инфраструктуры для big data и как подобрать правильные инструменты, чтобы использовать возможности больших данных на полную.

В гостях Антон Близгарев, представитель Arenadata по облачным партнерствам, и Сергей Синагейкин, технический менеджер КРОК.

1 минута

814