Большие данные – большие возможности: как выбрать инфраструктуру для big data
Мнение экспертов

Большие данные – большие возможности: как выбрать инфраструктуру для big data

425
22 минуты

В выпуске#7 видеоподкаста «Откровенно об ИТ-инфраструктуре» обсудили, как решается вопрос выбора инфраструктуры для big data и как подобрать правильные инструменты, чтобы использовать возможности больших данных на полную.

В гостях Антон Близгарев, представитель Arenadata по облачным партнерствам, и Сергей Синагейкин, технический менеджер КРОК.

Запись выпуска


Слушайте выпуск на подкаст-площадках

Приглашенные гости


blizgarev


Антон Близгарев
Представитель Arenadata по облачным партнерствам


sinageikin


Сергей Синагейкин
Технический менеджер
КРОК

Ведущие


Фото Сергей Зинкевич


Сергей Зинкевич
Директор бизнес-юнита
КРОК Облачные сервисы


Фото Александр Фикс


Александр Фикс
Менеджер по развитию бизнеса
КРОК Облачные сервисы

Гость сессии Q&A


vevza.png

Дмитрий Бевза,
ИТ-обозреватель «Российская газета»





Сергей Зинкевич. Когда мы говорим о big data, что мы имеем в виду?

Сергей Синагейкин. Этому термину уже много лет, в Google он упоминается еще с 2008 года. Big data — это набор инструментов и подходов, который позволяет собирать, обрабатывать и интерпретировать данные для конечных потребителей – систем и людей. Поскольку системы-потребители не обладают такими функциями, как системы, относящиеся к big data, они могут обрабатывать меньшее количество данных. Соответственно, в системы-потребители должны поступать сконцентрированные и насыщенные информацией данные.  

Об объемах больших данных можно дискутировать. 10-15 лет назад большим считался объем в сотни гигабайт. Сегодня речь идет о 1-5 терабайтах, а завтра мы, возможно, будем говорить о сотнях терабайт. Может быть Антон как представитель вендора подскажет, за каким объемом обращаются заказчики.

Антон Близгарев.  Самое банальное определение big data — данные, с объемом которых не справляется обычный пользовательский компьютер, и нужны специализированные решения для работы с огромной массой данных. Чем больше данных, тем больше требуется времени для доступа к ним. 

Подход Arenadata к оценке больших данных также меняется со временем. Еще несколько лет назад мы считали большим объем в 3 с лишним терабайт, а сегодня 1ТБ данных достаточно, чтобы мы могли рекомендовать клиенту наши решения.  При этом мы понимаем, что через 1-2 года объем данных заказчика может вырасти очень значительно. 

Александр Фикс. К нам также приходят клиенты с запросом, например, на 300 ГБ.  Клиентам важно уже при таком небольшом объеме данных правильно выстроить все процессы, потому что, когда объем данных вырастет до нескольких терабайт, процесс работы с данными будет очень сложно «починить».

По результатам опроса аудитории подкаста, у 40% объем данных составляет 1-10 ТБ и еще 40% затрудняются ответить. Таким образом, big data начинается с одного терабайта.


Как извлечь ценность из данных?

Сергей Зинкевич. Все говорят, что данные — это новая нефть. Нефть — это прекрасно, но автомобили мы заправляем бензином. Как именно данные превращаются во что-то ценное?

Сергей Синагейкин. Это вопрос комплексного подхода. Если данные просто где-то хранятся, они не приносят пользу. Для того этого из них нужно «вытаскивать» инсайты, зависимости, корреляции и т. д.

Если этот процесс выстроен правильно, он позволяет компании получать единую точку зрения на свой бизнес, а не разрозненную картину по подразделениям или конкретным участникам бизнес-процессов.

Процесс работы с данными должен начинаться с правильного сбора и хранения данных и с их правильной обработки. Для этого необходимо выбирать правильную, то есть масштабируемую инфраструктуру. Мы можем собрать данные и сохранить их в базе данных, но через год, когда объем данных удвоится, может оказаться, что существующее решение невозможно масштабировать горизонтально и сложно — вертикально (в случае использования железных серверов).

Важно правильно планировать сбор и обработку данных на 5-10 лет вперед и задумываться о масштабировании.

Антон Близгарев. В процессе превращения данных во что-то полезное нам помогают новые технологии. Именно благодаря big data появились искусственный интеллект, машинное обучение, нейронные сети, благодаря которым мы можем решать множество задач наших заказчиков. То что раньше казалось фантастикой, стало обыденностью. Например, сегодня даже небольшие или региональные ритейлеры могут использовать систему, которая позволяет отслеживать наличие товара на полке и автоматически размещать заказ, и продавцу остается только положить поступивший товар на полку.  Именно большие данные сделали это повседневной реальностью. 


Сергей Зинкевич. Это улучшает и мой пользовательский опыт, потому что товары всегда на полке.

В каком направлении развивается big data?

Александр Фикс. Во-первых, большие данные становятся все более доступными. Еще 7 лет назад работать с большими данными могли себе позволить только крупные компании, потому что это было связано с большими инвестициями с неопределенным результатом. Благодаря развитию технологий решения big data теперь используют и небольшие компании.

Во-вторых, технологии, которые нас окружают, все чаще основаны на больших данных, включая искусственный интеллект и машинное обучение.  

Сергей Синагейкин. На мой взгляд, есть две глобальные группы заказчиков. Первая — это ИТ-гиганты, крупные банки, телекоммуникационные компании с сильной ИТ-составляющей. Такие компании активно развивают эти технологии внутри, сотрудничая с международными и российскими вендорами. Они задают моду, определяют подход к обработке больших данных.

Вторая группа — компании с не очень сильными ИТ-компетенциями, которые начинают осознавать, что данных собирается много. Это могут быть металлургические или транспортные компании, которые собирают данные об операционной деятельности из ERP, TMS и других систем, а также данные телеметрии технологических процессов, например, с датчиков давления, температуры и т. д. Таким компаниям, чтобы иметь единую точку зрения на свой бизнес, необходимо собирать все эти данные и строить на их основе отчетность и модели для прогнозирования отказов оборудования или планирования ремонта. Поэтому и крупные компании, и компании поменьше начинают активно внедрять хранилища big data, чтобы консолидировать данные из разных систем и использовать их в бизнесе.

Как начать проект big data?

Сергей Зинкевич. Как компаниям подступиться к проектам с большими данными? Как может не самая крупная компания, например, производственная, максимально сократить неопределенность, связанную с таким проектом?

Сергей Синагейкин. Очевидный подход — это пилотирование, в том числе, если компания хочет быстро проверить какую-то гипотезу, например, как будет работать тот или иной стек технологий в существующей инфраструктуре. Компания может развернуться в облаке и пилотировать интеграцию и обработку данных, оценить, насколько быстро обрабатываются используемые в рамках проекта данные, и попытаться масштабировать инфраструктуру на свой промышленный контур с учетом стоимости промышленной лицензии и т. д. Такой подход позволяет оценить, насколько необходимо использование больших данных, и внедрить оптимальную инфраструктуру. 

Александр Фикс. Компания, которая хочет заняться сбором больших данных, в первую очередь должна задаться вопросом: как использовать эти данные и какой результат она хочет получить.

Сергей Зинкевич. Такие компании, как КРОК, помогут создать инфраструктуру, такие вендоры, как Arenadata, помогут с программным обеспечением. А откуда должны появиться основные гипотезы? Аналитик или data scientist остается на стороне заказчика?

Александр Фикс. В бизнес-задачи может погрузиться интегратор, который проведет аудит, проанализирует бизнес клиента и найдет позиции, которые можно улучшить. Кроме того, заказчик может сам развивать компетенции работы с большими данными. Все зависит от размера компании и существующих компетенций. Если растить собственных аналитиков не требуется, можно обратиться к специалистам в этой области. Однако, по моему опыту, очень большим компаниям и менее крупным игрокам по мере роста в любом случае в какой-то момент приходится начинать развивать такие компетенции.

Антон Близгарев. Arenadata готова помогать. У нас есть для этого направление консалтинга.

Сергей Зинкевич. Мне кажется, что это серьезный барьер на старте проекта. Когда ты уже работаешь с большими данными, ты понимаешь, где у тебя болит, с какими данными нужно работать и какие аналитики тебе подходят.  При запуске проекта это может стать серьезным вызовом.

Что анализируем?

Сергей Зинкевич. Какие данные компании обычно анализируют? Это связано с областью деятельности, то есть ритейл анализирует продажи и остатки на складах? Что анализируют другие компании?

Антон Близгарев. Анализируют все, что можно собирать, например, данные CRM и ERP, показатели датчиков, видео, фото и т. д. Анализируются разные данные в зависимости от того, что необходимо получить на выходе.

Желательно собирать все, что можно, потому что это дает большой разбег и возможность выбора результата, который будет получен на выходе. Удалить ненужные данные можно всегда.

Сергей Синагейкин. Кроме того, можно использовать данные из интернета, соцсетей и других открытых источников, потому что данные накапливаются не только внутри компании в результате операционной деятельности, но и у ее клиентов. Такие данные можно использовать, например, для анализа рынка.

Сергей Зинкевич. Промышленные компании, которые собирают данные с датчиков, могут что-то получить из открытых источников?

Сергей Синагейкин. С промышленностью сложнее, потому что основные данные находятся во внутреннем контуре. Но, скажем, в транспортной отрасли очень много данных, которые можно получить извне. Например, железнодорожные перевозчики конкурируют с автомобильными, и, собирая данные о конкурентах, могут планировать загрузку своей сети. 

В этой области очень большое поле для маневра.

Сергей Зинкевич. Есть ли какая-то отраслевая специфика? Чем отличается, например, нефтегаз от ритейла, помимо того что кто-то больше пользуется внутренними данными, а кто-то использует данные из открытых источников?

Антон Близгарев. У всех разные задачи. Задачи сбора данных для производственной компании — повышение эффективности производства, сокращение брака, уменьшение количества травм и т. д., тогда как для ритейла — это увеличение продаж с одной точки, повышение качества продажи основной продукции и т. д. Задач очень много, и все они очень разные. Это хорошая возможность для вендоров в сотрудничестве с партнерами решать задачи наших заказчиков.

Сергей Синагейкин.  У крупных нефтегазовых компаний помимо бизнеса по добыче полезных ископаемых может быть сеть автозаправок, на которых продается не только топливо, но и масла, и сопутствующие товары. Соответственно, компании приходится прогнозировать спрос и выстраивать логистику.

Заказчик проектов big data: кто он? Истории успеха больших данных

Сергей Зинкевич. Откуда берутся проекты по большим данным? Кто в компании, например, занимающейся доставкой и сортировкой продуктов, является заказчиком таких проектов? Как этот человек понимает, что компании нужны большие данные?

Антон Близгарев. На данный момент это, скорее всего, Chief Data Officer, который занимается корпоративным хранилищем данных, работает с данными и решает задачи, которые ставит руководство, подразделения и т. д. К сожалению, таких людей пока мало, и они работают только в крупных компаниях. В остальных решение таких задач ложится на плечи CIO и обычные ИТ-отделы, и ИТ-директорам помимо своих повседневных задач по поддержке и развитию существующей инфраструктуры приходится заниматься big data, экспериментировать, тестировать новые системы и даже заниматься разработкой с использованием больших данных.

Сергей Зинкевич. У наших облачных заказчиков big data — это обычно отдельная вертикаль, которая не всегда подчиняется ИТ-директору.

Антон Близгарев. Соответственно, data scientist — человек, который часто принимает решение о том, что компании необходимо КХД.

Сергей Зинкевич. К слову о росте объема данных – сегодня уже даже в телефоне данных больше, чем раньше было у компаний.

Сергей Синагейкин. Но в телефоне эти данные не нужно обрабатывать, а компании приходится постоянно обрабатывать собранные данные, чтобы извлекать инсайты и делать выводы. Поэтому телефон — это пока еще не совсем big data. Но в будущем, возможно, благодаря облакам и телефон станет инструментом, который сможет работать с большими данными по настоящему.

Александр Фикс. На самом деле компании уже проводят анализ данных на устройствах пользователей, на которых используются облака. Так что наши фотографии – это big data для Google, который совершенно точно занимается сбором и анализом данных пользователей.

Сергей Зинкевич. Все мы сейчас собираем и анализируем данные. Приведите примеры, которые продемонстрируют, что большие данные действительно улучшают нашу жизнь.

Сергей Синагейкин. Один из наших заказчиков собирал данные из множества систем, включая TMS для логистики, ERP и т. д.. Им стало жизненно важно всю эту информацию консолидировать в одном месте, потому что существующие базы данных, аккумулирующие данные из различных источников, не справляются. 

Консолидация данных — это сложный процесс, поскольку необходимо проанализировать большое количество источников, понять направление интеграции, определить систему хранения и предоставления данных в виде сервиса. 

Заказчик обратился к нам для аудита своих процессов. В рамках аудита мы все посчитали, написали ТЗ и согласовали объем работ. На втором этапе проекта началось внедрение. После того как все данные из всех источников были собраны, были построены витрины для пользователей BI-системы и витрины для систем, потребляющих данные, потому что, например, ERP необходимы данные по координатам автомобилей, чтобы формировать заказы на доставку или прогнозировать срок доставки.

После внедрения КХД в компании сразу улучшились бизнес-процессы, поскольку руководство получило возможность видеть объективные текущие показатели, не полагаясь на некие результаты работы или суждение аналитика. Руководители получили единый взгляд на бизнес компании, что позволило в том числе сократить время принятия решений. Кроме того, снизились затраты на сбор данных для CIO, поскольку данные можно получать из единого хранилища, а не собирать по разным системам.

Александр Фикс. У одного нашего заказчика из ритейла, работающего по всей России, процесс мерчандайзинга выстроен с использованием big data — анализ кассовых чеков, анализ купленного товара и сопутствующих товаров. По результатам анализа, например, сопутствующие товары выставляются рядом, чтобы мотивировать на покупки. 

Сергей Синагейкин. Какое время уходит, чтобы изменить выкладку после получения новых данных?

Александр Фикс. Данные анализируются еженедельно, после чего меняется выкладка товара. Это небольшие супермаркеты около дома, хотя ассортиментная матрица включает десятки тысяч наименований.

Антон Близгарев. Я могу рассказать про один крупный банк. Он появился в результате объединения трех банков, в каждом из которых было свое хранилище данных. После объединения для подготовки итогового финансового отчета руководству приходилось генерировать отчеты по всем трем системам, в трех разных форматах, после чего отдельный человек их обрабатывал и создавал новый отчет. Это было очень больно и явно не давало единой версии происходящего. 

Поэтому банк обратился к нам за помощью. Благодаря переезду на Arenadata DB было создано огромное хранилище данных (речь идет о петабайтах) с единой версией правды и единым отчетом. Проект находится на финальной стадии, миграция еще не завершена, но банк уже получает намного более понятные отчеты. 

Александр Фикс. В какой момент заказчик понимает, что ему требуется специализированное решение?

Антон Близгарев. Это просто. Можно отталкиваться от количества данных (свыше терабайта) или от скорости прироста данных. Когда обычная система уже не справляется, необходимо новое решение, которое, как правило, работает с распределенными данными. Один из лучших вариантов на отечественном рынке в настоящее время — системы на базе Greenplum, например, продукт Arenadata DB.

Александр Фикс. Если клиент начинает собирать данные, он может пользоваться обычной СУБД. В какой момент он поймет, что пора переходить на специализированную базу данных?

Антон Близгарев. Он почувствует.

Александр Фикс. А если заказчик хочет сделать это заранее?

Антон Близгарев. Классическая система в настоящее время построена на Postgres. Многое зависит от того, какие данные собираются в КХД и как оно реализовано. Как правило, когда хранилище вырастает до нескольких терабайтов, начинается боль: запросы обрабатываются очень долго, система периодически зависает и т. д. Когда возникают такие проблемы, мешающие бизнесу нормально жить, пора задуматься о переезде на правильное решение, которое позволит, как минимум, масштабироваться. Например, Greenplum дает возможность горизонтально масштабироваться почти до бесконечности.

Антон Близгарев. Хотелось бы особо отметить тренд, появившийся в начале 2022 года, — миграция с западных решений. Многие заказчики ставят задачу переехать пусть даже в долгосрочной перспективе.

Сергей Зинкевич. Мы постоянно занимаемся задачами замены зарубежных систем в ИТ-инфраструктуре. По нашему опыту, очень многие уже решили их для базовых сервисов, которые отвечают за жизнеобеспечение компании, таких например, как почта, ИТ-безопасность, ERP. 

Поэтому мне кажется, что скоро руки дойдут и до big data . 

По результатам опроса аудитории подкаста, 45% используют западные вендорские решения и только 15% — отечественные, а 25% живут на open source.

Антон Близгарев. Получается, нам есть с чем работать.

Сергей Синагейкин. Это огромное пространство для маневра, особенно если речь идет о компаниях, которые в соответствии с указом № 250 до конца следующего года должны полностью перейти на российские решения. Это, в частности, компании критической инфраструктуры. В следующем году можно ждать очень большого количества внедрений.

Антон Близгарев. Переезжать всегда больно, а времени осталось мало. Это непростой путь, потому что нативной замены и, соответственно, возможности миграции одним нажатием у нас нет. Это целый проект, и наша задача — помочь нашим заказчикам переехать в короткий срок.

Вопросы инфопартнера

Дмитрия Бевза, ИТ-обозреватель «Российской газеты». 

Эксперты признают, что будущее больших данных строится на трех китах — машинное обучение, искусственный интеллект и развитие облачных технологий. Согласно последнему рейтингу ТОП-500 суперкомпьютеров, которые в том числе используются для обучения нейросетей, у России есть 7 суперкомпьютеров, у США — 150 и у Китая — 130. Согласно докладу ВШЭ пару лет назад, объем инвестиций в суперкомпьютеры в Китае превышал объем инвестиций в России в 300 раз. Разница впечатляющая, и я не думаю, что что-то изменилось кардинально. Эта разница мешает нам развиваться или она обусловлена размером экономики? Все ли есть у российского бизнеса для работы с большими данными и для обучения нейросетей или у нас есть проблемы?

Антон Близгарев. Наличие и количество суперкомпьютеров не всегда напрямую свидетельствует о развитии big data, потому что они используются в том числе для высоконагруженных сред, например, для математического моделирования с огромным количеством переменных. Big data — это не только машинное обучение и искусственный интеллект, чаще это работа обычных баз данных, аналитика и BI-отчеты. 

Если говорить о представленности высоких технологий, практически каждый облачный провайдер в России предлагает свои сервисы с искусственным интеллектом. Поэтому неправильно говорить, что у нас нет высоких технологий. В некоторых областях мы даже обгоняем конкурентов и задаем общемировые тренды. 

Хотелось бы увеличить количество суперкомпьютеров, но для этого их нужно производить, и это проблема, но не проблема big data. Мы только-только начинаем развивать собственное производство, в том числе процессоров, и я надеюсь, что в ближайшие годы нам удастся что-то сделать.

Сергей Зинкевич. Я в Москве наслаждаюсь обилием прекрасных сервисов. Мне кажется, что за нас роботы делают уже все: такси из любой точки приезжает за секунды, мы можем отслеживать перемещение транспорта, еду из ресторана приносят за 30 минут, продукты — за 15. Это ответ на мои запросы как потребителя на основе анализа моих потребностей. 

Без анализа данных не обойтись. Сложно доставлять продукты за 15 минут, если ты не очень хорошо знаешь своего пользователя, потому что для этого необходимы оптимизация складов, решение транспортных и логистических задач и т. д. Но мне кажется, что у нас все развивается отлично, и уровень проникновения качественных ИТ-сервисов в нашу обычную жизнь один из самых высоких в мире. 

Дмитрий Бевза. Кто эффективнее работает с данными — коммерческие или государственные компании? С одной стороны, данные собирает, например, ДИТ Москвы и Минцифры, с другой — большой бизнес. Кроме того, данные используют и технологические стартапы. 

Антон Близгарев. Госструктуры уделяют огромное внимание работе с данными. Например, сейчас строятся системы  Гостех и ГЕОП, которые будут представлять собой гособлако. С его помощью госструктуры смогут в едином хранилище собирать данные, обрабатывать их и получать необходимые сервисы на базе этих данных. 

Лучше всех из госструктур с данными работает ФНС. Они используют весь стек продуктов Arenadata, что обеспечивает эффективность. Например, при совершении покупок онлайн покупателю на телефон сразу же приходит чек. Это возможно именно благодаря продуктам Arenadata. 

Сергей Синагейкин. Я думаю, что эффективнее с данными работают коммерческие компании, например, банки и телеком, потому что они раньше начали накапливать данные. Но на днях был случай, когда нашли пропавшего человека по камерам. Это означает, что данные с камер обрабатываются. Госструктуры имеют огромный потенциал для использования этих технологий и в ближайшем будущем они догонят коммерческие структуры. 

Антон Близгарев. Это ящик Пандоры. Мы все видели, как в Китае по камере определяют личность человека, видят его долги, кредиты и т. д.

Сергей Синагейкин. Да, это один из негативных элементов развития технологий. 

Сергей Зинкевич. Цели у госструктур и коммерческих компаний могут очень сильно отличаться. Коммерческие компании сражаются за рынок, за увеличение своего присутствия, например, через улучшение качества жизни. Но эта история всегда про деньги. Государственная компания — это не всегда деньги, это и выполнение социальных задач. 

Антон Близгарев. Можно вспомнить электронное правительство и госуслуги. В этой области мы далеко ушли от стран Западной Европы и США, как и в сфере банковских приложений. 

Александр Фикс. Мне кажется, что коммерческие организации на ступень выше в аналитике и использовании данных, потому что у них больше рычагов для инвестирования. Бизнесу уходить в большие данные, то есть совершать «прыжок веры» проще, чем госорганам. 

12 января 2024
Цифровизация-2024: путь к новой эффективности

В выпуске#10 видеоподкаста «Откровенно об ИТ-инфраструктуре» обсудили, в чем особенности цифровизации-2024, какие вызовы стоят перед российскими компаниями и какое место в технологических и бизнес-трендах наступающего года занимает облако.

В гостях Сергей Никитчук, Б1-ИТ, и Екатерина Мелькова, КРОК.
1 минута
385
24 октября 2023
Контейнеры: технологии и процессы глазами разработчика

В выпуске#9 видеоподкаста «Откровенно об ИТ-инфраструктуре» поговорили о роли контейнеров в разработке. Приглашенные эксперты обсудили специфику использования Kubernetes и сокращение time-to-market в контексте контейнеризации.

В гостях Михаил Гудов, Orion soft, и Василий Колосов, Smartex.
1 минута
455
4 октября 2023
Облака и безопасность: дружба против киберугроз

На выпуск#8 видеоподкаста «Откровенно об ИТ-инфраструктуре» мы пригласили суперпрофессионалов из компании «Лаборатория Касперского», чтобы развеять мифы и серьезно поговорить о тенденциях, подходах и технологиях защиты облачных инфраструктур.

В гостях Тимофей Минин, Kaspersky, Петр Богданов, Kaspersky, и Андрей Макаренко, К2 Кибербезопасность.

1 минута
492
27 августа 2023
Контейнерная одиссея: чем живет и куда движется российский рынок Kubernetes

В выпуске#6 видеоподкаста «Откровенно об ИТ-инфраструктуре» обсудили, как развивается контейнерная инфраструктура в России и как применять оркестрацию контейнеров с наибольшей пользой для бизнеса.

В гостях Максим Морарь, лидер продукта NOVA — платформы оркестрации контейнеров на базе Kubernetes компании Orion soft.
1 минута
333
27 июля 2023
Облачная экономика: считаем правильно

В выпуске#5 видеоподкаста «Откровенно об ИТ-инфраструктуре» обсудили, как с цифрами обосновать миграцию в облако и какие аргументы — самые весомые для бизнес-заказчика.

В гостях Роман Дрожжин, ИТ-директор компании-эксперта в области разработки цифровых решений.
1 минута
949
scrollup