Новая нефть: как Halyk выстраивает культуру работы с данными

7 ноября в Алматы прошел пятый митап из серии Halyk Tech Sprints об управлении большими данными в финансовом секторе. Его участники рассказали, что стоит за банковской Data-платформой, какие технологии помогают обрабатывать терабайты информации в реальном времени и почему управление качеством данных (data governance) становится критически важным для устойчивости бизнеса.

В основе всего – Data Driven

Big Data давно стала новой нефтью для всех цифровых экосистем, сервисов и супераппов. Причем в банках ее объем настолько огромен, что хранение и обработка данных невозможны без специальных подходов, архитектуры и профильных специалистов. Крупные игроки внедряют передовые технологии и практики в числе первых, и, возможно, именно поэтому желающих послушать доклады ведущих банковских специалистов собралось так много.

Индира Аширова

«Тема нашего пятого митапа актуальна не только для финансового рынка, но и для всех крупных организаций в целом. Без управления данными невозможно построить ни один банковский продукт и дать ценность клиентам. Наши ребята научили каждого работника мыслить через призму данных и использовать их в работе», – поприветствовала участников HRD Halyk Индира Аширова.

Коллегу дополнил Chief Data Officer Рустем Муратбеков, подчеркнув, что банк осознанно развивает стратегию Data Driven. Она подразумевает внедрение не только инструментов, но и культуры работы с данными. В частности, принятия всех важных бизнес-решений на основе точных цифр и аналитики.

Рустем Муратбеков

«При внедрении Data Driven мы в первую очередь сделали акцент на обучение и развитие наших работников. Также мы понимаем, что экспертиза должна копиться не только внутри банка, но и в профессиональном сообществе. Делясь опытом, мы усиливаем отрасль в целом. И те, кто сегодня выступает, расскажут реальные кейсы и решения, которые помогли нам в работе с действующими продуктами», – отметил Рустем Муратбеков.

«В одном только Data Lake около 500 терабайт данных»

Программу митапа с докладом об архитектуре Halyk Data Platform открыл начальник управления хранилища данных Максат Зекеев. Она превращает огромные массивы информации в понятную структуру на базе MPP (Massively Parallel Processing). Такая архитектура паралельно обрабатывает терабайты данных на множестве вычислительных узлов. Ее главные плюсы: масштабируемость, отказоустойчивость и высокая производительность – ключевые требования к работе банка с миллионами операций в сутки.

Все данные подгружаются на платформу из различных источников и поступают в Data Lake. Далее их очищают, структурируют и направляют в корпоративное хранилище данных (DWH). Затем эту информацию используют для создания различной аналитики, отчетности и прогнозов.

Максат Зекеев

«Если представить масштабы Halyk в цифрах, в одном только Data Lake хранится около 500 терабайт данных — без учета зеркал и резервных копий. Еще 150 ТБ занимает DWH, где представлено порядка 900 таблиц и более 2000 стандартных отчетов. С нашей платформой работают около тридцати продуктовых команд — каждая отвечает за свой бизнес-процесс и обращается к нашим данным напрямую», — рассказывает Максат Зекеев.

С увеличением объема данных централизованная команда DWH превратилась в узкое горлышко. Запросы на отчеты, витрины и таблицы копились в бэклоге, а Time-to-Market увеличивался. Поэтому в Halyk перешли к новой модели демократизации данных на основе self-service-аналитики. После обучения и внедрения новых инструментов работники из разных отделов научились самостоятельно анализировать данные, проверять гипотезы и принимать решения без обращения к Data Engineering.

От Hadoop к Data Lake House

Следующий докладчик сравнил работу с большими данными с попыткой укротить «мощного, но хаотичного зверя». Без структуры и контроля бигдата приносит бизнесу лишь потери, но при правильном управлении гарантирует рост и инсайты.

Переломным этапом в развитии инфраструктуры обработки данных стал Hadoop – первая открытая экосистема, способная распределять хранение и вычисления среди множества узлов. В Halyk ее используют как слой ODS (Operational Data Store) — хранилища «сырых» данных, куда ежедневно загружают более трех терабайт информации из транзакционных систем, логов и потоковых сервисов.

Нурсултан Жакаев

«Экосистема Halyk включает десятки цифровых продуктов — от банкинга до маркетплейсов и тревел-сервисов. С каждым месяцем объемы данных продолжают расти, что заставляет искать новые подходы и решения. Следующим шагом развития data-архитектуры для нас стала концепция Data Lakehouse. Она сочетает надежность структурированных данных и гибкость. Результаты нагрузочного тестирования уже показали: объем хранимых данных сократился, скорость обработки увеличилась в несколько раз, а загрузка стала стабильнее», — рассказал начальник управления нереалиционного хранилища данных Halyk Нурсултан Жакаев.

Qlik vs Excel

Последние годы Halyk активно развивает Data Driven-культуру. Чтобы она работала на всех уровнях, работников учат продвинутой работе с данными прямо на местах. С той же целью в банке создали центр компетенций BI, где за два года обучили 25 групп сотрудников в формате курсов и дата-кэмпов.

Как отметил Developer Halyk Жандос Шотан, раньше, чтобы получить отчет, бизнес-подразделениям приходилось ждать разработчиков. Теперь в банке развивают систему, где данные централизованы, доступны и понятны всем пользователям, а BI-команда лишь обслуживает эту среду. Толчком для изменений стал переход на гибкую платформу Qlik Sense. Она пришла на смену громоздкой и устаревшей системе SAP, где каждый отчет требовал ручных операций и сложных интеграций.

Жандос Шотан

«За визуально простыми дашбордами стоит большая работа: до 70% трудозатрат уходит на сбор, очистку и подготовку данных. Мы ограниченно применяем витрины, потому что их комбинации могут быть бесконечны. Вместо этого делаем ставку на универсальные модели данных и инструменты самообслуживания: конструктор витрин, SQL-ассистента на базе LLM и внутренние BI-дашборды. Но самое важное даже не технологии, а мышление. Мы учим работников смотреть на данные как на основу решений», – говорит Жандос Шотан.

Результаты трансформации уже заметны. По оценке внутренней системы NATO BI, число аналитических выборок выросло до 150 тысяч при стабильном количестве дашбордов. Это означает, что пользователи перешли от множества узких отчетов к универсальным приложениям, использующим гибкость Qlik для разных сценариев анализа. При этом снижается объем выгрузок в Excel, и сотрудники все чаще выполняют расчеты и визуализации напрямую в BI-среде.

Персонализация в реальном времени и AI в маркетинге

Во второй части митапа доклады были посвящены практическим кейсам применения бигдата в разных подразделениях банка. Например, как работает система коммуникаций с клиентами на основе AI. По словам начальника управления Campaign Management Halyk Гелана Дайрабаева, персонализация напрямую влияет на эффективность. Даже небольшие детали вроде корректных данных в сообщении могут кардинально поменять результат рекламной кампании.

С начала года Halyk запустил более 3800 маркетинговых кампаний, при этом 300 работают одномоментно. Общее количество коммуникаций на ноябрь превысило 2 миллиарда, что почти на 80% больше, чем годом ранее. Такой масштаб требует не просто автоматизации, а умной системы, где данные и модели машинного обучения гарантируют релевантность каждого обращения.

Гелан Дайрабаев

«Мы используем модель Next Best Offer, которая определяет наиболее подходящий для клиента продукт на основе его истории и поведения. LLM-модели автоматически подбирают текст коммуникации — обращение, стиль, даже тон сообщения. Для массовых рассылок используем платформу Unica, для событийных — real-time маркетинг на Kafka. Система обрабатывает сотни миллионов событий, а время реакции занимает меньше секунды. Клиент пришел в торговый центр – мы тут же предложим скидку, прилетел в Узбекистан – напомним про переводы между банками. При этом перед отправкой каждая коммуникация проходит дополнительную проверку на корректность», – поделился Гелан Дайрабаев.

Вместе с объемом данных растет и количество каналов: к push и SMS добавились Telegram, WhatsApp и корпоративные приложения. Каждый интегрируется по-своему – через API, Kafka или сервисы партнеров. Но цель одна – донести персональное предложение в нужный момент и в нужном месте.

Интерфейс как новый канал: от баннера к гиперперсонализации

Далее слушатели узнали, благодаря чему интерфейс мобильного приложения стал новым каналом коммуникации с клиентом. Если раньше баннеры были одинаковыми для всех, то теперь они формируются динамически – на основе данных, сегментации и моделей машинного обучения, которые определяют, кому и что показать в конкретный момент.

Роман Савоськин

«Теперь ML-модели определяют, какой баннер или карточку увидит клиент, а движок персонализации в реальном времени учитывает сегмент и контекст. Сегодня мы можем сгенерировать новый контент для сегмента клиентов менее чем за секунду, обновить баннеры у всех клиентов за три минуты и пересобрать миллиарды персональных карточек за 15 минут», — отметил начальник управления внешних интеграций и фронтальных каналов Halyk Роман Савоськин.

Lakehouse – новая дата-архитектура с единым источником правды

Финальный доклад подвел итог дискуссии о переходе от традиционных хранилищ к Lakehouse. Раньше популярная лямбда-архитектура разделяла обработку данных на 2 контура: batch (пакетную) для исторических данных и streaming (потоковую) для событий в реальном времени. Lakehouse-подход объединил их в единую платформу, где потоковые и исторические данные хранятся и обрабатываются в одном хранилище без копий и дублирования.

Такая концепция обеспечивает единый источник правды, снижает издержки на инфраструктуру и позволяет анализировать данные в реальном времени без усложнения архитектуры.

Павел Бабурин

«Мы уже видим, как крупные банки мигрируют с Exadata и Oracle на открытые Lakehouse-платформы. В одном из наших проектов система выдерживает десятки тысяч изменений в секунду и управляет четырьмя петабайтами данных полностью в режиме онлайн. Это не просто смена технологии, а изменение мышления: от дорогих хранилищ к эффективным дата-платформам, где ценность измеряется не количеством серверов, а стоимостью терабайта данных», – считает руководитель поддержки продаж платформы данных Alphyn, Databorn Павел Бабурин.

В основе концепции Lakehouse – гибкая облачная архитектура с открытыми стандартами (Spark, Trino, S3, Databricks), поддержкой real-time обработки и Zero Copy Storage, исключающей дублирование данных. Как итог, Lakehouse ускоряет запуск дата-продуктов и снижает издержки, превращая инфраструктуру банка в стратегический актив.

В завершении митапа управляющий директор по инновациям и экосистемам Halyk Алдиар Арыстанбаев подчеркнул, что за успехом любой цифровой трансформации стоят не только технологии, но и люди, которые их внедряют и развивают.

Алдиар Арыстанбаев

«Мы с командой присоединились к банку не так давно, и за это время убедились: Halyk – место, где действительно можно запускать смелые идеи. Только за последний год мы реализовали более семи новых проектов – и это результат работы сильной и сплоченной команды.

Мы видим, как внутри банка растут специалисты, берут на себя больше ответственности и выходят на новый профессиональный уровень. Современный Halyk – это среда, где можно развиваться, экспериментировать и воплощать самые амбициозные задумки. Мы открыты для новых талантов и свежих нестандартных взглядов», – резюмировал Алдиар Арыстанбаев.

Следующий митап из серии Halyk Tech Sprints пройдет 20 ноября и будет посвящен BAAS-платформам, а также API, white-label и партнерским сценариям.

Data DrivenHalykbig data