Внедрение LLM и ML – с чего начать: опыт Kolesa Group

После 2022 года, с появлением ChatGPT, об искусственном интеллекте стали говорить чаще. Технология, которая раньше обсуждалась в профессиональной среде, стала доступна широкой аудитории. Взаимодействовать с искусственным интеллектом теперь просто – можно задать вопрос и получить ответ.

Из-за этого появилось ощущение, что AI – универсальный инструмент. Если он умеет работать с текстом, кажется, что его можно встроить в любой продукт и сразу получить результат. Почему на практике это не так, рассказывает Хамбар Дусалиев, руководитель отдела ML & Operations Kolesa Group.

В чем разница между AI, ML и LLM и где их применять

— AI или ИИ (искусственный интеллект) – подраздел Data Science, который изучает способность компьютерных систем подражать когнитивным функциям человека: смотреть, слышать, управлять, говорить.

ML (машинное обучение) – это подраздел AI/ИИ. Конкретный набор алгоритмов, благодаря которым как раз таки можно создать AI.

LLM (большие языковые модели) – вид ML, который работает с текстом: читает, пишет, отвечает на вопросы. ChatGPT – один из них.

По данным McKinsey & Company за 2025 год, 88% компаний в мире используют ИИ как минимум в одной бизнес-функции. А по данным Hostiger, около 67% организаций в мире уже используют LLM для работы с генеративным AI.

Как понять, нужен ли AI вашему решению

В Kolesa Group любое решение следует из миссии компании, реальных потребностей пользователей и целей, которых нужно достичь. Поэтому перед тем, как определиться с решением, нужно понять, есть ли вообще проблема.

Если проблема существует, команда формулирует, в чем именно она заключается и почему ее важно решить. Дальше рассматривается, как эту проблему можно решить. На этом этапе команда оценивает разные варианты: изменения в процессах, продуктовые доработки, правила, автоматизация, классические алгоритмы, машинное обучение.

И только после этого команда задает следующий вопрос: действительно ли эту задачу имеет смысл решать с помощью AI? В этой логике AI – не цель, а один из десятков инструментов, который используют только тогда, когда он дает измеримую пользу и не создает лишних рисков.

Что важно понять до внедрения AI

Еще до разработки команда должна ответить на несколько практических вопросов:

сколько будет стоить внедрение — в деньгах, инфраструктуре и человеко-часах;
по каким метрикам мы поймем, что решение работает;
что произойдет, если модель ошибется.

Ошибки неизбежны, поэтому заранее продумываются механизмы защиты:

ограничения на автоматические действия модели;
проверки результата человеком;
возможность быстро откатить или скорректировать решение;
процессы, которые позволяют исправить последствия, если модель дала неверный ответ или дезинформировала пользователя.

Где LLM работают хорошо

Хороший пример – оценка качества работы операторов колл-центра.

Требования к такой оценке меняются постоянно. Сегодня важно проверить вежливость, завтра – работу с возражениями, послезавтра – корректную реакцию на отказ. Контекст остается тем же, меняется только фокус.

В таких сценариях LLM выигрывают за счет гибкости: достаточно изменить запрос, и модель начинает искать другое без переобучения.

Именно в таких сценариях LLM работают лучше всего:

требования могут меняться со временем;
контекст остается примерно тем же;
конечный результат читает человек, а не система;
скорость ответа не критична до миллисекунд.

Где LLM не подходят

Во-первых, сценарии, где критична скорость ответа. Если система должна реагировать практически мгновенно, задержки на запрос к модели становятся проблемой.

Во-вторых, большие объемы данных. Например, рекомендательные системы или логи, которые генерируются тысячами событий в секунду. Контекст LLM ограничен, и такие задачи они решают плохо.

В-третьих, чувствительные данные. В личных сообщениях пользователи могут пересылать документы и персональную информацию, и передача такого контента внешнему провайдеру становится отдельным риском.

Как понять, какую технологию выбрать

Ниже привели три кейса Kolesa Group. Они показывают, где LLM работают лучше, а где классические ML-модели дают более стабильный результат.

Кейс: спам в сообщениях

В сервисах Kolesa Group пользователи пишут друг другу, и со временем появляется спам. Первоначальная идея была простой: показать сообщение LLM и определить, является ли оно спамом. На практике реализация оказалась сложной, а результат – недостаточно качественным для использования в продукте.

Причины:

ответ приходил медленно;
возникали риски, связанные с персональными данными;
модель часто ошибалась и блокировала обычные сообщения.

В итоге была реализована классическая ML-модель. Для этого вручную разметили около 112 тысяч сообщений. Процесс оказался долгим, но результат — стабильный. Например, в 2025 году с помощью ML-модели на Kolesa.kz было заблокировано почти 1 млн спам-сообщений, а ежедневно система отлавливает 91 % спама.

Вывод: сравнение подходов и расчет стоимости необходимо делать заранее.

LLM чаще всего работают через облако, а оплата зависит от объема текста – сколько модель прочитала и сколько сгенерировала. Чем больше пользователей, тем выше стоимость, поэтому расходы важно оценивать до внедрения.

Модель можно развернуть локально. Это безопаснее с точки зрения данных, но дороже и сложнее в поддержке.

Кейс: чат-бот поддержки

Для этого сценария LLM подходят оптимально.

Пользователь формулирует вопрос и ожидает понятный текстовый ответ с учетом контекста и истории диалога. LLM хорошо справляются с генерацией текста, а результат их работы читает человек.

При этом важно заранее определить, где будут храниться данные. Возможны облачные решения и self-hosted-инфраструктура. Каждый вариант имеет свои ограничения и преимущества.

Кейс: колл-центр

В задачах речевой аналитики команда Kolesa Group сначала использовала классический подход – обучение собственных моделей. На практике он оказался плохо масштабируемым.

Разметка диалогов требовала высокой экспертизы. Корректно выполнять ее могли только супервайзеры с ограниченным временем. В среднем один человек мог разметить не более 50 диалогов в день. Данных не хватало, требования часто менялись, а добавление нового языка означало повтор всей работы.

В результате команда перешла на LLM-подход. Он позволил работать с разными сценариями и языками без постоянного переобучения моделей и трудоемкой разметки. В результате сбор анализа данных сократился с двух дней до 40 минут, а качество звонков по внутренней оценке аналитиков увеличилось на 5 процентных пунктов.

Итоги

AI не является универсальным решением. Он работает эффективно только тогда, когда соответствует задаче, ограничениям и ожиданиям от результата.

Если кратко:

LLM подходят, когда нужен гибкий текстовый результат, ориентированный на человека;
классические ML-модели эффективнее, когда важны скорость, масштабируемость и предсказуемость;
выбор технологии начинается не с инструмента, а с понимания задачи.