«Казахстанская языковая модель для государства такой же важный ресурс, как нефть или газ». Эксперт объяснил значимость KazLLM

KazLLM в последнее время – один из самых обсуждаемых технологических проектов Казахстана. Его называют неотъемлемой частью цифрового суверенитета республики и одновременно критикуют за недоработки и низкий спрос. Что же на самом деле представляет собой большая казахстанская языковая модель: как она работает, зачем ей говорить на казахском и можно ли KazLLM сравнивать с ChatGPT?

За разъяснением по этим и другим вопросам Digital Business обратился к эксперту в области ИИ, председателю Ассоциации по развитию искусственного интеллекта Qaz.AI Темирлану Зиятову.

«Когда появится ИИ-чат на основе казахстанской языковой модели, тогда его можно будет сравнивать с ChatGPT»

– Что такое KazLLM? Объясните простыми словами так, чтобы это поняли люди, далекие от ИТ.

– KazLLM – это система, которая освоила огромный массив интернет-данных, выявила и запомнила закономерности языков запроса и научилась создавать новый контент. Важное уточнение: это не библиотека данных, а нейронная сеть, которая проанализировала десятки тысяч книг и научилась пересказывать прочитанное на казахском, русском, английском и турецком языках.

Фото носит иллюстративный характер. Автор: Digital Business

В том числе – отвечать на вопросы, работать с документами, переводить тексты, анализировать смысл написанного и решать массу других задач. Но важно понимать: сама по себе модель – это не готовый сервис, а скорее технологическое ядро. Я обычно сравниваю такие ИИ-модели с двигателем. Двигатель сам по себе не является транспортом – это ключевой механизм, который обеспечивает движение. Один и тот же двигатель можно поставить в разные машины: внедорожник, легковой автомобиль, трактор или микроавтобус. Все зависит от того, как его интегрируют и под какие задачи настраивают.

С KazLLM логика примерно такая же. Это базовый технологический слой, на котором уже можно строить прикладные решения: государственные цифровые ассистенты, корпоративные чат-боты, образовательные сервисы и так далее. Но чтобы из «двигателя» получился полноценный продукт, нужна дополнительная работа – дообучение под конкретные сценарии, интеграция с данными и системами, настройка инфраструктуры для масштабирования.

Насколько мне известно, перед Институтом умных систем и искусственного интеллекта при Назарбаев университете (ISSAI) – разработчиком KazLLM – стояла задача как раз создать этот фундаментальный компонент — саму модель.

– Получается, в повседневной жизни только профи могут использовать KazLLM?

– Пока да. У казахстанской языковой модели есть только академическая база, но нет интерфейса. Поэтому обычный пользователь физически не сможет вступить в диалог с KazLLM и отправить ему запросы.

Когда появится ИИ-чат на основе казахстанской языковой модели, тогда его можно будет сравнивать с ChatGPT. И то – условно. Потому что разработка OpenAI – коммерческий продукт с огромной продуктовой командой, многолетней итерацией и невероятным масштабом данных. Его тестировали на американском рынке с населением более 340 миллионов человек. В Казахстане проживает в 17 раз меньше людей. Соответственно, у нас разная рыночная среда и продуктовая зрелость. Поэтому сравнение KazLLM с ChatGPT неуместны.

Также для развертывания готовых продуктов на базе KazLLM нужен суперкомпьютерный кластер, который позволит бесперебойно использовать, тестировать и проверять продукты большому количеству пользователей, тем самым улучшая отечественный продукт.

– Для чего же тогда нужна KazLLM?

– Есть несколько причин для создания KazLLM. Первая – получить технологический суверенитет в сфере генерации мультимедийного контента на казахском языке, чтобы не зависеть от внешних поставщиков. Все данные, которые вводятся в ИИ-чаты, хранятся на зарубежных серверах и используются для дообучения моделей иностранных компаний.

Здесь возникают риски утечки информации, что может привести к конфликту интересов и потери контроля над критически важной инфраструктурой. Поэтому нужна своя языковая модель, чтобы создать безопасную экосистему для обработки чувствительной информации. Для государства – это документы первостепенной важности и аналитика силовых структур, для бизнеса – финансовые отчеты и клиентская база, для рядового гражданина – персональные и банковские данные.

Вторая причина – развитие кадрового потенциала страны. KazLLM был создан казахстанскими исследователями, которые получили колоссальный опыт в формировании, обучении и развертывании моделей искусственного интеллекта. Сегодня эти ученые применяют свои знания в создании новых локальных моделей, которые можно будет применять в разных секторах экономики.

Фото носит иллюстративный характер. Автор: Digital Business

Это стандартная практика. Все технологически развитые страны создают локальные ИИ-модели. Так, Сингапур запустил свою большую языковую модель SEA-LION.

– Почему искусственный интеллект должен разговаривать на казахском?

Казахский – это государственный язык страны и одновременно ключ доступа к госуслугам, образованию, медицине и цифровому контенту. По сути, отечественная языковая модель обеспечивает цифровое равенство: технологии начинают работать не только для англо- или русскоязычных пользователей, но и для тех, кто говорит на казахском.

В Казахстане около 80% казахоговорящих или 17 млн человек. Есть еще и кандасы, для которых казахский – единственный язык общения. Поэтому способность ИИ полноценно работать на государственном языке — это не символический шаг, а базовое условие, чтобы цифровые технологии действительно охватывали все население страны.

«Разработка находится на ранней стадии, поэтому у нее есть свои недостатки»

– Многие сейчас критикуют KazLLM. Что с ней не так?

– Разработка находится на ранней стадии, поэтому у нее есть свои недостатки. Это нормальная практика для проектов из сферы AI. Cамая насущная проблема для разработчиков KazLLM – поиск качественного контента на государственном языке. Чтобы ее решить, необходимо создавать и публиковать больше материалов на казахском. В том числе, с привлечением сторонних авторов, чтобы быстрее дообучить модель.

– Не проще было купить зарубежную, но проверенную LLM, чем делать свою?

Фото носит иллюстративный характер. Автор: Digital Business

– Для части задач – это приемлемо. Бизнес так и делает, используя лучшее здесь и сейчас. Но для государства нужен другой подход, который гарантирует независимость и безопасность при обработке важных данных.

– Вы уже протестировали функционал KazLLM? Расскажите о плюсах и минусах проекта.

– Из плюсов могу отметить максимальную адаптацию. То есть система понимает культурный подтекст при вводе запроса. Из минусов – низкое качество ответов и слабое визуальное оформление. Нужны понятные итерации и удобные шаблоны ответов.

Тут важно понимать, что казахстанская языковая модель – точечный инструмент под конкретные национальные задачи. Считаю, что мы идем по правильному пути, потому что на большие задачи у нас не хватит ни человеческих, ни финансовых ресурсов.

– Во сколько обойдется создание собственной языковой модели?

– На разработку KazLLM, насколько известно из публичных источников, выделено 3,9 млрд тенге. В эту сумму входит работа команды, использование вычислительной инфраструктуры, тестирование, адаптация и отладка данных. Если строить глобальный продукт, понадобится гораздо больше средств. Тот же OpenAI тратит десятки миллиардов долларов в год на поддержание своей инфраструктуры, потому что количество запросов к ChatGPT исчисляется сотнями миллионов ежедневно.

– Как коммерциализировать KazLLM?

– Монетизировать KazLLM можно и нужно. Только не в виде языковых чатов, а как агентскую систему на базе закрытых контуров, то есть без доступа к интернету. В таких решениях нуждается банковский сектор и квазигоспредприятия. Им нужны внутренние решения на основе ИИ для документооборота, комплаенса и HR.

«Национальный дата-центр – вопрос кибербезопасности, экономики данных и инфраструктурной независимости»

– На какой архитектуре строится KazLLM? Это open-source модель или собственная разработка?

– Она строится на базе архитектуры LLama 3.1 – одна из сильнейших открытых моделей корпорации Meta. Нейронная сеть основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

– Достаточно ли в Казахстане вычислительных мощностей?

– Для масштабного обучения нужны дополнительные GPU-кластеры. Так называются высокопроизводительные вычислительные системы, которые состоят из нескольких взаимосвязанных серверов. Кроме того, необходимы стабильная энергетика и контуры охлаждения.

Реалистичный путь развития в этом направлении – поэтапное наращивание вычислительных мощностей плюс партнерство с дата-центрами, а также фокус на эффективные методы дообучения. Также необходимо предоставлять вычислительные ресурсы для казахстанских исследователей по субсидированным ценам. Если международный облачный провайдер предоставляет ресурсы дешевле, то в чем выгода использовать казахстанские кластеры?!

– Планируется ли строительство национального дата-центра под AI-задачи?

Фото носит иллюстративный характер. Автор: Digital Business

– Насколько мне известно, такие планы есть. Но в будущем он точно понадобится, и, скорее всего, не один. Потому что национальный дата-центр под AI – вопрос кибербезопасности, экономики данных и инфраструктурной независимости.

– Как обеспечивается чистота и легальность обучающих данных?

– Базовый принцип – обучение на публичных лицензионных источниках с процедурами очистки. Здесь необходима грамотная нормативно-правовая база. Но она еще находится в зачаточном состоянии, как и сфера ИИ в Казахстане.

– Кто отвечает за этические стандарты KazLLM?

– Этика в подобных проектах обычно лежит на стыке ответственности государства, разработчиков и пользователей. Государственный регулятор отвечает за стандарты, разработчики – за релевантную политику безопасности и фильтры, пользователи – за адекватные кейсы применения. Мы, как Ассоциация по развитию искусственного интеллекта Qaz.AI, активно продвигаем подход ответственного ИИ, в основе которого – прозрачность, тестирование рисков, защита уязвимых групп и аудит.

– Как в подобных AI-проектах решается вопрос приватности и защиты персональных данных?

– Этот вопрос должен решаться системно, с использованием шифрования, контроля доступов, внедрения безопасной политики хранения и удаления данных. Ну и самое главное, как можно больше из всего перечисленного делать in-house.

«В Казахстане начинают появляться не только научные разработки, но и прикладные ИИ-продукты»

– Может ли KazLLM стать экспортным продуктом?

– Да, только экспортировать нужно не продукты на основе KazLLM, а именно технологию и компетенцию работать с ней. Уверен, что странам с общим культурным и историческим прошлым будет интересен наш опыт. Имею в виду тюркоязычные государства, которые могут доверять нам свои отраслевые продукты и критически важные данные. Здесь у отечественной языковой модели большой потенциал.

В этом направлении уже есть первый результат. Одна казахстанская ИТ-компания помогает Пакистану в разработке их национальной модели ИИ – UrduLLM. В ее основе – ядро KazLLM.

– Как KazLLM может помочь бизнесу и в образовании?

– Искусственный интеллект призван не заменить человека, а сделать его работу эффективнее. Внедрение ИИ-моделей позволит бизнесу ускорить обработку документов, клиентских запросов и сбор аналитики.

Спектр применения ИИ-моделей в образовании тоже обширный – это объяснение тем на казахском языке, помощь с домашними заданиями, подготовка к ЕНТ. Кроме того, с помощью AI можно создавать тесты, проверять эссе, генерировать методические материалы и многое другое.

– В перспективе, как KazLLM может повлиять на ИТ-экосистему Казахстана?

– Однозначно, это положительно скажется на рынке труда. Вырастет спрос на дата-сайентистов, ML-инженеров, специалистов по данным и безопасности. В общем на тех, кто будет заниматься структурированием и очисткой данных. Кроме того, появятся стартапы и B2B-продукты на основе нашей ИИ-модели, усилится исследовательская школа, сформируется рынок данных и практик ответственного применения ИИ.

Я был на презентации продуктов ISSAI, где показывали, в том числе, модель для обработки изображений Oylan и пакет для работы с речью MangiSoz. Это уже не просто исследования, а реальные решения, которые постепенно доводятся до практического применения.

Важно, что их уже можно протестировать – они доступны на сайте issai.kz. Это говорит о том, что в Казахстане начинают появляться не только научные разработки, но и прикладные ИИ-продукты. Понятно, что такие сервисы еще будут улучшаться – это нормальный процесс для любой новой технологии. Но сам факт их появления показывает, что формируется своя ИИ-экосистема. И со временем таких решений будет становиться больше.

Резюмирую: казахстанская языковая модель – ресурс ,не менее ценный для государства, чем нефть или газ. Потому что язык, которого нет в цифровой среде, становится неконкурентоспособным в реальной жизни.

КazLLM ИИ искусственный интеллект