Понимают ли ChatGPT, Copilot и Bard казахский язык? Проверили на себе

О редакции Первое интервью с руководителем Комитета искусственного интеллекта
Дата публикации: 08.02.2024, 09:01
ИТ-специалист

Фото: Vanessa Nunes, iStock

Чат-боты с искусственным интеллектом теперь используют почти во всех сферах жизни. Бот может помочь разработчикам написать код, SMM-менеджерам – составить контент-план, а студентам – написать курсовую. Digital Business решил проверить, как Bard, Copilot и Chat GPT работают на казахском. Делимся результатами.

О чем будем просить чат-ботов?

Каждому ИИ-ассистенту давали 4 одинаковых промпта:

  1. Составить поздравление с днем рождения для нашего коллеги Дайрабая Бекжанова;
  2. Предложить 5 идей для постов в Instagram-аккаунте Digital Business;
  3. Написать 5 практических советов из книги Даниеля Канемана «Думай медленно, решай быстро»;
  4. Объяснить простым языком, что такое баг.

Все запросы мы сразу писали на казахском, а если бот не справлялся, упрощали формулировку, спрашивали на русском или вовсе меняли задание.

Copilot

ИИ-помощник от Microsoft Copilot на казахский язык реагирует, здоровается и понимает базовые вопросы. Например, отвечает, какая погода сегодня в Алматы. Поэтому приступаем к основным заданиям.

Задание 1

Просим составить поздравление для Дайрабая Бекжанова. На казахском языке запрос выглядит так:

«Менің әріптесім Бекжанова Дайрабайдың туған күні. Компанияның топтық чатында жариялауға болатын туған күнімен құттықтау жазыңыз. Құттықтауда 2 абзац, 5 тілек және соңында туған күн иесіне қатысты әзіл болуы керек. Құттықтауларыңызда Дайарабайдың кәсіби қасиеттерін және оның еңбегін қаншалықты бағалайтынымызды атап өтіңіз».

Перевод на русский звучит следующим образом:

«У моего коллеги Дайрабая Бекжанова день рождения. Напиши поздравление с днем рождения, которое можно будет опубликовать в групповом чате компании. Поздравление должно включать в себя 2 абзаца, 5 пожеланий и шутку, связанную с именинником, в конце. В поздравлении упомяни о профессиональных качествах Дайрабая, о том, как мы ценим его работу».

Выбираем творческий стиль беседы и отправляем текст в чат. Вот, что предлагает Copilot.

 

Copilot

Шутки про именинника не увидели, но некоторые фразы можно подкорректировать и использовать в поздравлении. Например, «Пусть счастье, успех и здоровье будут в вашей жизни! Пусть ваши рабочие и жизненные планы сбываются! Пусть ваш день рождения будет интересным и запоминающимся!». Однако полностью брать данный текст и публиковать в рабочем чате точно не стоит.

При выборе сбалансированного или точного стиля беседы в ответ получили лишь перефразированный текст запроса.

Задание 2

Переходим к запросу про Instagram. Пробуем как творческий, так и сбалансированный стиль повествования. Отправляем следующий запрос. «@digitalbusinesskazakhstan аккаунты үшін Instagram жазбаларына 5 идея жазыңыз. Бұл Қазақстандағы ІТ-технологиялар, стартаптар және цифрландыру туралы жазатын БАҚ». На русском это звучит так: «Напиши 5 идей для постов в инстаграм-аккаунте @digitalbusinesskazakhstan. Это СМИ, которое пишет про ИТ-технологии, стартапы и цифровизацию в Казахстане».

Начнем с творческого стиля. Ответ вышел довольно длинным, но относительно полезным. Copilot предложил сделать краткий обзор 10 ИТ-стартапов Казахстана (Cerebra, Citix, Clockster и др). Вторая идея – рассказать о мерах повышения цифровой грамотности в нашей стране. Далее ИИ рекомендует составить пост о системе «умного города», написать о развитии электронной коммерции и рассмотреть венчурные фонды страны.

Copilot

При выборе сбалансированного стиля помощник оказался более кратким и предложил 5 пунктов: технологические тенденции, кодирование и программирование, создание стартапов, создание ИТ-предпринимательства. Скорее всего, именно об этом Copilot предлагает писать на странице.

Copilot

Задание 3

Задача по созданию выжимки из текста, кажется, сломала ИИ-ассистента. Запрос выглядел так: «Канеманның «Баяу ойла, тез шешім қабылда» кітабынан 5 практикалық кеңес жазыңыз». При точном стиле повествования, ориентированном на сбор фактов, Copilot выдает лишь один пункт из непонятного набора слов, а далее пишет «conscious» (сознание), пока его не остановить.

Copilot

Замечаем интересную деталь. В ответе используется слово мозғ. Те, кто владеют казахским, знают: с русского «мозг» переводится как «ми», а вот слова «мозғ» не существует.

Чтобы не мучить систему, меняем задание и просим ИИ кратко пересказать одну из казахоязычных статей на Digital Business. В запросе сообщаем, что ответ должен содержать основные выводы из материала. Объем – 7 предложений.

Copilot

В результате получаем всего одно предложение, где говорится, когда была написана статья и что она про авиабилеты и перелеты. Материал действительно об этом, поэтому будем считать, что на 10% из 100% Copilot справился.

Задание 4

Для последнего квеста чуть изменим механику. Запрос напишем на русском, но чат попросим ответить на казахском. Получаем достаточно длинный ответ, который в целом запрос удовлетворяет. ИИ пишет, «что баг – это ошибка, которая вызывает сбой в компьютерной программе». И даже приводит пример бага. «Например, если вы ввели пароль на сайте банка, а вам показали данные другого человека – это баг». Также помощник говорит, что баги приводят к сбою и потере данных, поэтому очень важно их вовремя исправлять.

Copilot

ChatGPT

Чат GPT тоже понимает казахский: здоровается, но на вопрос о погоде не отвечает, предлагая обратиться к местным сайтам.

Задание 1

На просьбу поздравить Дайрабая с днем рождения в двух абзацах получаем сразу четыре. Однако текст представляет непонятный набор слов. Пробуем упростить запрос до одного предложения, но опять не получаем ничего внятного.

Chat GPT
Создается впечатление, что бот переводит ответы на казахский дословно, как Google Translate несколько лет назад. Из-за этого смысл уловить невозможно.

Задание 2

С идеями для инстаграм-аккаунта ChatGPT справился лучше. Выдал 5 пунктов, как и просили. Предложил рассказать об инновационных стартапах, пообщаться с ИТ-лидерами и блогерами, и еще несколько непереводимых конструкций. Отправляем этот же запрос на русском, чтобы понять, что имелось в виду. Вот 5 пунктов, которые предложил ИИ-ассистент.

Chat GPT

Ответ Chat GPT на русском языке

Это еще раз подтверждает теорию, что ChatGPT берет ответы на английском или русском языках, а затем дословно переводит.

Задание 3

Написать 5 практических советов на казахском из книги Даниеля Канемана у бота тоже не получилось. На русском помощник составил корректный список, а на казахском  можно понять лишь отдельные слова. Смысла в предложениях нет.

Chat GPT

Кратко пересказать текст у ChatGPT тоже не вышло. Полный текст оказался для него слишком длинным, а при загрузке нескольких абзацев бот отправлял ответ в том же виде.

Задание 4

Последний запрос также составим на русском с пометкой, что ответ нужен на казахском. С заданием чат-бот справился лучше. Рассказал, что баг – это ошибка, которая возникает в процессе написания кода, а дальше вновь начал переводить с ошибками (точнее с багами).

ChatGPT

Bard

Самое короткое тестирование получилось с помощником от Google – на данный момент Bard не поддерживает казахский язык. С запросами на русском ИИ-ассистент справляется отлично и даже подбирает изображения к своим ответам. Если нужна будет картинка для WhatsApp, можно смело обращаться к Bard.

Bard

Таким образом, самые грамотные ответы мы получили от Сopilot, однако точно понятно, что доверять ИИ-помощникам сложные задачи на казахском пока рано.

«Для обучения современной языковой модели на приемлемом уровне потребуется минимум от 10 до 100 ТБ чистых текстовых данных». Мнение эксперта

Профессор-практик по направлению ИИ и основатель компании NeoAI Айдын Маутхан рассказал, на каком уровне чат-боты с искусственным интеллектом знают казахский.

– Официальной градации по знанию языков среди ИИ-помощников нет, так как модели обучаются быстро и неравномерно . На данный момент уровень владения казахским языком у ChatGPT – elementary. Но еще полгода назад дела обстояли намного хуже. Улучшения происходят благодаря быстрому развитию технологии перевода.

Также активно развиваются Few-Shot learning (обучения на небольшом количестве данных) и Transfer learning (перенос обучения). Они позволяют на небольшом количестве примеров адаптировать множество запросов с неплохой точностью языка.

Эксперт также поделился своим мнением о том, когда ИИ-помощники станут лучше общаться на казахском языке, и какие ресурсы для этого нужны:

– Предполагаю, что для обучения современной языковой модели на приемлемом уровне потребуется минимум от 10 до 100 ТБ чистых текстовых данных. В интернете такого объема нет, так как 70% материалов на казахском языке в сети написаны с ошибками. Поэтому без помощи научных центров такая работа невозможна. Нужны лингвисты, которые построят логическую цепочку и айтишники, которые оптимизируют все в код. Это требует больших финансовых вложений. Еще необходимы облачные сервера, на которых информация будет храниться. В Казахстане с этим проблема, так как услуга недешевая. С командой как-то составляли смету, и вышло более 650 млн тенге для подобного проекта.

Если говорить о времени, то только сбор и предобработка информации займут минимум 5 месяцев. Основная работа может затянуться на срок до года. Процесс обучения продлится еще столько же.

Сейчас базу данных на казахском языке активно развивают научный центр Назарбаев Университета, компания Яндекс и еще несколько крупных участников. Думаю, что через 4 года у нас будет идеальная языковая модель на казахском языке, которая сможет выполнять самые сложные задачи.

Читайте также: «Придумай шутку про Starlink в Казахстане». Кто остроумнее — ChatGPT, Bard или Copilot?