«Делаем всю информацию доступной на казахском языке». Специалисты Yandex Qazaqstan рассказали, как развивают Нейро
В Казахстане стал доступен новый формат поиска. В результатах Яндекс Поиска появился Нейро, который изучит все доступные знания интернета и объединит в один ответ информацию из нескольких источников. При этом теперь Нейро автоматически предоставляет ответы прямо в поисковой выдаче Яндекса для запросов на русском и казахском языках.
Продуктовый менеджер Яндекс Поиска Салтанат Болатбекова и старший менеджер продукта Яндекс Поиск Алмаз Саденов объяснили, как и какие специалисты готовили запуск Нейро в Казахстане и на какие поисковые запросы казахстанцев дают ответы нейросети.
«Количество взаимодействий выросло в 100 раз»
— Чем поиск с Нейро отличается от привычного нам?
Алмаз: — Обычный поиск, к которому все привыкли, выдает результаты на основе текстовых совпадений – в запросе и на сайте. Поиск с Нейро в режиме реального времени находит несколько самых подходящих источников, анализирует их, объединяет информацию в один ответ.
Люди обращаются к поиску с разными запросами: купить товар, найти книгу, запланировать путешествие, узнать ответ на вопрос. Поиск с Нейро помогает с так называемыми информационными сценариями и отличает их от запросов, на которые нужно просто показать сайт или товар. Кроме того, нейросети дают ответы на сложные вопросы, для которых требуется изучить несколько источников из интернета. При этом пользователю доступны ссылки на статьи, где он может уточнить или проверить детали.
— Как проходила подготовка к запуску поиска с Нейро в Казахстане?
Салтанат: — Когда запускали Нейро в Казахстане, преодолели несколько этапов подготовки. Обучение проходило около полугода, прежде чем Нейро появился на главной странице Яндекса. Нам нужно было найти баланс, чтобы ответы соответствовали запросам пользователей и нашим стандартам качества: безопасность, компетентность, подтвержденность, полезность. Тренировка моделей подразумевает использование разных алгоритмов и подходов машинного обучения.
— На Yandex Qazaqstan Day в июне 2024 года компания представила Нейро на главной странице поиска. Что изменилось с тех пор?
Салтанат: — Команда экспериментировала с разными подходами. Сначала пользователям нужно было нажать специальную кнопку на главной странице поиска, чтобы воспользоваться Нейро. Мы хотели посмотреть, как новый сервис будет воспринят людьми, какие вопросы они будут задавать, в каких случаях его использовать. Затем провести раунд улучшения качества на этих запросах. И только потом добавить такие ответы в поиск, потому что нам очень важно высокое качество и полезность всех элементов выдачи.
С июня по сентябрь команда работала над содержательностью, лаконичностью, правдивостью и актуальностью выдачи: проводили тестирование модели и собирали обратную связь для дообучения.
И в сентябре мы были готовы начать отображать ответы, созданные с помощью нейросетей, на запросы пользователей в классическом поисковике. Для этого научились определять, какие запросы требуют использования ИИ. Теперь Нейро интегрирован в разные части поиска. Во-первых, он будет полезен прежде всего там, где поможет сэкономить время. Например, поиск с Нейро поможет быстрее разобраться в этапах развития Алтын Орды или расскажет, кто больше – современный слон или стегозавр. Во-вторых, если пользователь хочет увидеть ответ Нейро там, где он не появился автоматически, есть специальная кнопка для нейро-ответов на поисковой выдаче.
— Как пользователи отреагировали на изменения?
Салтанат: — Количество взаимодействий с Нейро выросло в 100 раз после того, как ответы от сервиса стали появляться сразу в поисковой выдаче. Когда Нейро был только на главной странице, пользователям нужно было специально нажимать кнопку. Ей пользовались в основном те, кто готов к экспериментам и замечает изменения в интерфейсе. Теперь, когда ответы от Нейро интегрированы в выдачу поиска, пользователи по привычке вводят запросы и не задумываются, нужно ли подключать ИИ.
В ответах Нейро есть кнопки «лайк» и «дизлайк», которые позволяют людям оставлять обратную связь. Большинство отзывов положительные.
«Тренируем модель в несколько этапов»
— На каких запросах срабатывает Нейро?
Салтанат: — Обычно это информационные запросы, которые часто начинаются с вопросительных слов: «что», «как», «где» и т. д. Люди хотят получить ответ, объяснение или подробности, а не совершить покупку или выполнить какое-то действие.
Если пользователь делает запрос информационного характера, система принимает решение показать нейро-ответ. Иногда алгоритмы могут ошибаться. Тогда поведение человека говорит о том, что ответ ему не был полезен: например, он кликает на другой элемент или делает перезапрос. Алгоритм обучается на основе этих взаимодействий.
Также система учитывает предпочтения пользователя. Если он никогда не кликает на элементы Нейро в выдаче, а просто переходит на сайты, то блок с ответами от Нейро будет появляться реже.
— Расскажите подробнее об обучении модели. Как организован процесс и как вы оцениваете результаты?
Алмаз: — Сначала аналитики пишут инструкции для AI-тренеров – людей, которые говорят по-русски и по-казахски, а также понимают локальный контекст. Например, пользователь задает вопрос: «Как восстановить паспорт?». По инструкции тренеры должны оценить, насколько хорошо сформулирован ответ и соответствует ли он законодательству Казахстана. Если источники дают разную информацию и стилистику, важно, чтобы ответ от Нейро был однозначным и понятным. В процессе необходимо учитывать подтвержденность информации, чтобы Нейро не выдумывал данные, не указанные в источниках.
AI-тренеры размечают ответы по различным параметрам, которые указаны в инструкции. Несколько специалистов работает над одной задачей параллельно, чтобы убедиться, что разметку можно масштабировать. После проверки инструкции начинается обучение, и мы получаем черновую версию модели.
Следующий этап – улучшение качества модели, устранение ошибок или недостатков. Здесь может быть много итераций, после которых принимаем решение о принятии модели. Если она не отвечает стандартам качества, продолжаем дообучение.
Ежедневно начинаем утро с проверки дашборда, где отслеживаем качество работы модели. У нас есть два вида метрик: офлайн и онлайн. Офлайн-метрики собираем вручную, когда наши AI-тренеры размечают качество ответов. Онлайн-метрики основываются на обратной связи от пользователей. Это не всегда просто лайки или дизлайки. Например, пользователь ввел запрос, увидел ответ от Нейро, но, не задерживаясь на нем, кликнул на элементы ниже. Это сигнал, что Нейро не помог человеку.
«Нейро получает каждый седьмой запрос на казахском языке»
— Как проходит локализация и обучение модели на казахском языке?
Алмаз: — Когда пользователи общались с первыми версиями моделей, им часто приходилось уточнять вопрос. Например: «Можно ли ездить с глухой тонировкой в машине?». И следом: «В Казахстане». Так происходило, потому что первыми в выдаче появлялись документы, актуальные для других стран.
После доработок люди начали получать релевантную информацию, соответствующую не только стране, но и конкретным регионам. Выдача для человека в Атырау может отличаться от того, что появится на экране в ВКО.
Салтанат: — Для работы с казахским языком нужны были двуязычные тренеры, так как часть ответов Нейро формируется только на основе казахских источников, а другая часть – на русских и английских. Это особенно важно для редких запросов, по которым может не хватать информации на одном языке. Например, пользователь ищет «Кашмир мәдениеті» (культура Кашмира). Информации практически нет ни на русском, ни на казахском. В таком случае Нейро изучит документы на английском.
Казахский язык очень метафоричен. Важно понимание контекста, пословиц, стихов и песен. Например, запрос на казахском «Аягөз қайда барасың?» переводится как «Куда ты идешь, Аягоз?». Ранние версии Нейро выдавали ответы про реку Аягоз или город в Абайской области. А на самом деле пользователь просто хотел послушать песню с таким названием.
— Какую информацию пользователи чаще ищут на казахском языке?
Салтанат: — Около 70% запросов в поиске на казахском связаны с образованием. А Нейро получает каждый седьмой запрос на казахском. Например: «Что такое джоуль?», «Второй закон Ньютона» или «Экономические особенности Золотой Орды». В основном казахоязычные запросы поступают от школьников, которые готовятся к урокам на государственном языке.
В интернете очень мало информации на казахском. Например, рунет составляет всего 3-5% от информации в глобальной сети, казнет – еще меньше. Теперь, если сделать запрос на родном языке, нейропоиск обращается к информации на разных языках и нативно составляет ответ на казахском.
— Помимо Нейро, какие еще решения доступны на казахском языке и как они помогают пользователям?
Алмаз: — Заметили, что пользователи хотят видеть функционал, поддерживающий казахский язык. Одним из ключевых нововведений стал голосовой поиск в мобильных приложениях Яндекса и Яндекс Браузера. Можно голосом задавать вопросы на казахском и русском языках без необходимости переключения. Пользователи часто комбинируют лексику, и система это распознает. Фичу запустили в апреле этого года, с тех пор количество пользователей голосового поиска значительно выросло.
Алиса в Казахстане – тоже билингва. Она понимает контекст и отвечает на языке, на котором был задан вопрос. Процесс обучения Нейро, Алисы и голосового поиска – это разные задачи, но команды работают в тесной синхронизации. Кроме того, благодаря нашей технологии синтеза речи теперь можно смотреть видео с автоматическим голосовым переводом, выполненным нейросетью. Это расширяет доступ к информации на казахском языке. Перевод на казахский доступен на платформах Яндекс Видео, YouTube, Vimeo, VK и Coursera.
«Добавим новые сценарии, которые выходят за рамки информационного поиска»
— Что отличает Нейро от других похожих сервисов?
Алмаз: — Основное конкурентное преимущество Нейро в том, что мы встроили его в поиск. Яндекс Поиск с Нейро бесплатный, казахстанцы получают доступ к последней модели и могут использовать ее неограниченно. Пользователю не нужно выбирать между поисковиком и ИИ-помощником. Он вводит запрос и получает контекстный ответ. Ответы Нейро краткие, а если пользователю нужно больше деталей, можно пройти по предложенным ссылкам. Еще одно важное преимущество – подтвержденность, так как в своих ответах Нейро всегда ссылается на источники.
В отличие от генеративных нейросетей, которые обучены на определенном датасете, Нейро берет данные из поисковой выдачи. Это значит, что для его ответов используется свежая информация – даже та, что появилась в интернете только сегодня.
— Как вы видите развитие Нейро и Поиска в ближайшем будущем?
Алмаз: — Сейчас изучаем, какие задачи может помогать решать Нейро. В дальнейшем хотелось бы расширять функциональность. Продолжим улучшать качество ответов, а также добавим новые сценарии, которые выходят за рамки информационного поиска.