«Чтобы голосовой помощник работал на казахском качественнее, продолжаем нанимать носителей языка». Интервью с CTO «Алиса» Арсланом Урташевым

О редакции Топ-10 казахстанских стартапов по версии Digital Business
Дата публикации: 14.12.2023, 09:22
Арслан Урташев

Арслан Урташев

Текущий год стал важным для Яндекса в Казахстане. Компания продолжает активную локализацию сервисов и продуктов на казахский язык,  арендовала новый офис для регионального хаба, который станет крупнейшим в Центральной Азии.  Также ИТ-гигант договорился с МЦРИАП о переносе серверов yandex.kz на территорию Казахстана.

В интервью Digital Business CTO «Алиса» Арслан Урташев рассказал, как Яндекс внедрил казахский язык в голосового помощника и от решения каких задач зависит будущее больших языковых моделей.

– Прежде чем поговорить о текущей работе, расскажите, как давно вы в компании?

– Изначально я был разработчиком на C++ и присоединился к Яндексу в 2013-м году, когда учился на 3 курсе Московского инженерно-физического института. Сначала работал в рекламе и участвовал во внедрении VCG-аукциона (система определения ставок на размещение контекстной рекламы – прим. Digital Business), потом перешел в Поиск. В 2019 году меня попросили возглавить команду проекта «Алиса», отвечающую за инфраструктуру.

Арслан Урташев

«Алиса» росла. Нужны были сильные специалисты, которые обеспечили бы ей стабильную и быструю работу. Но не как в стартапе, где скорость может достигаться в ущерб аккуратности разработки.  А за счет продуктового подхода с отлаженными процессами и ответственностью перед большим количеством пользователей. С поставленными задачами мы справились, и два года назад я стал CTO.

– Насколько большая команда сейчас развивает «Алису»?

– Яндекс – крупная компания. В разных проектах, будь то Поиск или Яндекс Музыка, под «Алису» что-то доделывают. Но основной разработкой софта занимается моя команда, в которой примерно 250 человек. Что касается отдела, отвечающего за умные устройства с «Алисой» – там людей еще больше. К нему также относятся продакт-менеджеры, дизайнеры, маркетинг и hardware-разработка, включая проектирование плат и другого железа.

– Как «Алису» локализовали в Казахстане?

Арслан Урташев

– Для создания виртуального голосового ассистента на казахском языке требовалось несколько ML-систем. Одна отвечает за распознавание речи.  Для обучения собрали много данных в виде нескольких сотен часов голосовых записей. Распознавать речь ассистенту помогают специальные микрофоны в колонке, которые слышат дальше, чем обычные в телефонах.

Вторая система – диалоговый движок, который работает с текстом после того, как речь распозналась. Он состоит из нескольких частей, включая классификацию интентов (сценариев обращений). Например, прогноз погоды на завтра и т.д. Соответственно, записали множество популярных вопросов на казахском языке и обучили по ним модель.

Классифицировав запрос, диалоговый движок формулирует ответ в виде текста и передает его системе по синтезу речи для озвучки. В нашем случае использовали голос профессионального диктора, записанный в студии. Процесс выбора актера озвучки тоже был достаточно долгий и проходил в несколько этапов.

Арслан Урташев

Сейчас голосовой ассистент на казахском языке доступен в мобильном браузере и приложении Яндекс. Мы постоянно развиваем «Алису» и со временем локализованных сервисов будет больше. Культура Яндекса заключается в постоянном развитии наших продуктов. Тоже самое касается голосового помощника. Недавно выпустили его виртуальный аналог, работающий в Яндекс ТВ-станции, с которым тоже можно общаться голосом, переключать каналы и находить нужный контент.

– С какими сложностями вы столкнулись в локализации?

– Для того, чтобы корректно составить текстовый ответ «Алисы», его нужно собрать из нескольких частей фразы, подставив нужные данные. Например, в случае с погодой – это градусы. Согласование различных частей приложения друг с другом оказалось непростой задачей.

Арслан Урташев

Буквально за день до релиза у нас некорректно произносилась погода. Трудность возникла из-за согласования разных частей фразы. Все удалось решить к запуску, но мы поняли: нужно расширять команду, чтобы не возникало таких сложностей в будущем.

– Нанимаете ли вы сейчас казахстанских разработчиков для решения подобных задач?

– Конечно. Чтобы голосовой помощник работал на казахском качественнее, мы продолжаем нанимать носителей языка в казахстанский хаб. Кстати, сейчас нам требуется казахоговорящий аналитик. Такой специалист как раз отвечает за качество собираемых данных, а также за примеры запросов и инструкции для людей, которых нанимаем для записи голоса и т.д. Для нас важно, чтобы эта работа была проведена качественно.

– Давайте поговорим про глобальные тренды на рынке AI. Как они влияют на продукты Яндекса?

Арслан Урташев

– Мир стремительно меняется. ML-инженеры и дата-сайентисты сегодня – такие рок-звезды, как в свое время Beatles. Достаточно вспомнить, как в ноябре весь мир следил за увольнением Сэма Альтмана из Open AI и его возвращением. Все это не просто так. Совсем недавно большие языковые модели научились делать то, что еще несколько лет назад казалось невозможным. Причем не только простым обывателям, но и людям непосредственно из индустрии.

Перед разработчиками больших языковых моделей сейчас стоят две основные задачи. Первая – сделать так, чтобы они не галлюцинировали, то есть не врали. Пока это большой челлендж. Но решение этой задачи снова перевернет индустрию. В таком случае LLM-модели можно будет использовать в критически важных областях.

Вторая большая задача – доступ к актуальной свежей информации. Сейчас языковые модели ограничиваются данными, полученными на момент их обучения. Открыть им доступ к информации, которую они не видели в выборке, тоже важно для развития этой области.

Арслан Урташев

Что касается нас, в мае  сделали релиз, в котором есть доступ к модели Яндекс GPT через «Алису». Для этого нужно зайти в отдельный режим «Давай придумаем». Достаточно сказать  «помоги придумать» — и пользователь сможет поработать с моделью. Интересно и то, что большие языковые модели обладают знаниями многих языков, которые есть в их датасетах. Они даже неплохо решают задачу перевода, специально ей не обучаясь.