«Чтобы голосовой помощник работал на казахском качественнее, продолжаем нанимать носителей языка». Интервью с CTO «Алиса» Арсланом Урташевым
Текущий год стал важным для Яндекса в Казахстане. Компания продолжает активную локализацию сервисов и продуктов на казахский язык, арендовала новый офис для регионального хаба, который станет крупнейшим в Центральной Азии. Также ИТ-гигант договорился с МЦРИАП о переносе серверов yandex.kz на территорию Казахстана.
В интервью Digital Business CTO «Алиса» Арслан Урташев рассказал, как Яндекс внедрил казахский язык в голосового помощника и от решения каких задач зависит будущее больших языковых моделей.
– Прежде чем поговорить о текущей работе, расскажите, как давно вы в компании?
– Изначально я был разработчиком на C++ и присоединился к Яндексу в 2013-м году, когда учился на 3 курсе Московского инженерно-физического института. Сначала работал в рекламе и участвовал во внедрении VCG-аукциона (система определения ставок на размещение контекстной рекламы – прим. Digital Business), потом перешел в Поиск. В 2019 году меня попросили возглавить команду проекта «Алиса», отвечающую за инфраструктуру.
«Алиса» росла. Нужны были сильные специалисты, которые обеспечили бы ей стабильную и быструю работу. Но не как в стартапе, где скорость может достигаться в ущерб аккуратности разработки. А за счет продуктового подхода с отлаженными процессами и ответственностью перед большим количеством пользователей. С поставленными задачами мы справились, и два года назад я стал CTO.
– Насколько большая команда сейчас развивает «Алису»?
– Яндекс – крупная компания. В разных проектах, будь то Поиск или Яндекс Музыка, под «Алису» что-то доделывают. Но основной разработкой софта занимается моя команда, в которой примерно 250 человек. Что касается отдела, отвечающего за умные устройства с «Алисой» – там людей еще больше. К нему также относятся продакт-менеджеры, дизайнеры, маркетинг и hardware-разработка, включая проектирование плат и другого железа.
– Как «Алису» локализовали в Казахстане?
– Для создания виртуального голосового ассистента на казахском языке требовалось несколько ML-систем. Одна отвечает за распознавание речи. Для обучения собрали много данных в виде нескольких сотен часов голосовых записей. Распознавать речь ассистенту помогают специальные микрофоны в колонке, которые слышат дальше, чем обычные в телефонах.
Вторая система – диалоговый движок, который работает с текстом после того, как речь распозналась. Он состоит из нескольких частей, включая классификацию интентов (сценариев обращений). Например, прогноз погоды на завтра и т.д. Соответственно, записали множество популярных вопросов на казахском языке и обучили по ним модель.
Классифицировав запрос, диалоговый движок формулирует ответ в виде текста и передает его системе по синтезу речи для озвучки. В нашем случае использовали голос профессионального диктора, записанный в студии. Процесс выбора актера озвучки тоже был достаточно долгий и проходил в несколько этапов.
Сейчас голосовой ассистент на казахском языке доступен в мобильном браузере и приложении Яндекс. Мы постоянно развиваем «Алису» и со временем локализованных сервисов будет больше. Культура Яндекса заключается в постоянном развитии наших продуктов. Тоже самое касается голосового помощника. Недавно выпустили его виртуальный аналог, работающий в Яндекс ТВ-станции, с которым тоже можно общаться голосом, переключать каналы и находить нужный контент.
– С какими сложностями вы столкнулись в локализации?
– Для того, чтобы корректно составить текстовый ответ «Алисы», его нужно собрать из нескольких частей фразы, подставив нужные данные. Например, в случае с погодой – это градусы. Согласование различных частей приложения друг с другом оказалось непростой задачей.
Буквально за день до релиза у нас некорректно произносилась погода. Трудность возникла из-за согласования разных частей фразы. Все удалось решить к запуску, но мы поняли: нужно расширять команду, чтобы не возникало таких сложностей в будущем.
– Нанимаете ли вы сейчас казахстанских разработчиков для решения подобных задач?
– Конечно. Чтобы голосовой помощник работал на казахском качественнее, мы продолжаем нанимать носителей языка в казахстанский хаб. Кстати, сейчас нам требуется казахоговорящий аналитик. Такой специалист как раз отвечает за качество собираемых данных, а также за примеры запросов и инструкции для людей, которых нанимаем для записи голоса и т.д. Для нас важно, чтобы эта работа была проведена качественно.
– Давайте поговорим про глобальные тренды на рынке AI. Как они влияют на продукты Яндекса?
– Мир стремительно меняется. ML-инженеры и дата-сайентисты сегодня – такие рок-звезды, как в свое время Beatles. Достаточно вспомнить, как в ноябре весь мир следил за увольнением Сэма Альтмана из Open AI и его возвращением. Все это не просто так. Совсем недавно большие языковые модели научились делать то, что еще несколько лет назад казалось невозможным. Причем не только простым обывателям, но и людям непосредственно из индустрии.
Перед разработчиками больших языковых моделей сейчас стоят две основные задачи. Первая – сделать так, чтобы они не галлюцинировали, то есть не врали. Пока это большой челлендж. Но решение этой задачи снова перевернет индустрию. В таком случае LLM-модели можно будет использовать в критически важных областях.
Вторая большая задача – доступ к актуальной свежей информации. Сейчас языковые модели ограничиваются данными, полученными на момент их обучения. Открыть им доступ к информации, которую они не видели в выборке, тоже важно для развития этой области.
Что касается нас, в мае сделали релиз, в котором есть доступ к модели Яндекс GPT через «Алису». Для этого нужно зайти в отдельный режим «Давай придумаем». Достаточно сказать «помоги придумать» — и пользователь сможет поработать с моделью. Интересно и то, что большие языковые модели обладают знаниями многих языков, которые есть в их датасетах. Они даже неплохо решают задачу перевода, специально ей не обучаясь.