Как можно использовать казахский язык в речевых технологиях для бизнеса? Опыт Yandex Cloud
Речевые технологии уже сейчас помогают не только автоматизировать бизнес, но и делать его более узнаваемым благодаря запоминающимся голосам, которые ежедневно общаются с десятками, если не сотнями тысяч клиентов. При этом речевые модели постоянно изменяются — и, например, учатся понимать сразу несколько языков или говорить с разными интонациями.
Про важные обновления в мире речевых технологий и новую пользу, которую может получить от них бизнес в Казахстане, рассказала руководитель группы по развитию бизнеса ML‑сервисов Yandex Cloud Елена Белоброва на площадке Yandex Scale Kazakhstan.
О чем этот текст?
Мы в Yandex Cloud вкладываем в понятие развития казахского языка в сфере речевых технологий 4 ключевых смысла:
- В первую очередь нужно научить технологии распознавать естественную речь. Ведь если голосовой робот не понимает собеседника, то он не выполняет главной функции — и не упрощает коммуникацию;
- Затем мы учим технологии говорить на казахском языке. Так, чтобы это было неотличимо от обычного человека;
- После этого важно обеспечить удобный доступ к самой технологии и сделать ее доступной любому бизнесу;
- Последний, но не менее важный пункт — организация достаточного количества готовых решений и ML-продуктов, которые могут решать задачи клиентов из разных сфер.
По такому принципу и построю свой доклад.
Распознавание естественной речи
Еще в России мы сделали модель распознавания для русского языка. В Казахстане пытались сделать аналогичную технологию для казахского языка. Но сразу поняли, что применить такой же подход не получится из-за билингвизма: часто люди используют в разговоре два языка одновременно, буквально в одной фразе могут быть как русские, так и казахские слова.
Мы пересмотрели стратегию в создании моделей для распознавания речи. Так пришли к формату автоматической модели, которая сама понимает язык собеседника и умеет отвечать на том же языке. Она может распознавать больше 10 языков одновременно — и постоянно обучается.
Как это работает, можно увидеть здесь:
Сначала модель распознает речь собеседника и идентифицирует язык. В случае, если человек переходит с русского на казахский или наоборот, технология за одно предложение изменяет язык распознавания, подстраиваясь тем самым под спикера.
Чтобы клиентам и партнерам было проще использовать эту технологию в бизнесе, мы ввели расчет вероятности приоритетного языка: модель анализирует реплику человека и ее контекст, определяет в процентном соотношении язык, на котором чаще всего говорил собеседник, и выдает его в виде дополнительного числового параметра. Так можно адаптировать робота под любой диалог.
Правда, у этой автоматической модели есть небольшой нюанс — ее качество чуть хуже, чем у модели, которая работает только с одним языком. Чтобы снизить этот эффект, мы ввели возможность вводить ограничения, то есть задавать языки, на которых, вероятнее всего, состоится диалог. Кажется, что это никак не ограничивает применение речевой технологии для бизнеса. Ведь если робот общается с человеком по имени Жанар из Алматы, ему вряд ли стоит ждать ответа на немецком или французском. Языковой пары «казахский-русский» будет вполне достаточно.
Введение языковых пар помогло нивелировать погрешность автоматической модели.
Есть еще один важный момент в распознавании речи — специфическая терминология. В разных сферах бизнеса и клиентского сервиса есть свои термины, которые робот обязан знать для того, чтобы поддерживать диалог. Мы в Yandex Cloud построили понятный и быстрый процесс дообучения речевых моделей под нужную тематику.
Процесс дообучения занимает примерно один месяц после разметки на казахском или русском языках. Единственное, что требуется от компании, — передать аудио или термины, распознавание которых хочется улучшить. Разметку и обучение команда Yandex Cloud берет на себя, для клиента этот процесс всегда бесплатный.
Синтез речи
За время работы в России мы собрали 17 разных голосов синтеза речи на русском языке и еще 8 голосов — на иностранных. Первый синтез речи хорошего качества в Казахстане появился в 2022 году — его звали Мади. Его активно внедряли в различные сценарии в жизни наших клиентов, и он в целом показывает отличную эффективность для бизнеса, широко используется в Казахстане у многих компаний.
После разработки автоматической речевой модели, которая умеет понимать и говорить сразу на нескольких языках, у нас появилась необходимость ввести новый язык с тем же голосом. Ведь согласитесь: будет странно, если клиенту позвонит Мади и скажет «Сәлемет сіз бе», клиент ответит ему, что не говорит по-казахски — и в этот же момент робот переключится с мужского голоса на женский. Это как минимум выбьет собеседника из колеи. Поэтому голос Мади доступен и на русском языке.
Параллельно к нам стали приходить клиенты с запросом сделать еще и женский голос, с которым проще работать во многих бизнес-сценариях колл-центров, таких как опросы и продажи услуг. Мы в Yandex Cloud прислушались к этим запросам и несколько месяцев назад начали подбор подходящих актрис в Казахстане с хорошим голосом и навыком говорить и на русском, и на казахском. И буквально 2 недели назад выпустили в продакшен голос по имени Сауле. Звучит он следующим образом:
Сауле говорит на русском
Сауле говорит на казахском доброжелательно
Сауле говорит на казахском строго
Сауле может говорить добродушно и строго, на казахском и на русском, поэтому умеет быть разной и подстраиваться под сценарии клиента. Кстати, в процессе кастинга нашли еще одну достойную актрису, чей голос появится в продакшене совсем скоро.
У некоторых клиентов есть запрос — чтобы робот говорил узнаваемыми голосами их сотрудников или знаменитостей, которые представляют их бренд. Для нас это не проблема — уже сейчас в Казахстане внедряем проекты SpeechKit Brand Voice, когда создаем синтез речи голосом человека, который интересен заказчику. За последний год реализовали 5 таких проектов на казахском языке и еще несколько на русском для казахстанских клиентов.
Сейчас для реализации 1 проекта на казахском нужен датасет из 5 часов аудио, на русском — из 1-2 часов. Со временем его размер будет уменьшаться. По времени реализации сделать такой Brand Voice проект можно за 1 месяц после того, как будет готово аудио с голосом нужного нам диктора.
Интеграция речевых моделей в инфраструктуру бизнеса
Нас часто спрашивают, где физически находятся наши речевые модели. Один из основных способов доступа к SpeechKit — через российское «облако». В российском хранилище доступны все голоса, которые способны говорить на любых доступных нам языках. Часть казахстанских бизнесов устраивает этот способ из-за удобства и абсолютно не критичной задержки по части передачи данных.
Но понятно, что многим казахстанским компаниям этот вариант не подходит. Для них мы разработали Yandex SpeechKit Hybrid. По сути, это онпрем-версия классического SpeechKit с теми же самыми языками и речевыми моделями, которые можно установить в инфраструктуру любой компании. И при этом сделать так, чтобы их использование шло исключительно внутри ЦОДа компании. Единственный минус этого способа доступа в том, что бизнесу нужно иметь инфраструктуру, которую поддерживает Yandex SpeechKit Hybrid.
Есть еще один способ, который сейчас доступен только в Казахстане. Суть заключается в том, что наши партнеры в Казахстане инсталлируют к себе в дата-центр Yandex SpeechKit Hybrid и предоставляют конечным клиентам доступ к нему в рамках своего продукта. И все данные обрабатываются внутри страны.
И, конечно же, вы знаете, что у нас есть собственный ЦОД в Казахстане, который мы открыли совсем недавно. В наших планах — в 2025 году закончить инсталляцию SpeechKit, чтобы у казахстанского бизнеса была возможность пользоваться им без собственной инфраструктуры и с сохранением данных на территории страны.
Трансформация технологии в готовые решения для бизнеса
Но все-таки SpeechKit — это технология. Только с помощью технологии не создашь готового голосового помощника, потому что в этом процессе есть много других вещей, например, интеграция и создание скриптов для корректной работы системы.
Чтобы у нас были конечные решения на базе SpeechKit, Yandex Cloud Kazakhstan создал большую партнерскую сеть. Сейчас у нас в речевых технологиях более 10 сертифицированных партнеров, они специализируются на разных сценариях — от голосовых роботов в поддержке и продажах до речевой аналитики. А также мы создали собственное решение SpeechSense для аналитики коммуникаций, в котором в ближайшее время будет также поддержан казахский язык. Все вместе мы помогаем бизнесу в Казахстане расти и развиваться.