Бизнеске арналған сөйлеу технологияларында қазақ тілін қалай қолдануға болады? Yandex Cloud тәжірибесі
Сөйлеу технологиялары қазірден-ақ бизнесті автоматтандыруға ғана емес, сонымен қатар күнделікті ондаған, тіпті жүздеген мың тұтынушымен сөйлесетін жаттанды дауыстардың арқасында оны танымал етуге көмектеседі. Сөйлеу модельдері үнемі өзгеріп отырады және мысалы, бірнеше тілді бірден түсінуді немесе әртүрлі мәнерде сөйлеуді үйренеді.
Сөйлеу технологиялары әлеміндегі маңызды жаңалықтар мен оның Қазақстандағы бизнеске пайдасы жөнінде Yandex Scale Kazakhstan алаңында Yandex Cloud ML‑сервистер бизнесін дамыту тобының жетекшісі Елена Белоброва айтып берді.
Мәтін не туралы?
Біз Yandex Cloud сөйлеу технологиялары саласындағы қазақ тілін дамыту тұжырымдамасына 4 негізгі мәнді енгіземіз:
-
- Бірінші кезекте, технологияны табиғи тілді тануға үйрету керек. Өйткені, егер дауысты робот сөйлесіп отырған адамды түсінбесе, онда ол негізгі функцияны орындамайды және қарым-қатынасты жеңілдетпейді;
- Осыдан кейін технологияны адамнан айырмашылығы болмайтындай деңгейде қазақ тілінде сөйлеуге үйретеміз;
- Содан соң технологияны кез келген бизнеске қол жетімді ету маңызды;
- Соңғы, бірақ маңызды пункт — әр түрлі саладағы клиенттердің мәселесін шеше алатын дайын шешімдер мен ML-өнімдердің жеткілікті мөлшерін ұйымдастыру.
Баяндаманы осы тәртіппен құрамын.
Сөйлеуді тану
Ресейде болғанда біз орыс тілін танитын үлгіні әзірледік. Қазақстанда қазақ тілін танитын осыған ұқсас технологияны жасап көріп едік. Бірақ, билингвизмге байланысты мұндай тәсілді қолдана алмайтынымызды түсіндік. Мұнда адамдар екі тілде қатар сөйлейді, бір сөйлемде қазақша да, орысша да сөздер айтылуы мүмкін.
Сөйлеуді танитын модель құру стратегиясын қайта қарастырдық. Сөйтіп, тілді автоматты түрде танитын форматын таңдадық, ол сөйлеп тұрған адамның тілін өзі түсініп, сол тілде жауап бере алады. Бір уақытта оннан астам тілді тани алады және үнемі өзі үйреніп отырады.
Оның қалай жұмыс істейтінін мына жерде көре аламыз:
Модель алдымен сұхбаттасушының сөйлеуін таниды және тілді анықтайды. Сөйлеп отырған адам орысшадан қазақшаға ауысса немесе керісінше, қазақшадан орысшаға көшсе, технология жылдам спикерге бейімделіп, тану тілін өзгерте қояды.
Клиенттер мен серіктестерге бұл технологияны бизнесте қолдануды жеңілдету үшін біз басым тілдің ықтималдығын есептеуді енгіздік: модель адамның айтқанын және оның мазмұнын талдайды, әңгімелесуші жиі сөйлейтін тілді пайызбен анықтайды және оны қосымша сан параметрі ретінде береді. Осылайша роботты кез-келген диалогқа бейімдей аламыз.
Бұл автоматты үлгінің кішігірім нюансы бар — оның сапасы тек бір тілде жұмыс істейтін модельге қарағанда сәл нашарлау. Сапаға кері әсерін азайту үшін шектеу енгізу мүмкіндігін қарастырдық, яғни диалог болу ықтималы жоғары тілдерді таңдауға болады. Бұл бизнес үшін сөйлеу технологиясын қолдануды шектемейтін сияқты. Өйткені, робот Алматының Жанар есімді тұрғынымен сөйлессе, оған неміс немесе француз тілінде жауап беруі екіталай. «Қазақ-орыс» тілдік жұбын белгілеу жеткілікті.
Тілдік жұпты енгізу автоматты модельдің қателігін жоюға көмектесті.
Сөйлеуді танудағы тағы бір маңызды жайт — арнайы терминдер. Бизнес пен клиенттерге қызмет көрсетудің әртүрлі саласында робот білуге міндетті терминдер бар. Біз Yandex Cloud-та қажетті тақырыпта сөйлеу модельдерін үйретудің түсінікті және жылдам процесін құрдық.
Бұл процесс қазақ немесе орыс тілін таңдағаннан кейін шамамен бір айға созылады. Компаниядан талап етілетіні — сөз тануды жақсартуға қажетті аудионы немесе терминдерді беру. Модельді қосымша үйретуді Yandex Cloud командасы өз мойнына алады, клиент үшін бұл процесс әрқашан тегін.
Сөйлеу синтезі
Ресейде жұмыс істеген кезде біз орыс тілінде сөйлеу синтезінің 17 түрлі дауысын және шет тілінде тағы 8 дауыс жинадық. Қазақстанда сапалы сөйлеудің алғашқы синтезі 2022 жылы пайда болды, оның аты — Мәди. Оны клиенттеріміз түрлі жағдайда пайдаланады. Жалпы алғанда ол бизнес үшін тиімді екенін көрсетті және әлі күнге дейін Қазақстанда көптеген компанияда қолданылып жатыр.
Бірден бірнеше тілді түсініп, сөйлеуге қабілетті автоматты сөйлеу моделін жасағаннан кейін сол дауыспен жаңа тіл енгізу қажет болды. Мысалы, Мәди клиентке қоңырау шалып, «Сәлеметсіз бе» дегенде, клиент оған қазақша сөйлемейтінін айтса, сол сәтте робот ер адамның дауысынан әйел дауысына ауысса, біртүрлі, келісесіз бе? Сондықтан Мадидің дауысы орыс тілінде де бар.
Клиенттер әйел дауысымен сөйлейтін робот жасауды сұрай бастады. Өйткені, колл-орталықтарда сауалнама жүргізу немесе түрлі қызметті сату кезінде әйел дауысымен жұмыс істеу оңайырақ екен. Біз Yandex Cloud-та осы сұранысты ескеріп, бірнеше ай бұрын Қазақстанда орыс және қазақ тілдерінде жақсы сөйлейтін, дауысы жағымды актрисаларды іріктей бастадық. Осыдан 2 апта бұрын ғана Сәуле есімді дауысты жарияладық. Тыңдайық:
Сәуле орысша сөйлейді
Сәуле қазақша мейірімді сөйлейді
Сәуле қазақша қатал сөйлейді
Сәуле мейірімді де, қатал да, қазақша да, орысша да сөйлей алады, сондықтан әртүрлі болып, клиенттің кез келген сценарийіне оңай бейімделеді. Айтпақшы, кастинг кезінде тағы бір лайықты актрисаны таптық, оның дауысын жақын арада жариялаймыз.
Кейбір клиенттер роботты өз қызметкерлерінің немесе олардың брендін білдіретін атақты адамдардың танымал дауысымен сөйлетуді сұрайды. Біз үшін ол проблема емес, қазір Қазақстанда SpeechKit Brand Voice жобасын енгізіп жатырмыз. Тапсырыс берушіге ұнайтын адамның дауысымен сөйлеу синтезін жасаймыз. Соңғы жылы қазақстандық клиенттер үшін қазақ тілінде 5 жоба және орыс тілінде бірнешеуін іске асырдық.
Қазір қазақ тілінде 1 жобаны іске асыру үшін 5 сағаттық аудио, орыс тілінде 1-2 сағаттық аудио датасет қажет. Уақыт өте келе оның мөлшері азаяды. Бізге қажет диктордың дауысы бар аудио дайын болғаннан кейін 1 ай ішінде осындай Brand Voice жобасын жасауға болады.
Сөйлеу модельдерін бизнес инфрақұрылымына біріктіру
Бізден сөйлеу үлгілері физикалық тұрғыда қай жерде орналасқанын жиі сұрайды. SpeechKit-ке қол жеткізудің негізгі тәсілдерінің бірі — ресейлік «бұлт» арқылы. Ресейлік қоймада бізге қол жетімді кез келген тілде сөйлей алатын барлық дауыс бар. Кейбір қазақстандық бизнесті бұл әдіс қанағаттандырады, себебі деректерді беру ыңғайлы және айтарлықтай кешікпейді.
Бұл нұсқа көптеген қазақстандық компанияға жарамайтыны түсінікті. Олар үшін біз Yandex SpeechKit Hybrid әзірледік. Негізінде, бұл кез келген компанияның инфрақұрылымына орнатуға болатын классикалық SpeechKit-тің дәл сондай тілдері мен сөйлеу үлгілері бар премиум нұсқасы. Оны пайдалану тек компанияның деректер орталығының ішінде болатындай етіп жасалады. Бұл әдістің жалғыз кемшілігі — бизнестің Yandex SpeechKit Hybrid-ті қолдайтын инфрақұрылымы болуы керек.
Қазір Қазақстанда ғана қол жетімді тағы бір әдіс бар. Мәні мынада: біздің Қазақстандағы серіктестеріміз Yandex SpeechKit Hybrid-ті өз дата-орталығында орнатып, клиенттерге өз өнімі аясында оған кіруге рұқсат береді. Барлық деректер ел ішінде өңделеді.
Қазақстанда жақында ашылған өзіміздің деректер орталығы бар екенін білесіздер. Жоспарымыз — 2025 жылы SpeechKit инсталляциясын аяқтау, сол кезде қазақстандық бизнестің оны өз инфрақұрылымынсыз және ел аумағында деректерді сақтай отырып пайдалануға мүмкіндігі болады.
Технологияны дайын бизнес шешімдеріне айналдыру
Не дегенмен, SpeechKit — бұл технология. Тек технологияның көмегімен дайын дауыстық көмекші жасай алмаймыз, өйткені бұл процесте жүйенің дұрыс жұмыс істеуі үшін интеграция және скриптер жасау сияқты көптеген басқа нәрсе бар.
SpeechKit базасында түпкілікті шешімдер болуы үшін Yandex Cloud Kazakhstan үлкен серіктестік желісін құрды. Қазір бізде сөйлеу технологиясында 10-нан астам сертификатталған серіктес бар, олар қолдау қызметі мен сатудағы дауыстық роботтардан бастап сөйлеу аналитикасына дейін әртүрлі сценарийге маманданған. Сондай-ақ, біз жақын арада қазақ тілін қолдайтын коммуникацияларды талдауға арналған өзіміздің SpeechSense шешімін жасадық. Қазақстандағы бизнестің өсуіне және дамуына бәріміз бірге көмектесіп жатырмыз.