«Пришлось увеличить штат в 7 раз — и не нанять при этом ни одного разработчика». Как создавали систему распознавания смешанной речи Speech Lab?

О редакции Большое интервью с председателем правления KASE
Дата публикации: 07.09.2022, 08:57
Динара Алимова

Динара Алимова

В 2021 году в Казахстане появилась первая система, способная распознавать одновременно речь и на казахском, и на русском языках. Технологию на основе нейросети и машинного обучения разработал стартап Speech Lab — и на это ушло 3 года и 75 миллионов тенге. С какими трудностями столкнулась команда проекта за это время и за какой срок планирует окупить инвестиции? Об этом и не только читайте в рассказе CEО Speech Lab Динары Алимовой для Digital Business.

«Мы — не классический стартап»

В 2018 году я стала проджект-менеджером Speech Lab — стартапа с командой из 2 человек, новой идеей и большими планами по завоеванию рынка в Казахстане. А за год до этого пришла в Kazdream на позицию аналитика-маркетолога из Казахтелекома.

Мне хватило года работы на этой должности, чтобы убедиться: я не хочу продвигать работающий проект, гораздо интереснее строить все с нуля. Рассказала об этом гендиректору и основателю Kazdream Даурену Тулебаеву. Он выслушал и предложил попробовать свои силы в реализации одной из задумок компании — технологии, которая на основе нейронных сетей и машинного обучения будет распознавать и казахскую, и русскую речь одновременно.

Идея меня зацепила, поэтому я согласилась на участие без раздумий — несмотря на то, что ничего не понимала в технических нюансах и никогда не работала с нейросетями и Big Data.

Speech Lab — не классический стартап. Инициатива и идея исходят из компании, первые инвестиции и часть материальной базы тоже дает Kazdream. Поэтому и команду проекта собирали из штатных сотрудников холдинга. На старте был нужен лишь 1 человек — программист с опытом в машинном обучении. Парня, который нам подошел, зовут Ердаулет Зейнолла, на тот момент он был выпускником бакалавриата Назарбаевского университета. Вместе с ним мы и взялись за разработку прототипа для проверки жизнеспособности идеи.

«Все 3 года разработки — жесткие эмоциональные качели, потому что мы не могли показать свой продукт миру»

Несколько месяцев в конце 2018 года мы разрабатывали MVP — демо-версию голосового помощника, который распознает смешанную казахскую и русскую речь пользователя и отдает команды софту. Чтобы построить прототип, нужно было сначала создать нейросеть, а потом обучить ее на примерах.

Материал для обучения — аудиозаписи человеческой речи. Мы брали их из роликов на YouTube и аудиокниг: находили аудиодорожки на двух языках, делали печатную расшифровку и подключали все к сети. Перед первым тестом MVP «скормили» нейросети около 30 часов аудиоматериала.

После успешных тестов пришло время поиска сферы применения нашей разработки. Главная ценность технологии — в новизне. В Казахстане на тот момент не было идентификатора, который мог бы разбирать смешанную речь, и это была большая проблема для бизнеса, завязанного на коммуникациях с людьми. Многие казахстанцы в общении переходят с одного языка на другой — и этот фактор исключал использование других речевых систем. Мы же могли решить эту проблему и существенно упростить жизнь компаниям, которые каждый день общаются или принимают заявки от клиентов. Поэтому определили целевую аудиторию так: колл-центры, банки и ИТ-компании, разрабатывающие мобильные приложения с функцией голосового управления. Это просто огромная ниша внутри страны.

В начале 2019 года мы поставили новую задачу — за год отточить технологию и увеличить датасет нейросети. Нейросеть учится на массивах текстовых и аудиоданных, поэтому нам понадобилось много сотрудников, которые могли бы их расшифровывать. Так наш штат вырос более чем 7 раз: с 3 до 22 человек. Причем ни один из нанятых не был разработчиком.

Тогда же произошло еще одно важное событие: нам удалось поработать с обезличенными записями разговоров с реальными клиентами. Это помогло улучшить нейросеть, потому что изначально мы ее учили на примере нескольких четких голосов из аудиокнижек и YouTube. Но так разговаривают далеко не все, а здесь мы получили огромный массив данных — и в каждой записи есть свой тембр и интонации.

Когда мы многократно увеличили команду, случились первые факапы. И я, и Ердаулет никогда не руководили и привыкли доверять людям, которые работают вместе с нами. Но оказалось, что не все сотрудники работают добросовестно: кто-то может регулярно допускать однотипные ошибки и не реагировать на замечания, кто-то просто относится к задачам легкомысленно и выполняет их небрежно. Нам пришлось контролировать людей, часть из которых была гораздо старше нас. С некоторыми из них в итоге расстались.

К концу 2020 года мы увеличили датасет нейросети с 30 до 5 тысяч часов аудиоматериала. Наступило время фронтенда и бэкенда — и исходя из этой задачи мы полностью поменяли команду, переведя всех расшифровщиков на аутсорс и наняв разработчиков. У нас появились дата-инженеры, инженеры машинного обучения и, собственно, разработчики. Еще 12 месяцев мы работали над софтом — и вышли на рынок в начале 2021 года.

У Speech Lab ушло 3 года от проверки гипотез до разработки готового продукта и выхода на рынок. Люди со стороны наверняка посчитают это слишком большим сроком. Но мы понимали, что делаем высокотехнологичный продукт без каких-то аналогов в Казахстане, а это требует гораздо больших временных ресурсов. Конечно, мы могли заявить о себе и в 2020 году — и даже заключить несколько сделок на волне хайпа. Но далеко бы не уехали, потому что бизнесу нужна точность и хорошо работающий продукт.

Даже с этим пониманием нам как предпринимателям было тяжело: ты видишь, как от итерации к итерации меняется твой продукт, радуешься и хочешь показать его всему миру. Но не можешь, потому что технология не готова на 100%. Это жесткие эмоциональные качели, с которыми мы внутри команды боролись как могли.

«Трекеры и менторы научили нас не недооценивать свой продукт»

Но это однозначно стоило затраченных усилий, потому что на выходе мы получили готовую технологию, которую можно упаковывать в разные продукты и масштабироваться. Поэтому Speech Lab предлагала рынку сразу 3 разных софта:

  • API синтеза речи — преобразование текста в голосовое сообщение;
  • API распознавания речи — обратное преобразование голосовых сообщений в текстовые;
  • Речевая аналитика — анализ разговоров сотрудников компаний с клиентами по выбранным запросам. Обычно используются в колл-центрах.

Первая сделка была заключена буквально через месяц после выхода на рынок. Я не могу назвать клиента и сферу его деятельности по условиям договора, но это крупный бизнес с большим колл-центром. С нашей помощью они разгрузили первую линию колл-центра: теперь все звонки принимает робот, который анализирует запрос человека и либо переключает на нужного специалиста, либо сразу озвучивает конкретную информацию (например, по тарифам на услуги или времени работы компании).

Параллельно с завершением первой сделки Speech Lab прошел отбор в акселератор от Назарбаевского университета. Мы смогли пообщаться с менторами и трекерами, которые сильно изменили наше мышление. Во время переговоров мы строили свою стратегию исходя из того, что нужно удержать клиента любыми средствами: где-то пойти на уступки, где-то дать дополнительную скидку. Специалисты переубедили нас и научили не недооценивать то, что мы делаем. Вместо этого стоит рассказывать о проблеме и том, как конкретно ее решит ваш продукт. Это был очень полезный опыт.

Но мы все равно не смогли уберечься от обидных ошибок. После совершения первых сделок команда Speech Lab впала в эйфорию, мы подумали, что на волне успеха нам не придется искать новых клиентов, а нынешние контракты будут продлеваться без каких-либо проблем. А потом в середине 2021 года мы потеряли одного из заказчиков. Тогда пришло понимание: нужно быть в постоянном контакте со своими партнерами.

«Команда Speech Lab уже покрывает все свои затраты»

За полтора года мы стали партнерами 3 крупных клиентов в Казахстане из банковской и финансовой сфер. Теперь тестируем новые гипотезы. Например, хотим создавать уникальный голос для бизнеса, который будет контактировать с клиентами во всех доступных каналах коммуникации. Еще продолжаем обучать нейросеть. План — повысить ее точность с 80% до 90% и выше (абсолютной точности, к сожалению, не бывает, так как нейросеть невозможно обучить воспринимать подтексты и скрытые смыслы в разговорах)

Что касается финансов. Изначальные инвестиции от Kazdream — это 75 миллионов тенге. Нам хватило этих денег на 3 года развития и работы Speech Lab. С 2021 года команда покрывает все затраты на свою жизнедеятельность. Думаю, что мы выйдем на окупаемость к концу 2024 года.