Ребята из Центральной Азии создают ИИ-помощника по вопросам ментального здоровья и хотят покорить США
Улан Абдуразаков увлекся искусственным интеллектом в 2017 году. Вскоре парень познакомился с Нурсултаном Бакашовым и Тимуром Туратали: вместе они организовали сообщество для тех, кто интересуется ИИ. А 2 года назад команда выпустила AkylAI – первого чат-бота, говорящего на кыргызском языке. На этом кофаундеры не остановились и решили выйти на американский рынок. Там трансформировали свою идею и сейчас создают ИИ-ассистента по вопросам ментального здоровья.
В интервью для Digital Business Улан рассказал, с чего началась история AkylAI, где собирали данные для работы бота и как с нуля создавали голосовую модель. Также узнали, как появилась идея создать портативную колонку, сколько средств ушло на запуск MVP и почему коммерческую версию продукта решили реализовывать в США.
«100 волонтеров около года собирали данные для бота»
– Мы все с бэкграундом в ИТ. Я более 10 лет работал разработчиком, DevOps-инженером. С Нурсултаном с 2019 года создавали EdTech-стартап Makers. Однако в 2022 году вышли из проекта и основали сообщество для тех, кто интересуется ИИ, чтобы общаться и делиться опытом. Тогда к нам присоединился Тимур: в тот момент он работал Data Scientist в Citibank в Европе. Параллельно с этим уже втроем организовали онлайн-курсы по Data Science и машинному обучению.
В какой-то момент поняли, что необходимо проводить различные исследования, писать статьи про ИИ. Решили собрать языковой корпус кыргызского языка, чтобы дообучать существующие модели. Начали сбор данных, а примерно через полгода появился ChatGPT. Люди еще больше начали интересоваться искусственным интеллектом. В нашем сообществе появлялись новые участники (сейчас в группе более 1700 человек), а к исследованию присоединились опытные ребята из разных стран.
Вначале никто не спешил делиться данными, поэтому брали все, что есть в открытом доступе. Затем начали сотрудничать с университетами, и у нас появилось примерно 100 волонтеров – студенты Кыргызского технического университета и Кыргызско-Турецкого университета «Манас», которые около года собирали информацию. Также помогала Национальная комиссия по государственному языку Кыргызстана и Парк высоких технологий. ПВТ, кстати, выделил нам $50 тысяч для проведения исследований и разработки. После стали участниками Star Venture Program (программа от ЕБРР, направленная на поддержку инновационных стартапов – прим. Digital Business) и получили еще $50 тысяч.
После того, как сделали первый корпус (собрание текстов, которое предназначено для исследования или анализа, особенно в области лингвистики и обработки естественного языка – прим. Digital Business), решили создать LLM на кыргызском языке на базе Llama. В августе 2023 года выпустили первую бета-версия AkylAI – веб-сайт с чат-ботом, который отвечает на вопросы.
«Нам сказали, что софтом в Америке уже никого не удивишь»
– В октябре 2023 года участвовали в акселерационной программе Hero Training Тима Дрейпера в США. Тогда нам сказали, что софтом в Америке уже никого не удивишь, а вот какой-то девайс заинтересует аудиторию. Тогда как раз появился AI Pin от компании Humane (носимое устройство с функционалом голосового помощника на базе ИИ от OpenAI, которое крепится к одежде – прим. Digital Business) и мы стали думать, в каком виде можем реализовать наш продукт. Решили создать колонку на кыргызском. Никто из нас не занимался hardware, однако в начале 2024 года приступили к разработке.
К команде присоединился индустриальный дизайнер Олег Ермаков, который сделал нам форм-фактор (стандарт, задающий габаритные размеры технического изделия – прим.Digital Business). А инженер-электроник Егор Гарающенко собрал плату. Наше устройство небольшого размера, меньше «Алисы», поэтому ни одна уже существующая плата для него не подходила. В Кыргызстане нет 3D-принтеров, способных напечатать детали, поэтому заказывали их в Китае.
Также собрали аудио-датасет и создали голосовую модель. Нашли актрису, дали ей текст, и примерно 3 месяца девушка записывала разные предложения, меняя интонацию, ритм и т.д.
AkylAI – полностью автономное устройство. Сначала планировали создать приложение, а потом поняли, что обойдемся без него. Тем более у нас в команде нет мобильных разработчиков. Сейчас колонка может беседовать с вами на кыргызском, отвечать на вопросы, также к ней можно подключиться по Bluetooth чтобы, например, слушать музыку с телефона или с телевизора.
У нас есть несколько прототипов. Необходимо получить определенные сертификации для «железа», а также создать софт. В данный момент работаем над ПО, которое установим непосредственно на устройстве. Как только все будет готово, сможем приступить к коммерциализации проекта.
«Решили создать продукт, конкурентоспособный на мировом рынке, а потом вернуться с ним в Кыргызстан»
– Коммерческую версию продукта стали делать в США. Опыт показал, что в Кыргызстане любые продукты, созданные за рубежом, побеждают местные аналоги. У них больше ресурсов, качественнее технологии и более глубокие исследования. Именно поэтому решили сначала создать глобальный продукт, который будет конкурентоспособным на мировом уровне, а потом вернуться с ним в Кыргызстан. Так у него будет больше шансов на успех.
Помимо этого в США изменилась концепция продукта: вместо простого ИИ-ассистента, который отвечает на вопросы, решили создать личного mental health помощника. В Кыргызстане психологическая помощь часто воспринимается как нечто постыдное, особенно среди мужчин. В США это более востребованное направление.
К сфере ментального здоровья пришли через «боль». У всех в команде имелись проблемы со сном, а потом оказалось, что с бессонницей сталкивается очень много людей. В мае 2024 года попали на акселератор LAUNCH от Founder University Джейсона Калаканиса, где окончательно сформировалась идея создания mental health ассистента в виде небольшой колонки.
Сейчас наши инженеры работают над созданием нескольких видов агентов. Когда пользователь начинает беседу и озвучивает свои жалобы, к нему подключается первый агент: отвечает на вопросы, а также задает свои, чтобы собрать как можно больше информации о состоянии человека. Затем второй агент после разговора оценивает данные, анализирует их в динамике, сравнивает с результатами прошлых недель и создает саммари. Далее подключается самый продвинутый агент и на основе всей информации делает выводы и формирует рекомендации для улучшения вашего состояния.
Дополнительная функция – медитации или расслабляющие мелодии. Сейчас работаем над моделью, основанной на исследованиях о binaural beats — звуках, которые синхронизируются с ритмами мозга и, как предполагается, помогают расслабиться.
Сейчас к нам присоединяется CMO – Chief Medical Officer. Это американский специалист в сфере психологии и ментального здоровья, известный в узких кругах. Также планируем стать партнерами Research Lab Sleep Center Стэнфордского университета, чтобы использовать их работы.
Для работы в США переименовали сервис. Кыргызское слово AkylAI американцам очень сложно произносить, поэтому стали искать замену. Менторы говорили, что название должно быть таким, чтобы его можно понять, когда говоришь по телефону с плохой связью. После долгих брейнштормов остановились на названии CorePod.
Также для запуска нам нужно получить сертификации как для устройства, так и для продуктов в области ментального здоровья. В отличие от MedTech-проектов здесь пока нет чрезмерно строгих требований, однако надеемся, что новый CMO поможет нам быстрее получить необходимые разрешения.
Один из наших эдвайзеров дал важный совет: сосредоточиться на создании продукта, а вопросы сертификации решить позже. Именно этим сейчас и занимаемся. Осенью завершили первый этап разработки и начали тестировать продукт. Людей для фокус-группы искали на Reddit. Тем, кто согласился, отправляли продукт, они пользовались и давали обратную связь. Одну из технологий испытываю на себе: пока что только она мне помогает. Однако универсального решения, которое помогло бы абсолютно всем, не существует, и это нормально.
В основном во время тестов ассистент срабатывает правильно, но иногда глючит, неожиданно реагирует или вовсе сам включается. Теперь мы осознаем, какой невероятный труд вложили инженеры, создающие такие устройства, как Alexa или Алиса.
«Планируем разработать технологию распознавания эмоций и состояния человека по тону его голоса»
– Что касается инвестиций, то для создания прототипов хватило тех денег, которые выделили ПВТ и ЕБРР. Парк высоких технологий дал нам доступ к серверу с видеокартами Nvidia, которыми мы пользовались бесплатно. Это значительно снизило стоимость разработки и позволило провести первые тренировки модели.
Тем не менее CorePod в отличие от кыргызского аналога – коммерческий проект. Сначала планировали продавать просто устройство, но после поняли, что это не совсем рентабельная история. Поэтому мы будем продавать и девайс (предварительная стоимость $199), и подписку. Начнем с $20 в месяц. Для штатов это невысокая цена.
Также в будущем хотим создать собственную языковую модель (LLM) для сферы mental health. У нас уже есть опыт в fine-tuning, поэтому мы можем обучить модель на данных из открытых источников. Она будет узкоспециализированной и более эффективной в области mental health, в отличие от крупных универсальных моделей.
Кроме того, планируем разработать технологию распознавания эмоций и состояния человека по тону его голоса. В основном искусственный интеллект анализирует смысл сказанного, но мы хотим сфокусироваться на анализе звучания речи и подготовить научные статьи на основе этих разработок.