«Самое губительное для стартапа – доводить до идеала нерабочую гипотезу». СТО Arlan Biotech о том, как экономить время с первых дней

Даукен Сейткали – выпускник РФМШ и инженерной школы Nazarbayev University. Уже больше шести лет он занимается машинным обучением – разрабатывает модели для обработки трехмерных биомедицинских данных. Сегодня Даукен занимает должность технического директора в стартапе Arlan Biotech. Эта небольшая команда из четырех человек создает нанотела для диагностики и лечения онкологии, Альцгеймера и других заболеваний, используя генеративный ИИ.
Для конкурса лучших CTO стартапов, который Digital Business проводит совместно с Yandex Cloud, инженер рассказал, как их команда создала крупнейший датасет синтетических данных и какие методы помогают им не тратить время на неработающие идеи.
«Наша генеративная модель почти в 2 раза эффективнее других решений»
— Даукен, у вас большой опыт в AI/ML. Как это привело к созданию собственного стартапа?
— Окончил Nazarbayev University по специальности «Электротехника и компьютерная инженерия» в 2017 году, диплом был посвящен нейросетям для мониторинга здоровья пожилых людей. Тогда и решил развиваться в Data Science и ИИ.
Вакансий на тот момент было немного, поэтому сначала работал инженером в LG, параллельно изучал Python и машинное обучение. Затем стал программистом в «Казахтелекоме». Позже устроился Data Scientist в IICT при Академии наук.
Через год перешел в Almaty AI Lab (ныне Cerebra AI), где занимался созданием системы для диагностики инсульта и внедрил ее в первые 10 больниц. В 2020-2021 годах разработал метод применения генеративного ИИ для анализа медизображений, который решает проблему нехватки данных и сокращает влияние человеческого фактора. Cerebra AI стала первой компанией в мире, внедрившей GenAI в этой сфере. Тогда я понял потенциал генеративных сетей и решил двигаться в этом направлении.
В одиночку основал стартап AgzaThera по генерации малых молекул на базе ИИ и заработал около 8 тысяч долларов. Затем сделал пивот в сторону protein design (использование алгоритмов ML и GenAI для создания новых последовательностей белков с заданными свойствами и функциями – прим.Digital Business). Но мне нужен был сильный научный партнер.
Во время акселерации NURIS я познакомился с Болатом Султанкуловым, PhD и основателем Arlan Biotech. Он как раз сделал пивот с wet-lab в сторону разработки ИИ для дизайна нанотел. Ему был нужен инженер. Я был в шоке, что еще кто-то делает ИИ по разработке лекарств! Мы встретились в Starbucks, поговорили 15 минут, пожали руки и решили вместе делать стартап: он в качестве CEO, я – CTO.
— Arlan Biotech работает над ИИ, который может сгенерировать последовательности нанотел против целевого белка. В чем уникальность технологии?
— Нанотела – это особый тип антител, которые отличаются очень малыми размерами и упрощенной структурой. Они эффективно распознают вирусы, бактерии и раковые клетки, а также помогают иммунной системе их уничтожать. Обычно фармацевтические компании скринируют сотни тысяч случайных нанотел в лабораториях, чтобы получить одну эффективную молекулу.
Наш ИИ способен подобрать рабочую формулу, генерируя всего 10-20 кандидатов. Мы входим в топ-3 по точности генерации последовательностей нанотел на независимых тестовых датасетах в мире. При этом 2 из 10 нанотел, созданных системой, уже показали эффективность против COVID-19.
Сейчас идут пилотные проекты с фармацевтическими компаниями по созданию нанотел против белков-мишеней для терапии Альцгеймера и онкологии.
— Как именно работает ваш ИИ и какие этапы включает этот процесс?
— На вход подается 3D-структура белка-антигена. Например, онкологической мишени. Указываем конкретный участок на поверхности белка, так называемый binding site, где должно закрепиться нанотело. Для этой мишени наша GenAI-модель генерирует сотни аминокислотных последовательностей нанотел, а Diffusion-модель строит их 3D-структуры.
Классификационная модель отбирает топ-20 вариантов с максимальной predicted binding affinity (прогноз того, насколько сильно и стабильно молекула будет связываться с целевым белком - прим. Digital Business) с антигеном. Эти кандидаты готовы к синтезу и экспериментальной проверке в лаборатории. Все архитектуры являются proprietary (технология принадлежит Arlan Biotech - прим.ред.) и обучены на наших уникальных датасетах.
— Кто ваш заказчик и что вы ему предлагаете на основе вашей научной разработки?
— Наш продукт – это прежде всего ядро, генеративный ИИ, а софт вокруг него построен по стандартной архитектуре с упором на безопасность данных и специфику работы с фармкомпаниями. Сейчас в пилотных проектах взаимодействие происходит так: клиент предоставляет 3D-структуру таргетного белка, мы выдаем кандидатные последовательности нанотел. Параллельно разрабатываем веб-платформу с визуализацией и удобным доступом к моделям.
«Мы сделали ставку на путь, который позволил быстрее выйти к результатам»
— С какими техническими ограничениями столкнулись на старте проекта?
— В самом начале перед нами стоял сложный выбор архитектурного подхода. Было два пути.
Первый вариант – создать единую end-to-end модель, которая сразу по атомной 3D-структуре генерирует аминокислотную последовательность нанотела. Это идеальный вариант: все делает одна модель – черный ящик. Но он же самый сложный в обучении. Такие модели в protein design требуют огромных GPU-ресурсов и больших датасетов. При этом результат сложно интерпретировать и контролировать, что повышает риски для стартапа.
Второй вариант – разделить задачу на модули. Одну модель обучать на геометрических закономерностях взаиморасположения белков, другую – на взаимодействиях аминокислот и их последовательностях. Такой подход делает модели более управляемыми и снижает требования к вычислительным ресурсам.
На старте у нас были только ноутбуки с GPU для параллельных вычислений. Без дополнительных мощностей, например, облачных сервисов, у вас только одна попытка: если модель не сработает через 3 месяца обучения, вы потеряли время и не сможете быстро попробовать другой подход. Тратить месяцы на обучение «полного черного ящика» без гарантии результата было слишком рискованно.
Поэтому выбрали второй путь. Этот подход позволил быстро получить рабочую версию и проверить ее в лаборатории. Позже, когда появились мощные GPU-серверы, начали параллельно развивать и первый, более сложный вариант.
— Какую неожиданную техническую проблему вам пришлось решать на этапе продакшена?
— На одной из лабораторных проверок обновленной ИИ-модели получили очень плохие результаты – даже хуже, чем у базовой модели. Лабораторная проверка сгенерированных молекул – дорогостоящая процедура и занимает несколько недель, поэтому нужно было срочно понять причину. Обновленная версия включала много улучшений, и очередной провал мог отбросить нас на полгода назад.
Провели реверс-инжиниринг и тщательно проанализировали каждый этап разработки. Это позволило локализовать проблему в коде. После исправления ошибки следующая проверка показала положительный результат.
«Любую гипотезу можно проверить относительно «дешево», не доводя до полноценной разработки»
— Как находите баланс между производительностью, надежностью и скоростью разработки?
— На ранних стадиях стартапы ограничены ресурсами и временем, поэтому можно проверить только несколько идей. Очень важно сразу делать ставку на правильные. Самое губительное – пытаться довести до идеала нерабочую техническую гипотезу.
После формулировки идеи мы разбиваем ее реализацию на задачи. Чтобы полностью оценить работоспособность, нужно решить хотя бы 10 задач – тогда можно с уверенностью сказать, рабочий ли подход. Но у стартапа нет столько времени и ресурсов. Важно сначала выделить две ключевые задачи из десяти, которые при решении раскрывают около 80% потенциала и проверяют базовые принципы. Так можно определить перспективность, не выполняя все 10 шагов. Если по первым двум уже видно, что идея не работает, мы отказываемся и идем дальше.
Любую гипотезу можно проверить относительно «дешево», не доводя до полноценной разработки. Например, достаточно сделать literature review и посмотреть, тестировалась ли похожая концепция или ее элементы в других областях. Иногда решения из биологии находят применение даже в таких сферах, как self-driving cars. Можно получить полезные инсайты.
Такой подход позволяет экономить время и ресурсы, не жертвуя качеством и бизнес-результатами.
«Разработали самый большой на рынке датасет»
— Как изменилось ваше представление о своей роли за это время?
— Функция CTO в стартапе очень динамична и меняется на разных этапах развития компании. Главная задача – воплощать технологическую сторону видения при ограниченных ресурсах.
С первых дней в Arlan Biotech я сосредоточился на ключевом элементе нашей стратегии – создании биоинформатического алгоритма для генерации синтетических данных. Это стало технологическим преимуществом компании и основой для обучения моделей. Сейчас наш датасет – самый большой на рынке protein design. Сегодня моя работа в основном – формулировать точные технические задачи для достижения целей компании, научные исследования по улучшению ИИ моделей, работа с командой над сложными проблемами.
Все стратегически важные решения мы принимаем совместно с Болатом. Благодаря его опыту в биотехнологии и пониманию науки и бизнеса быстро находим баланс между научной строгостью и технологической реализацией. Некоторые фундаментальные решения на стыке физики и data science он разрабатывает самостоятельно, обогащая наши ИИ модели биофизическими фичами.
— Как формируете техническую культуру в коллективе?
— Наша команда пока небольшая – два сооснователя и два инженера, поэтому делаем упор на гибкость. Не делим задачи на сеньорские и джуниорские. Каждый участник – будь то CEO, CTO или ML-инженер – может взять на себя задачу и довести ее до результата сам. Сложные задачи и узкие места отрабатываем совместно, используя экспертизу каждого.
При этом базовые элементы культуры для нас – это честность и открытость в обсуждении ошибок, проактивность в том, чтобы брать амбициозные задачи, и готовность учиться на каждом эксперименте. Создаем атмосферу, где любая идея имеет право на обсуждение, а провалы рассматриваются как источник знаний.
Сейчас мы на переходном этапе, когда есть рабочие модели, которые нужно довести до совершенства. Постепенно начинаем внедрять структурирование процессов, культуру отчетности, анализ метрик и другие элементы, одновременно ведя множество R&D проектов.
— Что планируете изменить в ближайший год?
— Хотим, чтобы каждая сгенерированная последовательность была рабочей (100% hit rate). Каждая молекула должна иметь высокую силу связывания, стабильно приближенную к пикомолярной, как того ожидает фармацевтическая индустрия. Этого пока никто из конкурентов не достиг. Делаем ставку на наши уникальные датасеты и эффективные ИИ-архитектуры. Думаю, все получится.
Также собираемся опубликовать научную статью, где покажем эффективность нашего ИИ на разных таргетах. Параллельно запустим веб-платформу с доступом к моделям и визуализацией, чтобы технология стала удобнее и масштабируемее для клиентов.