«Самое губительное для стартапа – доводить до идеала нерабочую гипотезу». СТО Arlan Biotech о том, как экономить время с первых дней

Freedom Broker Freedom Broker О редакции О редакции
Дата публикации: 25.09.2025, 09:30
2025-09-25T09:30:30+05:00
Обновлено: 25.09.2025, 09:30
25.09.2025, 09:30

Даукен Сейткали – выпускник РФМШ и инженерной школы Nazarbayev University. Уже больше шести лет он занимается машинным обучением – разрабатывает модели для обработки трехмерных биомедицинских данных. Сегодня Даукен занимает должность технического директора в стартапе Arlan Biotech. Эта небольшая команда из четырех человек создает нанотела для диагностики и лечения онкологии, Альцгеймера и других заболеваний, используя генеративный ИИ.

Для конкурса лучших CTO стартапов, который Digital Business проводит совместно с Yandex Cloud, инженер рассказал, как их команда создала крупнейший датасет синтетических данных и какие методы помогают им не тратить время на неработающие идеи.

«Наша генеративная модель почти в 2 раза эффективнее других решений»

— Даукен, у вас большой опыт в AI/ML. Как это привело к созданию собственного стартапа?

— Окончил Nazarbayev University по специальности «Электротехника и компьютерная инженерия» в 2017 году, диплом был посвящен нейросетям для мониторинга здоровья пожилых людей. Тогда и решил развиваться в Data Science и ИИ.

Вакансий на тот момент было немного, поэтому сначала работал инженером в LG, параллельно изучал Python и машинное обучение. Затем стал программистом в «Казахтелекоме». Позже устроился Data Scientist в IICT при Академии наук.

Через год перешел в Almaty AI Lab (ныне Cerebra AI), где занимался созданием системы для диагностики инсульта и внедрил ее в первые 10 больниц. В 2020-2021 годах разработал метод применения генеративного ИИ для анализа медизображений, который решает проблему нехватки данных и сокращает влияние человеческого фактора. Cerebra AI стала первой компанией в мире, внедрившей GenAI в этой сфере. Тогда я понял потенциал генеративных сетей и решил двигаться в этом направлении.

Даукен Сейткали

В одиночку основал стартап AgzaThera по генерации малых молекул на базе ИИ и заработал около 8 тысяч долларов. Затем сделал пивот в сторону protein design (использование алгоритмов ML и GenAI для создания новых последовательностей белков с заданными свойствами и функциями – прим.Digital Business). Но мне нужен был сильный научный партнер.

Во время акселерации NURIS я познакомился с Болатом Султанкуловым, PhD и основателем Arlan Biotech. Он как раз сделал пивот с wet-lab в сторону разработки ИИ для дизайна нанотел. Ему был нужен инженер. Я был в шоке, что еще кто-то делает ИИ по разработке лекарств! Мы встретились в Starbucks, поговорили 15 минут, пожали руки и решили вместе делать стартап: он в качестве CEO, я – CTO.

— Arlan Biotech работает над ИИ, который может сгенерировать последовательности нанотел против целевого белка. В чем уникальность технологии?  

— Нанотела – это особый тип антител, которые отличаются очень малыми размерами и упрощенной структурой. Они эффективно распознают вирусы, бактерии и раковые клетки, а также помогают иммунной системе их уничтожать. Обычно фармацевтические компании скринируют сотни тысяч случайных нанотел в лабораториях, чтобы получить одну эффективную молекулу.

Наш ИИ способен подобрать рабочую формулу, генерируя всего 10-20 кандидатов. Мы входим в топ-3 по точности генерации последовательностей нанотел на независимых тестовых датасетах в мире. При этом 2 из 10 нанотел, созданных системой, уже показали эффективность против COVID-19.

Сейчас идут пилотные проекты с фармацевтическими компаниями по созданию нанотел против белков-мишеней для терапии Альцгеймера и онкологии.

Даукен Сейткали

— Как именно работает ваш ИИ и какие этапы включает этот процесс? 

— На вход подается 3D-структура белка-антигена. Например, онкологической мишени. Указываем конкретный участок на поверхности белка, так называемый binding site, где должно закрепиться нанотело. Для этой мишени наша GenAI-модель генерирует сотни аминокислотных последовательностей нанотел, а Diffusion-модель строит их 3D-структуры.

Классификационная модель отбирает топ-20 вариантов с максимальной predicted binding affinity (прогноз того, насколько сильно и стабильно молекула будет связываться с целевым белком - прим. Digital Business) с антигеном. Эти кандидаты готовы к синтезу и экспериментальной проверке в лаборатории. Все архитектуры являются proprietary (технология принадлежит Arlan Biotech - прим.ред.) и обучены на наших уникальных датасетах.

— Кто ваш заказчик и что вы ему предлагаете на основе вашей научной разработки? 

— Наш продукт – это прежде всего ядро, генеративный ИИ, а софт вокруг него построен по стандартной архитектуре с упором на безопасность данных и специфику работы с фармкомпаниями. Сейчас в пилотных проектах взаимодействие происходит так: клиент предоставляет 3D-структуру таргетного белка, мы выдаем кандидатные последовательности нанотел. Параллельно разрабатываем веб-платформу с визуализацией и удобным доступом к моделям.

Даукен Сейткали

«Мы сделали ставку на путь, который позволил быстрее выйти к результатам»

— С какими техническими ограничениями столкнулись на старте проекта? 

— В самом начале перед нами стоял сложный выбор архитектурного подхода. Было два пути.

Первый вариант – создать единую end-to-end модель, которая сразу по атомной 3D-структуре генерирует аминокислотную последовательность нанотела. Это идеальный вариант: все делает одна модель – черный ящик. Но он же самый сложный в обучении. Такие модели в protein design требуют огромных GPU-ресурсов и больших датасетов. При этом результат сложно интерпретировать и контролировать, что повышает риски для стартапа.

Второй вариант – разделить задачу на модули. Одну модель обучать на геометрических закономерностях взаиморасположения белков, другую – на взаимодействиях аминокислот и их последовательностях. Такой подход делает модели более управляемыми и снижает требования к вычислительным ресурсам.

На старте у нас были только ноутбуки с GPU для параллельных вычислений. Без дополнительных мощностей, например, облачных сервисов, у вас только одна попытка: если модель не сработает через 3 месяца обучения, вы потеряли время и не сможете быстро попробовать другой подход. Тратить месяцы на обучение «полного черного ящика» без гарантии результата было слишком рискованно.

Поэтому выбрали второй путь. Этот подход позволил быстро получить рабочую версию и проверить ее в лаборатории. Позже, когда появились мощные GPU-серверы, начали параллельно развивать и первый, более сложный вариант.

— Какую неожиданную техническую проблему вам пришлось решать на этапе продакшена? 

— На одной из лабораторных проверок обновленной ИИ-модели получили очень плохие результаты – даже хуже, чем у базовой модели. Лабораторная проверка сгенерированных молекул – дорогостоящая процедура и занимает несколько недель, поэтому нужно было срочно понять причину. Обновленная версия включала много улучшений, и очередной провал мог отбросить нас на полгода назад.

Провели реверс-инжиниринг и тщательно проанализировали каждый этап разработки. Это позволило локализовать проблему в коде. После исправления ошибки следующая проверка показала положительный результат.

Даукен Сейткали

«Любую гипотезу можно проверить относительно «дешево», не доводя до полноценной разработки»

— Как находите баланс между производительностью, надежностью и скоростью разработки? 

— На ранних стадиях стартапы ограничены ресурсами и временем, поэтому можно проверить только несколько идей. Очень важно сразу делать ставку на правильные. Самое губительное – пытаться довести до идеала нерабочую техническую гипотезу.

После формулировки идеи мы разбиваем ее реализацию на задачи. Чтобы полностью оценить работоспособность, нужно решить хотя бы 10 задач – тогда можно с уверенностью сказать, рабочий ли подход. Но у стартапа нет столько времени и ресурсов. Важно сначала выделить две ключевые задачи из десяти, которые при решении раскрывают около 80% потенциала и проверяют базовые принципы. Так можно определить перспективность, не выполняя все 10 шагов. Если по первым двум уже видно, что идея не работает, мы отказываемся и идем дальше.

Любую гипотезу можно проверить относительно «дешево», не доводя до полноценной разработки. Например, достаточно сделать literature review и посмотреть, тестировалась ли похожая концепция или ее элементы в других областях. Иногда решения из биологии находят применение даже в таких сферах, как self-driving cars. Можно получить полезные инсайты.

Такой подход позволяет экономить время и ресурсы, не жертвуя качеством и бизнес-результатами.

Даукен Сейткали

«Разработали самый большой на рынке датасет»

— Как изменилось ваше представление о своей роли за это время?

— Функция CTO в стартапе очень динамична и меняется на разных этапах развития компании. Главная задача – воплощать технологическую сторону видения при ограниченных ресурсах.

С первых дней в Arlan Biotech я сосредоточился на ключевом элементе нашей стратегии – создании биоинформатического алгоритма для генерации синтетических данных. Это стало технологическим преимуществом компании и основой для обучения моделей. Сейчас наш датасет – самый большой на рынке protein design. Сегодня моя работа в основном – формулировать точные технические задачи для достижения целей компании, научные исследования по улучшению ИИ моделей, работа с командой над сложными проблемами.

Все стратегически важные решения мы принимаем совместно с Болатом. Благодаря его опыту в биотехнологии и пониманию науки и бизнеса быстро находим баланс между научной строгостью и технологической реализацией. Некоторые фундаментальные решения на стыке физики и data science он разрабатывает самостоятельно, обогащая наши ИИ модели биофизическими фичами.

— Как формируете техническую культуру в коллективе?

— Наша команда пока небольшая – два сооснователя и два инженера, поэтому делаем упор на гибкость. Не делим задачи на сеньорские и джуниорские. Каждый участник – будь то CEO, CTO или ML-инженер – может взять на себя задачу и довести ее до результата сам. Сложные задачи и узкие места отрабатываем совместно, используя экспертизу каждого.

При этом базовые элементы культуры для нас – это честность и открытость в обсуждении ошибок, проактивность в том, чтобы брать амбициозные задачи, и готовность учиться на каждом эксперименте. Создаем атмосферу, где любая идея имеет право на обсуждение, а провалы рассматриваются как источник знаний. 

Даукен Сейткали

Сейчас мы на переходном этапе, когда есть рабочие модели, которые нужно довести до совершенства. Постепенно начинаем внедрять структурирование процессов, культуру отчетности, анализ метрик и другие элементы, одновременно ведя множество R&D проектов.

— Что планируете изменить в ближайший год?

— Хотим, чтобы каждая сгенерированная последовательность была рабочей (100% hit rate). Каждая молекула должна иметь высокую силу связывания, стабильно приближенную к пикомолярной, как того ожидает фармацевтическая индустрия. Этого пока никто из конкурентов не достиг. Делаем ставку на наши уникальные датасеты и эффективные ИИ-архитектуры. Думаю, все получится.

Также собираемся опубликовать научную статью, где покажем эффективность нашего ИИ на разных таргетах. Параллельно запустим веб-платформу с доступом к моделям и визуализацией, чтобы технология стала удобнее и масштабируемее для клиентов.