«Скоро искусственный интеллект сможет создавать полноценные фильмы и сериалы». Казахстанец запустил стартап, который с помощью нейросетей генерирует видеоклипы

О редакции Нас 300 тысяч! Расскажи о своем бизнесе ИТ-комьюнити
Дата публикации: 24.05.2024, 08:53
Ерзат Дулат

Сооснователь Higgsfield AI Ерзат Дулат

В апреле стало известно, что стартап Higgsfield AI (платформа для создания и редактирования видео по текстовому запросу), который основали казахстанский ИИ-исследователь Ерзат Дулат и бывший глава отдела генеративного ИИ в Snap Inc Алекс Машрабов, привлек в США $8 млн инвестиций. Ребята уже презентовали первую версию мобильного приложения Diffuse, где пользователи могут с нуля создавать видео, используя набор готовых клипов и собственные фотографии. В дальнейшем планируется расширение функционала продукта и запуск других сервисов для генерации роликов, что позволит конкурировать с Sora oт OpenAI.

В интервью Digital Business Ерзат Дулат поделился, как пришла идея Higgsfield AI и чем продукт заинтересовал серьезные венчурные фонды. Также поговорили о развитии генеративного AI, его возможностях в будущем и необходимости регулирования искусственного интеллекта.

Кратко. О чем пойдет речь?

  • «После школы около 2-3 лет изучал computer science. Однако позже мне это наскучило. Стал искать для себя что-то новое. Так узнал о machine learning. В 2016 году отрасль еще была далека от хайпа. Скажу больше, в Казахстане тогда даже специалистов по машинному обучению толком не было». Ерзат рассказывает, когда заинтересовался темой ИИ.
  • «В 2018 году на меня вышли OpenAI. После публикации одной из работ про machine learning мне на почту написал соучредитель компании Джон Шульман и предложил присоединиться к команде. Но я решил заниматься своими проектами». О том, как мог попасть на работу в OpenAI.
  • «Если у Sora целевая аудитория – продюсеры из Голливуда, то у нас – департаменты маркетинга различных компаний, которым необходимо создавать большое количество контента для социальных сетей. Мы способны помочь им серьезно снизить косты». С помощью чего Higgsfield AI планирует выигрывать конкуренцию на рынке.
  • «Говорил инвесторам, что мы – азиатская страна, где со времен СССР осталась сильная математическая школа. Это подкупает американцев, так как им нравится сотрудничать с азиатами». Как проект смог привлечь $8 млн инвестиций в США.
  • «В течение года ИИ-сервисы смогут генерировать контент, который не будет отличаться от того, что делают люди». Как дальше будет развиваться генеративный ИИ.

Не особо устраивал формат университетского обучения, поэтому занимался самообразованием: прошел множество курсов на Udacity и Coursera

«Machine learning – одна из самых интересных и перспективных отраслей в XXI веке»

– Ерзат, насколько мне известно, у вас нет высшего образования. После окончания Республиканской физико-математической школы вы не поступали в университет, хотя такие возможности, как у победителя и призера различных олимпиад по физике, у вас были. Почему приняли такое решение?

– Еще в школе заинтересовался computer science и хотел развиваться в этом направлении. Варианты для поступления в вуз на соответствующую специальность действительно были. Однако меня не особо устраивал формат университетского образования. Во-первых, там нужно подстраиваться под общий темп успеваемости группы, из-за чего цикл обучения получается затянутым. Плюс во многих учебных заведениях используют устаревшие материалы, которые давно не актуальны на практике.

Во-вторых, в университете необходимо выбрать определенное направление. Нельзя одновременно изучать экономику, психологию, физику, математику и философию. А я из тех людей, которые нуждаются в знаниях из разных сфер.

Ерзат Дулат

Решил, что проще будет заняться самообучением. Тем более тогда, в 2013-2015 годах, для этого имелись отличные возможности. К примеру, на образовательной платформе Udacity бесплатно можно было пройти курсы по программированию и инжинирингу от Стэнфордского университета. Причем среди спикеров были крутые специалисты. Например, основатели Google и Mozilla Firefox.

Примерно в тот же период стали появляться курсы от авторитетных американских университетов на Coursera: по литературе, философии, математике, программированию. Я проходил все, что можно.

– Когда заинтересовались machine learning и чем привлекло это направление?

– После школы около 2-3 лет изучал computer science. Однако позже мне это наскучило. Стал искать для себя что-то новое. Так узнал о machine learning. В 2016 году отрасль еще была далека от хайпа. Скажу больше, в Казахстане тогда даже специалистов по машинному обучению толком не было. Нашел буквально несколько ребят, с которыми развивали в Telegram сообщество Data Science Machine Learning. По началу нас там было пару десятков человек: делились друг с другом различными статьями и другим полезным контентом по теме.

Ерзат Дулат

В изучении machine learning хорошо то, что вся информация в открытом доступе. Раньше спокойно можно было через Google найти научные работы зарубежных исследователей, почитать их и попробовать что-то реализовать оттуда. Меня затянуло. Понял, что машинное обучение – одна из самых интересных и перспективных отраслей в XXI веке.

«После публикации научной работы мне написал соучредитель OpenAI»

– Параллельно с самообучением где-то работали, чтобы получать еще какой-то практический опыт?

– В основном занимался проектной работой: удаленно сотрудничал с стартапами из США, которые занимались разработкой продуктов на основе ИИ.

Еще был опыт консалтинга. С учетом того, что в Казахстане я один из первых специалистов в machine learning, проводил курсы и мастер-классы для сотрудников департаментов машинного обучения в крупных компаниях, например, в Kaspi и Kolesa Group.

Кстати, в 2018 году на меня вышли OpenAI. После публикации одной из работ про machine learning мне на почту написал соучредитель компании Джон Шульман. Это уважаемый человек в мире ИИ, создатель Proximal policy optimization (PPO) – алгоритма в области reinforcement learning, который тренирует функцию принятия решений компьютерного агента для выполнения сложных задач. На этом алгоритме, например, обучали ChatGPT.

Ерзат Дулат

Джон предложил присоединиться к команде OpenAI. Но я тогда был молод и слишком амбициозен. Подумал, сейчас на собранные деньги куплю видеокарты и за лето сделаю собственный AGI (ИИ общего вида, который может давать осмысленные ответы на различные вопросы – прим. Digital Business), поэтому решил заниматься своими проектами.

– Спустя время не жалели о таком решении?

– На тот момент OpenAI была обычным стартапом. Сложно было предсказать, что у них получится добиться такого прогресса.

Решили двигаться в сторону генерации видео еще до релиза Sora

«На рынке сложились отличные условия для запуска платформы по генерации медиа-контента»

– Higgsfield AI – это первая попытка сделать свой стартапа или до этого уже пробовали самостоятельно запускать другие продукты?

– Еще в школе видел себя стартапером, однако решил не торопиться: набирался опыта и ждал подходящего момента, пока ИИ начнет набирать популярность. Когда этот момент настал, появилась задумка для проекта: заняться созданием инфраструктуры для обучения нейронных сетей.

В мае прошлого года запитчил идею Мурату Абдрахманову, он согласился инвестировать $250 тысяч. На эти деньги собрал команду, а затем занялись разработкой. Попутно искал опытного кофаундера, который смог бы помочь с продвижением проекта в США. Так к Higgsfield AI присоединился Алекс Машрабов.

– Как вам удалось убедить Алекса уйти с позиции руководителя отдела генеративного AI в Snap Inc и присоединиться к стартапу, у которого на тот момент еще даже готового продукта не было?

– С Алексом меня познакомил Николай Давыдов. Было интересно пообщаться с человеком, который давно живет в Кремниевой долине и имеет большой опыт работы с генеративным искусственным интеллектом. Договорились на 30-минутный звонок, но в результате разговаривали 7 часов: о технологиях, куда будет дальше двигаться ИИ, какие будут тренды на рынке и т.д. В тот момент понял, что Алекс идеально подходит на роль кофаундера. Это человек с глубоким пониманием сферы, отличным нетворком и серьезными скилами. Но самое главное – в нем есть дух предпринимательства, так как до работы в Snap он запускал свои проекты.

– Чем проекту помогло появление Алекса в команде?

Ерзат Дулат

– Мы поняли, что не стоит зацикливаться на идее с инфраструктурой для обучения нейронных сетей. После тестирования различных гипотез решили остановиться на создании foundation AI-model, которая бы могла заниматься генерацией контента. По сути, это то, над чем работают OpenAI и Antrophic.

– Выходит, что вы занялись созданием продукта для генерации видео еще до того, как широкой публике стало известно о Sora?

– Все так. Более того, когда мы питчили проект перед инвесторами, они все говорили, что это не сработает. Однако мы с Алексом были уверены, что сейчас на рынке сложились отличные условия для запуска платформы, где с помощью ИИ можно генерировать видео и другой медиа-контент. А когда OpenAI показала демоверсию Sora, мы поняли, что двигаемся в правильном направлении.

«Над Higgsfield AI работают в основном казахстанские ребята. И это одна из сильнейших команд в мире»

– Как вы собираетесь конкурировать с Sora, учитывая финансовые возможности OpenAI?

– Думаю, что места на рынке хватит всем. К примеру, помимо OpenAI есть еще Anthropic – компания, в которую инвестировали миллиарды долларов. Появляются и другие стартапы, которые пытаются отличаться от крупных игроков: кто-то фокусируется на кодовой генерации, кто-то делает LLM для enterprise. Важно подобрать нишу, где ты сможешь конкурировать даже с большими корпорациями.

Наше отличие от Sora в том, что мы фокусируемся на social media – короткие видео для социальных сетей. Если у Sora целевая аудитория – продюсеры из Голливуда, то у нас – департаменты маркетинга различных компаний, которым необходимо создавать большое количество контента для социальных сетей. Мы способны помочь им серьезно снизить косты, так как им больше не придется содержать собственный продакшен или отдавать все на аутсорс.

Ерзат Дулат

Планируем работать с enterprise-сегментом: с помощью нашего сервиса можно создавать видео с локализацией под разные рынки, чтобы соответствовать законодательству и попадать в паттерны.

Еще могу без лишней скромности сказать, что у нас одна из сильнейших команд в мире, которая круто умеет работать с данными и создавать инфраструктуру – это два главных момента при запуске продукта на основе генеративного ИИ.

– Продолжим тему финансов. В апреле вы подняли раунд на $8 млн, где лид-инвестором выступил венчурный фонд Menlo Ventures, который активно вкладывается в AI-проекты. Кто еще стал вашим инвестором?

– Их несколько. К примеру, фонд AI Capital, где советником выступает Ян ЛеКун – один из отцов-основателей науки о современном искусственном интеллекте. Также в нас вложился Bitcraft Ventures – этот фонд специализируются на инвестициях в игровую индустрию, однако сейчас активно заходит и в AI-сферу. На борту есть фонд, созданный Midjourney, которую сегодня можно назвать важным игроком в сфере генеративного ИИ. Плюс были инвестиции от бизнес-ангелов, имена которых не могу разглашать. Могу сказать одно: тот факт, что в наш проект поверили такие организации и люди – серьезное достижение.

– Кстати, как проходили питчи перед такими инвесторами? Что они спрашивали?

– Когда проект на раннем этапе, как у нас сейчас, то инвесторы всегда интересуются командой. Им важно знать, кто стоит за продуктом и получится ли у них довести все до ума. Над Higgsfield AI работают в основном казахстанские ребята, а с учетом того, что в США о нашей стране знают немного, нужно было придумать, как емко и точно рассказать о Казахстане.

Ерзат Дулат

Говорил инвесторам, что мы – азиатская страна, где со времен СССР осталась сильная математическая школа. Это подкупает американцев, так как им нравится сотрудничать с азиатами. У нас схожие подходы к работе: мы готовы выполнять задачи в любое время дня и ночи. Все истории про work-life balance для инвесторов из США – красный флаг.

Рано или поздно людям из киноиндустрии придется конкурировать с искусственным интеллектом

«Венчурные капиталисты долгое время не обращали внимания на нейросети, так как не хотели брать на себя высокие риски»

– Почему именно в последние несколько лет начался хайп вокруг искусственного интеллекта? Ведь технология была еще разработана в 80-е-90-е годы прошлого века. Что, на ваш взгляд, дало толчок развитию отрасли?

– Действительно, искусственный интеллект как отрасль зародился еще во второй половине ХХ века: тогда сделали много теоретических результатов. Однако их нельзя было реализовать на практике, так как не имелось соответствующих вычислительных мощностей. Все наработки долгое время лежали на полке. Сдвиг случился примерно в 2012-2013 годах после того, как студенты Джеффри Хинтона (канадский ученый, которого называют крестным отцом искусственного интеллекта) из университета Торонто выяснили, что игровые видеокарты хорошо подходят для алгоритмов обучения нейронных сетей.

Также важно учитывать, что технологический цикл не всегда совпадает с рыночным. Раньше искусственный интеллект был сильно недофинансирован. Если бы денежные потоки в сферу пошли раньше, то тот же ChatGPT мог появиться еще 5 лет назад.

Но венчурные капиталисты долгое время не обращали внимания на нейросети, так как не хотели брать на себя высокие риски. Вместо этого финансовые потоки шли в различные компании, занимающиеся SaaS-решениями, которые сейчас стали неликвидными.

Ерзат Дулат

Осознав свои просчеты, венчурные фонды теперь пытаются перестроиться и активно вкладывают деньги в AI-проекты. Эти процессы начались примерно в 2022-2023 годах, после чего об искусственном интеллекте стали повсеместно говорить, а сама технология получила необходимые ресурсы для развития.

«Уже сейчас искусственный интеллект показывает гораздо большую продуктивность, чем «белые воротнички»

– На ваш взгляд, насколько сейчас искусственный интеллект близок к тому, чтобы делать полноценные качественные клипы или короткометражки?

– Думаю, мы уже стоим на пороге этого. В течение года ИИ-сервисы смогут генерировать контент, который не будет отличаться от того, что делают люди. Хоть со мной и многие спорят на этот счет, даже внутри нашей команды, но я ИИ-максималист. Скажу больше, если смотреть в перспективу, то искусственный интеллект сможет создавать и фильмы, и сериалы на несколько сезонов. Это неизбежный процесс.

– Сценаристы, режиссеры, операторы, актеры и другие специалисты станут не нужны?

– Не совсем. Тут важно понимать, что такая ситуация, вероятнее всего, приведет к появлению тренда на потребление контента, созданного человеком. Просто людям со временем придется конкурировать с искусственным интеллектом.

При этом я глубоко убежден, что ИИ-сферу важно регулировать, и довольно жестко. Пользователь должен знать, что видео, которое он смотрит, сгенерировано нейросетью. Некоторые государства уже двигаются в эту сторону. К примеру, в Евросоюзе появились AI-акты, где в том числе указан риск нашествия дипфейков и меры, как с этим бороться. Казахстан тоже должен двигаться в эту сторону.

– Финальный вопрос. Получится ли в обозримом или далеком будущем у искусственного интеллекта заменить человека во всех сферах жизни?

– Однозначного ответа я не знаю, могу только порассуждать. Если посмотреть в прошлое, то человечество уже несколько раз переживало эпоху появления прорывных технологий: ткацкие станки, паровые двигатели, компьютеры, интернет. Всегда на старте у людей было опасение, но со временем все привыкали к новому и начинали активно пользоваться изобретениями. Также будет и с искусственным интеллектом – случится определенный симбиоз.

Ерзат Дулат

Однако чем активнее будет развиваться ИИ, тем быстрее и сильнее он будет влиять на мировую экономику и рынок труда. Уже сейчас искусственный интеллект показывает гораздо большую продуктивность, чем «белые воротнички». А современная экономическая теория гласит, что с ростом продуктивности общества в нем растет неравенство капитала, так как его становится легче аллоцировать.

Это не говорит о том, что на нашей планете станет больше бедных. Скорее, некоторые богатые люди, особенно те, кто развивает сейчас технологии, вроде Илона Маска или Сэма Альтмана, станут еще богаче. Но утверждать об этом со 100-процентной уверенностью пока не готов. Нужно смотреть, как разные страны будут приспосабливать свои экономики к новой реальности.

Читайте также: Как противостоять росту цифрового мошенничества? Важные тезисы с Visa Security Summit в Дубае