OpenAI представила нейросеть для генерации видео по текстовому запросу

Дата публикации: 16.02.2024, 10:18

Фото — Levart_Photographer, Unsplash

Модель называется Sora, сообщается на сайте компании. Она позволяет пользователям создавать фотореалистичные видеоролики длиной до минуты на основе написанных ими инструкций. Нейросеть также может генерировать видео на основе изображений, заполнять недостающие кадры в существующем ролике или расширять его. ИИ-помощник понимает не только то, что человек запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.

Как отметил старший специалист по ИИ в NVIDIA Джим Фан, «Sora не просто игрушка для творчества, а полноценный физический движок со сложным рендерингом. Это симулятор множества миров, реальных или фантастических. Она не просто генерирует отдельную фотографию или видео, а определяет физику каждого объекта в окружении,  и на основе этих расчетов создает фотографию или видео (или интерактивный 3D-мир, в зависимости от ситуации). Я не удивлюсь, если Sora обучается на большом количестве синтетических данных с помощью Unreal Engine 5» (игровой движок от Epic Games – прим. Digital Business).

Пока Sora доступна только «красным командам» – организациям, которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ некоторым художникам, дизайнерам и режиссерам, чтобы получить обратную связь. Компания отмечает, что существующая версия «может испытывать трудности с точным моделированием физики сложной сцены и неправильно интерпретировать некоторые случаи причинно-следственных связей».

Читайте также: «Видим, что можем стать конкурентными в США». Казахстанцы создали сервис Video GPT, который поможет бизнесу больше зарабатывать