Sora — новая ИИ-модель от OpenAI, которая генерирует видео из текста

Последняя модель OpenAI превращает текстовые подсказки в «сложные реалистичные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона» — продолжительностью до минуты.

Компания также отмечает, что Sora может понимать, как объекты «существуют в физическом мире», а также «точно интерпретировать реквизит и генерировать убедительных персонажей, выражающих яркие эмоции». Модель также может генерировать видео на основе неподвижного изображения и заполнять недостающие кадры в существующем видео или расширять его.

Сгенерированные Sora демо-ролики, опубликованные на X, включают в частности пролет камеры по заснеженной улице Токио — правда, если внимательно присмотреться, можно отыскать признаки работы искусственного интеллекта (например, разъединенные со стволами кроны деревьев).

Несколько лет назад именно генераторы текста в изображения, такие как Midjourney, привлекли большое внимание к отрасли ИИ, однако сейчас такие компании, как Runway и Pika взялись совершенствовать технологию для видео. Lumiere от Google сейчас можно считать основным конкурентом OpenAI в этой сфере (хотя продолжительность ролика у этой модели ограничена до 5 секунд).

Сейчас Sora доступна только для «красных команд», которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ для некоторых художников, дизайнеров и режиссеров, чтобы получить отзывы.

Ранее в этом месяце OpenAI объявила, что добавляет водяные знаки к своему инструменту для преобразования текста в изображение DALL-E 3, но отмечает, что их можно «легко удалить».

Примеры видео, сгенерированные Sora

Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!