Stable Video 4D - модель искусственного интеллекта для динамической генерации многоракурсного видео

Перевод статьи Stability AI о новой нейросети для создания 3d и 4d моделей в виде видеороликов
  • Stable Video 4D преобразует видео одного объекта в несколько новых видеороликов с восьми различных углов/видов.
  • Stable Video 4D с помощью одного вывода генерирует 5 кадров в 8 проекциях примерно за 40 секунд.
  • Пользователи могут указывать ракурсы камеры, адаптируя вывод в соответствии с конкретными творческими потребностями.
Модель, которая в настоящее время находится на стадии исследования, имеет будущие применения в разработке игр, видеоредактировании и виртуальной реальности, и ожидаются постоянные улучшения. В настоящее время она доступна на Hugging Face .
Мы рады сообщить о выпуске Stable Video 4D — инновационной модели, которая позволяет пользователям загружать одно видео и получать динамичные видеоролики с восьми новых углов/видов, что обеспечивает новый уровень универсальности и креативности.
Опираясь на прочную основу нашей модели Stable Video Diffusion , которая преобразует изображения в видео, модель Stable Video 4D принимает видео в качестве входных данных и генерирует несколько новых видео с разных точек зрения. Это достижение представляет собой скачок в наших возможностях, переходя от генерации видео на основе изображений к полному динамическому синтезу видео 3D.

Как это работает

Пользователи начинают с загрузки одного видео и указания желаемых поз 3D-камеры. Затем Stable Video 4D генерирует восемь новых видео, следующих за указанными видами камеры, обеспечивая всеобъемлющую, многоракурсную перспективу объекта. Сгенерированные видео затем можно использовать для эффективной оптимизации динамического 3D-представления объекта в видео.
В настоящее время Stable Video 4D может генерировать 5-кадровые видео в 8 видах примерно за 40 секунд, при этом вся 4D-оптимизация занимает примерно 20-25 минут. Наша команда предвидит будущие приложения в разработке игр, видеоредактировании и виртуальной реальности. Профессионалы в этих областях могут получить значительную выгоду от возможности визуализировать объекты с разных точек зрения, повышая реалистичность и погружение в свои продукты.

Современная производительность

В отличие от предыдущих подходов, которые часто требуют выборки из комбинации модели диффузии изображения, модели диффузии видео и модели диффузии с несколькими видами, SV4D может генерировать несколько новых видео одновременно, что значительно улучшает согласованность в пространственных и временных осях. Эта возможность не только обеспечивает согласованный внешний вид объекта в нескольких видах и временных метках, но и позволяет использовать более легкую структуру оптимизации 4D без громоздкой выборки дистилляции счета (SDS) с несколькими моделями диффузии.
Stable Video 4D способен создавать новые видеоролики, которые более детализированы, соответствуют исходному видео и последовательны во всех кадрах и видах по сравнению с существующими работами.

Исследования и разработки

Stable Video 4D доступен на Hugging Face и является нашей первой моделью генерации видео в видео, что является захватывающей вехой для Stability AI. Мы активно работаем над совершенствованием модели, оптимизируя ее для обработки более широкого спектра реальных видео за пределами текущих синтетических наборов данных, на которых она была обучена.

Команда Stability AI занимается постоянными инновациями и исследованием реальных вариантов использования этой и других технологий. Мы ожидаем, что компании примут нашу модель, доработав ее в соответствии со своими уникальными требованиями. Потенциал этой технологии в создании реалистичных многоракурсных видео огромен, и мы с нетерпением ждем, как она будет развиваться с текущими исследованиями и разработками.

Технический отчет

В связи с этим объявлением мы выпускаем подробный технический отчет, в котором подробно описываются методологии, проблемы и достижения, достигнутые в ходе разработки этой модели.
Stable Video 4D представляет собой современную технологию генерации видео с открытым исходным кодом и новым видом. Преобразуя отдельные видеовходы в динамические многоракурсные 3D-выходы, мы открываем новые возможности для творчества и инноваций в различных отраслях. Следите за обновлениями, поскольку мы продолжаем улучшать и расширять возможности этой захватывающей технологии.
Постоянно сотрудничая с исследователями, экспертами и нашим сообществом, мы рассчитываем на дальнейшее целостное внедрение инноваций по мере совершенствования модели. Чтобы быть в курсе наших успехов, следите за нами в Twitter , Instagram , LinkedIn и присоединяйтесь к нашему сообществу Discord .
Проекты с нейросетями

ChatGPT | GPT-4 | Dall-e | Midjourney | Whisper | Фоторедактор | Stable Diffusion