Мы применяем куки на сайте, вы соглашаетесь на использование файлов cookie. Подробнее

Подразделение: нейросети kolersky ai

Блог про нейросети

Stable Video 4D - модель искусственного интеллекта для динамической генерации многоракурсного видео

Перевод статьи Stability AI о новой нейросети для создания 3d и 4d моделей в виде видеороликов

Stable Video 4D преобразует видео одного объекта в несколько новых видеороликов с восьми различных углов/видов.
Stable Video 4D с помощью одного вывода генерирует 5 кадров в 8 проекциях примерно за 40 секунд.
Пользователи могут указывать ракурсы камеры, адаптируя вывод в соответствии с конкретными творческими потребностями.

Модель, которая в настоящее время находится на стадии исследования, имеет будущие применения в разработке игр, видеоредактировании и виртуальной реальности, и ожидаются постоянные улучшения. В настоящее время она доступна на Hugging Face .

Мы рады сообщить о выпуске Stable Video 4D — инновационной модели, которая позволяет пользователям загружать одно видео и получать динамичные видеоролики с восьми новых углов/видов, что обеспечивает новый уровень универсальности и креативности.
Опираясь на прочную основу нашей модели Stable Video Diffusion , которая преобразует изображения в видео, модель Stable Video 4D принимает видео в качестве входных данных и генерирует несколько новых видео с разных точек зрения. Это достижение представляет собой скачок в наших возможностях, переходя от генерации видео на основе изображений к полному динамическому синтезу видео 3D.

Как это работает

Пользователи начинают с загрузки одного видео и указания желаемых поз 3D-камеры. Затем Stable Video 4D генерирует восемь новых видео, следующих за указанными видами камеры, обеспечивая всеобъемлющую, многоракурсную перспективу объекта. Сгенерированные видео затем можно использовать для эффективной оптимизации динамического 3D-представления объекта в видео.

В настоящее время Stable Video 4D может генерировать 5-кадровые видео в 8 видах примерно за 40 секунд, при этом вся 4D-оптимизация занимает примерно 20-25 минут. Наша команда предвидит будущие приложения в разработке игр, видеоредактировании и виртуальной реальности. Профессионалы в этих областях могут получить значительную выгоду от возможности визуализировать объекты с разных точек зрения, повышая реалистичность и погружение в свои продукты.

Современная производительность

В отличие от предыдущих подходов, которые часто требуют выборки из комбинации модели диффузии изображения, модели диффузии видео и модели диффузии с несколькими видами, SV4D может генерировать несколько новых видео одновременно, что значительно улучшает согласованность в пространственных и временных осях. Эта возможность не только обеспечивает согласованный внешний вид объекта в нескольких видах и временных метках, но и позволяет использовать более легкую структуру оптимизации 4D без громоздкой выборки дистилляции счета (SDS) с несколькими моделями диффузии.

Stable Video 4D способен создавать новые видеоролики, которые более детализированы, соответствуют исходному видео и последовательны во всех кадрах и видах по сравнению с существующими работами.

Исследования и разработки

Stable Video 4D доступен на Hugging Face и является нашей первой моделью генерации видео в видео, что является захватывающей вехой для Stability AI. Мы активно работаем над совершенствованием модели, оптимизируя ее для обработки более широкого спектра реальных видео за пределами текущих синтетических наборов данных, на которых она была обучена.

Команда Stability AI занимается постоянными инновациями и исследованием реальных вариантов использования этой и других технологий. Мы ожидаем, что компании примут нашу модель, доработав ее в соответствии со своими уникальными требованиями. Потенциал этой технологии в создании реалистичных многоракурсных видео огромен, и мы с нетерпением ждем, как она будет развиваться с текущими исследованиями и разработками.

Технический отчет

В связи с этим объявлением мы выпускаем подробный технический отчет, в котором подробно описываются методологии, проблемы и достижения, достигнутые в ходе разработки этой модели.

Stable Video 4D представляет собой современную технологию генерации видео с открытым исходным кодом и новым видом. Преобразуя отдельные видеовходы в динамические многоракурсные 3D-выходы, мы открываем новые возможности для творчества и инноваций в различных отраслях. Следите за обновлениями, поскольку мы продолжаем улучшать и расширять возможности этой захватывающей технологии.
Постоянно сотрудничая с исследователями, экспертами и нашим сообществом, мы рассчитываем на дальнейшее целостное внедрение инноваций по мере совершенствования модели. Чтобы быть в курсе наших успехов, следите за нами в Twitter , Instagram , LinkedIn и присоединяйтесь к нашему сообществу Discord .

Как GPT-4 узнает принцип работы наших мыслей. Блог о нейросетях KolerskyAI

Как ChatGPT учится предугадывать мысли человека. Обсудим в KolerskyAI

ChatGPT с интерпретатором кода из закрытой альфа-версии: варианты использования. Блог о нейросетях KolerskyAI

Как можно будет применить ChatGPT, когда OpenAI откроют интерпретатор для всех. Чат сможет сам выполнять код. Обсудим в KolerskyAI

Нейронные сети на фотонных чипах. Блог о нейросетях KolerskyAI

Нейросети на фотонных чипах: использование света для сверхбыстрого и маломощного искусственного интеллекта. Обсудим в KolerskyAI

Что можно делать с помощью Midjourney. Блог о нейросетях KolerskyAI

Примеры изображений, созданных с помощью бота телеграм Midjourney. Обсудим в KolerskyAI

Как применять генератор изображений Dall-e в работе. Блог о нейросетях KolerskyAI

О том, как можно применить самый сомнительный генератор изображений Dalle от OpenAI в реальной работе с примерами использования. Обсудим в KolerskyAI

Блог о нейросетях и искусственном интеллекте от компании KolerskyAI

Статьи о нейросетях. Новости ChatGPT, новые нейросети, обо всем в мире искусственного интеллекта