Подразделение: нейросети kolersky ai

Telegram-бот c генерацией видео с помощью нейросети Stable Video


Мы создали телеграм-бот, привязанный к последней версии нейросети Stable Video, которая умеет генерировать видео по запросу.

Вот сам бот: @Video_kolersky_bot
Инструкция к боту. Как генерировать видео с помощью нейросети

*внимание, у нас есть генератор видео с более новой и мощной нейросетью Luma, но стоимость генерации там выше. Инструкция на него тут.

1. Общее описание
Telegram бот в связке нейросетью Stable Video 1.1.
В нем можно генерировать видео разных форматов автоматически, а так же применяя тонкую настройку.
В подписку за 10 запросов за 490р или 5 запросов за 249р на генерации видео в общей сложности.

- на основе текстового запроса;
- на основе картинки;
- изображение + текст;

2. Как генерировать видео?
Для генерации видео выберите нужный режим/настройки, отправьте текстовый запрос или фото и бот отправит вам готовое видео.
О режимах и настройках, а так же примеры - ниже.
3. Виды генерации (режимы работы)
3.1. Видео на основе текстового запроса
В боте можно сгенерировать видео на основе текстового запроса.
Вы можете отправить боту подробный, детальный запрос, либо же задание в общих словах.
Все зависит от вашей задачи.
Запрос: Cappucino
Запрос: Vibrant orange, pink, yellow, and red gerbera daisies mingle together in a clear glass vase in this cheerful AI creation. The arrangement looks professionally done, with different flower heights and angles.
Запрос: Alone glass Skyscraper on the field
Запрос: Alone Skyscraper on the field
Запрос: coffee with newspaper on the balcony in the morning fresh air
Запрос: white coffee cup with coffee splashing out of it
3.2. На основе изображения:
Вышлите в бот изображение, на основе которого хотите сделать видео.
Так же выберите нужные настройки (см. пункт 4) и разрешение, если необходимо.

В данном случае лучше загружать изображение точно в формат, несмотря на то, что бот делает автоконвертацию, иначе по бокам могут быть белые поля или искажения генерации (см пункт 5.1.). Изменить размер онлайн можно тут.
3.3. На основе картинки+текста:
*внимание, режим работает в тестовом режиме, возможны сильные отличия во входящих фото и результате генерации!
Если нужно указать конкретные детали при генерации на основе картинки, вы можете к ней добавить текстовое пояснение.
Текстом нельзя указать действия/направления движения, только добавить детали, элементы.

Выберите нужную команду и вышлите фото+текст одним сообщением.
Запрос: Alone glass Skyscraper on the field
Запрос: boat in the water
Запрос: airplane
Запрос: Sunny
4. Настройки генерации видео
Вы можете выбрать разрешение и тонко настроить генерацию, а так же генерировать в автоматическом режиме.
Критерии стандартного вывода:
Разрешение 1024x576, seed 0, cfg_scale 1.8, motion_bucket_id 127.
До базовых критерии можно сбросить в разделе "настройки".

4.1. Разрешение и пропорции
Возможны варианты вывода горизонтальных и вертикальных или квадратных видео:
Вертикальное 16:9 - 576x1024
Горизонтальное 9:16 - 1024x576
Квадрат 1:1 - 768x768

Вводимое изображение для генерации должно быть приближено по пропорциям к формату генерации, который сейчас установлен. См. пункт 5.1.

Визуализация форматов:
4.2. Seed - случайность (0-4294967294)
0 совсем случайное. Значение выше - более точная генерация.
Нейросеть при генерации выбирает случайное число из огромной выборки видео, на котором она обучена. Вы же можете выбрать сами это значение.

*выбирая одинаковое число Seed с одинаковым запросом, вы будете каждый раз получать очень похожие результаты генерации.
4.3. Cfg_scale - совпадение исходному изображению (1-10)
Используйте более низкие значения, чтобы дать нейросети больше свободы для внесения изменений, и более высокие значения, чтобы минимизировать искажения при движении.
Cfg_scale 1.8
Cfg_scale 5
Cfg_scale 10
Функция может действовать и негативно. Если на ролике есть движение, нейросеть так сильно избегает отхождений от изначальной картинки, что видны границы генерации и картинки. На примере явно разделено небо и все остальное.
4.4. Motion_bucket_id - уровень движения (1-255)
Более низкие значения - меньше движения в выходном видео. Тогда как более высокие значения приводят к большему уровню движений
Motion_bucket_id 5
Камера статична, но видно, как облака движутся.
Motion_bucket_id 127
Здесь уже движется и камера, и облака.
Motion_bucket_id 250
Уровень движения не обязательно будет применен ко всему фото. Здесь нейросеть решила ускорить только облака, зато сильно

5. Технические детали
5.1. Форматы ввода:
Рекомендуемые критерии изображения для ввода, чтобы генерация была более эффективной и точной:
JPG и PNG в разрешениях 1024x576 (16:9), 576x1024 (9:16), 768x768 (1:1).
Изменить размер онлайн можно тут.
*бот автоматом конвертирует в нужный формат, но при этом возможны искажения (белые поля по краям, либо изображение может стать немного обрезано по бокам)
Пример изменения пропорций в стандартном интерфейсе IOS
5.2. Язык запроса
Запрос лучше писать на английском языке.
В боте стоит автоматический перевод, но он не всегда может быть корректен (переводчик временно отключен).

5.3. Форматы вывода:
Видео выводится в формате mpeg4 в разрешении, выбранном вами.

5.4. Длина выводимого видео
Нейросеть пока-что не даёт возможность регулировать длину выводимого видео, оно автоматически равняется 4-5 секундам.

6. Рекомендации
Нейросети для генерации видео только начали развиваться и для создания качественных из видео без искажений часто приходится несколько попыток и тестировать разные настройки.

Плохие примеры генераций
Как видите на примерах ниже, нейросеть спокойно может добавлять на видео артефакты/галлюцинации. На один и тот же запрос может дать как идеальный ответ, так и не очень.
Запрос: Man drinking cappuccino

Видно, что нейросеть ещё не научилась нормально отображать движения человека
Запрос: Man drinking cappuccino

При том же самом запросе может выдавать разный по качеству результат. Тут уже чуть лучше, чем на предыдущем видео
Запрос: Witnessing the extraordinary abduction through the lens of a wide shot, as a UFO's mysterious light beam snatches unsuspecting individuals from the comfort of their camper van.
Чтобы цветы не искажались, как на этом видео, пришлось увеличить совпадение исходному изображению до 4 и снизить уровень движения до 100. Итоговый вариант в горизонтальной ориентации вы уже видели в пункте 3.1.
В каких случаях получаются плохие, а в каких хорошие генерации:
Меньше всего ошибок нейросеть выдает при генерации статичных обьектов.
Движения людей, к примеру, она ещё плохо делает.

Так же, более точной генерация получается на основе фотографии без добавления текстового запроса. Второе место- текстовый запрос. А текст+фото пока выходит совсем плохо

7. Принцип расхода запросов:
Одна любая генерация - расходует 1 запрос из подписки.
Одновременно может обрабатываться только один запрос.

Если бот не выдал ответ на запрос (такое иногда бывает), то из подписки ничего не вычитается.

8. Запрещенные слова и фразы
Stable Video добавляет в бан запросы и пользователей, связанных с насилией, ущемлением любых прав, агрессией, национализмом и т.п.
В таком случае сразу приходит оповещение и запрос не обрабатывается.

9. Время генерации
Генерация видео обычно занимает 1-3 минуты.

10. Примеры использования и доп. информация
Статья на VC:
Как генерировать видео нейросетью. И как ей пользоваться в России?

Полная инструкция от производителя

Ещё примеры можете увидеть снизу страницы.

11. Можно создавать сторис, горизонтальные видео и другое.

Оперативная информация тут: @kolerskych
Запрос: airplane on sky
Запрос: