Мы применяем куки на сайте, вы соглашаетесь на использование файлов cookie. Подробнее

Телеграм бот c генерацией видео с помощью нейросети Luma Ray-2 Flash

Мы создали telegram-бот, привязанный к нейросети Luma, которая умеет генерировать видео по тексту или картинке для шортс, рилс и другого контента

Вот сам бот: @Luma_video_bot

Функции и примеры

Видео, созданное нейросетями: Luma, Voicegen и Photobot

Инструкция к боту. Как создать видео нейросетью?
*модель нейросети обновлена до ray-2 flash

1. Общее описание
Telegram бот в связке нейросетью Ray-2 Flash от Luma AI.
В боте можно создавать видео, длиной в 5 секунд (с возможностью продления много раз) по вашему запросу быстрой генерацией или применяя точную настройку.

*мы делаем сервис KolerskyMP для создания видеообложек для товаров на маркетплейсах на основе Luma. Уже можете посмотреть пару примеров .

Примеры

Настройки движения камеры

1.1. От производителя
Luma Ray — модель искусственного интеллекта, которая быстро создает высококачественные реалистичные видеоролики из текста и изображений.

Это высокомасштабируемая и эффективная модель-трансформер, обученная непосредственно на видео, что делает ее способной генерировать физически точные, последовательные и насыщенные кадры.

1.2. Варианты подписки и типы генерации видео
Пока нейросети для генерации видео довольно дороги и требуют много вычислительных ресурсов, поэтому начальные варианты пакетов запросов - 5, 10 и 20 генераций:
5 запросов - 390р.
10 запросов - 790р.
20 запросов - 1490р.
В подписку входят генерации с любыми вашими настройками.

Виды генераций:
- на основе вашего текста;
- из загруженного изображения (с указанием начального и конечного изображения);
-продление сгенерированного видео на 5 секунд вперед и назад.

2. Как генерировать видео?
Для создания вашего видео в боте выберите соответствующий режим и доп. настройки (если нужно). Далее вышлите в бот текстовый запрос или картинку и ответом вам придет готовое видео.
*примеры, режимы и виды настроек - ниже в статье

3. Виды генерации видео нейросетью

3.1. Создание видео из текстового запроса
Можно сгенерировать видео на основе текстового запроса.
Вы можете отправить боту подробный, детальный запрос, либо же задание в общих словах.
Все зависит от вашей задачи.

Напишите краткий или подробный запрос, вконце можете приписать, как должна двигаться камера в кадре.

Запрос: Vibrant orange, pink, yellow, and red gerbera daisies mingle together in a clear glass vase in this cheerful AI creation. The arrangement looks professionally done, with different flower heights and angles.

Запрос: Cappucino

Запрос: Alone glass Skyscraper on the field

Запрос: Netflix gaming

Запрос: coffee with newspaper on the balcony in the morning fresh air

Запрос: white coffee cup with coffee splashing out of it

3.2. Из вашего изображения
Отправьте боту фотографию или изобажение, из которого вам нужно сгенерировать видео.
Далее можете прописать настройки движения камеры, разрешение и другое(см. пункт 4).

Лучше загружать изображение в пропорциях, примерно таких же, как у изображения, которое вам нужно на выходе. Изменить пропорции можно тут.

3.2.1 Указать первое, последнее изображение в видео
Можно настроить ключевые кадры. Подробнее в пт. 4.3.

С указанием первого кадра

С указанием последнего кадра

С указанием первого и последнего кадра

Текст к генерации: rotate camera

Текст к генерации: camera pullback

Текст к генерации: walking

3.3. Из изображение с указанием дополнительных деталей текстом
При генерации на основе изображения, в текстовом задании вы можете указать дополнительные детали или указать, как должна двигаться камера.

Запрос: Alone glass Skyscraper on the field

Запрос: boat in the water

Запрос: Sunny. Не всегда нейросеть применяет доп. элементы к видео. Гораздо лучше работает с указаниями о движении камеры.

3.4. Продление сгенерированного видео
Можно продлить вперёд или назад только уже сгенерированное видео.
Для этого нажмите соответствующую кнопку под созданным роликом.

Вы можете в запросе к продлению указать, что должно происходить в новом отрезке видео или же отметить, как должна двигаться камера в кадре.

Продление происходит на 5 секунд, но продлевать видео можно несколько раз, каждый раз увеличивая длину видеоролика.

3.3.1. Продлить видео вперед или назад

Изначальное видео

Продленное видео

3.3.2. Продлить видео, указав начальный или конечный кадр
При продлении вперёд можно указать новый конечный кадр.
При продлении назад - начальный.

Продлеваем назад с новым начальным кадром

Продлеваем вперед с новым конечным кадром

4. Дополнительные функции при генерации видео
Вы можете настроить разрешение/ пропорции вывода видео, движение камеры, а так же первое/последнее изображение в видео.

4.1. Разрешение и пропорции
Возможна генерация горизонтальных, вертикальных или квадратных видео:
Вертикальные: 3:4, 9:16, 9:21
Горизонтальные: 16:9, 4:3, 21:9
Квадрат: 1:1 - 1024x1024

Где какие пропорции используются:

YouTube – 16:9
YouTube Shorts – 9:16
Instagram* Reels – 9:16
Instagram* лента– 1:1
TikTok – 9:16
LinkedIn – 16:9
Pinterest – 1:1 or 9:16
Twitter – 16:9

Визуализация форматов:

4.2. Настройки движения камеры
4.2.1. Перед генерацией
Для указания, как должна камера двигаться в кадре, укажите это прямым текстом в конце текстового запроса.

Панорамирование
Пример запроса: астронавт идет по луне, камера панорамирует влево

Наклоны камеры
Вы также можете попробовать наклонить камеру вверх и вниз, но это менее эффективно по сравнению с панорамированием.

Масштабирование
Масштабирование работает хорошо. Подсказка "camera zoom in" плавно приближает; однако "zoom out" не так функциональна. Используйте "camera pullback" для достижения лучшего эффекта отдаления.

астронавт идет по луне, камера панорамирует влево

астронавт идет по луне, наклонить камеру вниз

астронавт идет по луне, camera pullback

Вращающиеся движения камеры
Вы можете вращать камеру, используя подсказки для вращения по часовой стрелке (clockwise rotation) или против часовой стрелки. Однако ИИ не всегда правильно определяет направление вращения. Даже если ИИ неправильно интерпретирует конкретное направление, он поймет необходимость некоторой формы вращения.

Комбинирование движений
Объединение нескольких движений в одном запросе не работает хорошо. Например, запрос «масштабирование и наклон камеры» обычно приводит к тому, что ИИ по умолчанию вращается по дуге вместо того, чтобы следовать указанным движениям.

Следовать за объектом
Для изображений, сделанных сзади, ключевое слово follow работает отлично, заставляя камеру отслеживать идущий вперед объект. Это эффективно, хотя могут быть незначительные артефакты.

астронавт идет по луне, clockwise rotation

астронавт идет по луне, масштабирование и наклон камеры

астронавт идет по луне, camera follow the subject

Управление движениями субъекта в кадре
Luma AI также позволяет осуществлять некоторый контроль над субъектами в ваших видео. Например, можно эффективно управлять различными выражениями лица, такими как улыбка, смех и хмурый взгляд. Изменение движений головы, например, «поворот лицом к камере», «взгляд вверх» и «взгляд вниз», также хорошо обрабатывается ИИ.

астронавт идет по луне, поворот лицом к камере

Мужчина идёт по улице, наклоняет голову вверх

Генерация на основе изображение с указанием: улыбка

4.2.2. После генерации
После генерации добавить движение можно только при продлении видео. Движение будет применено только к новому фрагменту видео.

5. Технические детали
5.1. Форматы ввода изображений:
Для более точной генерации рекомендуем следующие критерии входящих изображений, но нейросеть хорошо работает и с другими форматами:
JPG и PNG в разрешениях 1360x752 (16:9), 752x1360 (9:16), 1024x1024 (1:1).

Пример изменения пропорций в стандартном интерфейсе IOS

5.2. Языки запроса
*временно бот принимает текстовые запросы только на русском языке
Нейросеть понимает только английский язык.
Мы установили в бот автоматический переводчик, но он не всегда точно переводит.

5.3. Формат вывода сгенерированных видео:
Видео нейросеть генерирует и выводит в формате MPEG4 в проморциях, выбранных в настройках.

5.4. Длина созданных видео
Нейросеть генерирует видео длиной в 5 секунд.
Его можно продлить вперед и назад еще на 5 секунд сколько угодно раз (см. пункт 3.3.).

5.5.Скорость генерации видео
Одно видео генерируется около 10-15 секунд.

5.6. Озвучивание видео
Видео генерируется без звука. В работе бот с моделью TTS, где вы сможете генерировать озвучку из текста.

6. Рекомендации от Kolersky AI
В данный момент искусственный интеллект только начинает выдавать хорошие результаты и часто выдает ошибки, поэтому рекомендуем тщательно относиться к подбору настроек.

Плохие примеры генераций
В примерах ниже вы можете увидеть плохие примеры генераций. Как видите, наибольшее количество ошибок появляется при большом количестве движений в кадре.

Сложные движения при настройке движения камеры, такие как заставить субъекта встать или сесть оленя, не работают достаточно эффективно.
ИИ может анимировать только простые действия, такие как ходьба вперед или незначительные жесты.

Запрос: Man drinking cappuccino

При том же самом запросе может выдавать разный по качеству результат. Можно подробнее прописывать детали движения для лучшего результата.

Запрос: Witnessing the extraordinary abduction through the lens of a wide shot, as a UFO's mysterious light beam snatches unsuspecting individuals from the comfort of their camper van.

7. Принцип расхода запросов:
Одна любая генерация и продление видео в боте расходует 1 запрос из подписки.
Одновременно может обрабатываться только один запрос.

Если бот не дал ответ на ваш запрос или выдал ошибку - из подписки ничего не вычитается.

8. Запрещенный контент
Нейросеть Luma отправляет в бан запросы (текст и изображения), которые содержат элементы нарушения закона, насилия, ограничения чужих прав и подобное. Так же может не пропускать лица. В случае попадания вашего запроса в бан, может прийти ответ об ошибке, либо вообще не прийти ответ.

10. Примеры использования и доп. информация
Наша статья на VC:
Как генерировать видео нейросетью Luma? И как ей пользоваться в России?

Сделали видеоролик шортс (рилс) полностью нейросетью

Оперативная информация тут: @kolerskych

11. Что можно создавать
Можно создавать сторис, рилс, шортс и другое. Подойдёт для создания элементов для видеороликов.

12.Примеры
Ниже можете увидеть больше примеров генерации видео

12.1. На основе текстового запроса

Запрос: airplane on sky

Запрос: Elephant in city

Запрос: rhino

12.2. На основе изображений

12.2.1. С указанием ключевого кадра

Ключевой кадр для начала видео.
Текстовое задание: камера панорамирует влево.

Ключевой кадр для начала видео.

Telegram бот с нейросетью, генерирующей видео в нейросети Sora

Сделали телеграм бот с нейросетью генерации видео с выбором разрешения и движения камеры

OpenAI работает над обновленной версией своего видео ИИ Sora, представленного в феврале

Stable Video 4D - модель искусственного интеллекта для динамической генерации многоракурсного видео

Сделали телеграм бот с нейросетью для перевода видео и аудио на другие языки, а так же озвучки текста

Главред Клим Колосов создал номер журнала с помощью ChayGPT и Midjourney. Блог о нейросетях KolerskyAI