Но вообще-то практически ВСЕ оболочки для Stable Diffusion УЖЕ сейчас умеют создавать видео ролики
(это мало кто использует но просто потому что ресурсов современных "домашних" компьютеров обычно для этого недостаточно, даже несмотря на наличие "супер-компьютерного режима" с использованием GPU для поддержки нейросетей )
Моих железок неплохо справляющихся с ВиАр-на-минималках для генерации Видео недостаточно категорически.
(Разница между использованием СPU "Рязани 5" (четыре ядара восемь потоков) и GPU (GTX 1665 более 500 "куда-ядер" ) впечатляет 30-ть и более минут на один кадр при расчете на СPU против от одной до пяти минут при расчете с использованием GPU, но этого все равно совершенно недостаточно для генерации видео. На более современных видеокартах получается получить более приемлемые 10-20 секунд на кадр но стоят они приметно как "пять современных смартфонов") )
Зы
Еще можно сделать обработку видео (это быстрее)...
https://youtu.be/v3swmwG3qpA