Китайская компания ShengShu-AI совместно с университетом Цинхуа представила собственную нейросеть для генерации видео Vidu. Эта модель способна создавать 16-секундные Full HD видеоролики всего за один клик.
Vidu vs Sora
Vidu является прямым конкурентом недавно анонсированной американской модели Sora от OpenAI. По качеству генерируемого видео Vidu пока немного уступает Sora, однако по некоторым параметрам опережает своего соперника.
Главным преимуществом Vidu является возможность создавать 16-секундные ролики. Другие существующие на рынке решения для генерации видео ограничены 4 секундами. После этого времени видеоряд начинает "распадаться".
Как работает Vidu
Vidu основана на собственной разработке китайских ученых – архитектуре Universal Vision Transformer (U-ViT). Она интегрирует преимущества двух подходов для генерации изображений – диффузии и трансформеров.
Благодаря этому Vidu демонстрирует высокий реализм сцен – правдоподобное освещение, тени, мимика. Также модель хорошо понимает специфически китайские образы вроде панды или дракона.
Чего ожидать дальше
Пока доступ к Vidu ограничен, но компания ShengShu-AI активно набирает тестеров для улучшения своей модели. Учитывая недавний анонс Sora от OpenAI, китайцы вряд ли будут долго "тянуть" с широким релизом.
Можно предположить, что в компании уже работают над следующей, более совершенной версией Vidu. Так что в ближайшее время мы еще услышим об этой модели в контексте гонки ИИ между Китаем и США.











