Китай бросает вызов OpenAI в сфере генерации видео нейросетями

5 мая 2024 в 19:38

Источник фото: Photo by Markus Winkler on Unsplash

Китайская компания ShengShu-AI совместно с университетом Цинхуа представила собственную нейросеть для генерации видео Vidu. Эта модель способна создавать 16-секундные Full HD видеоролики всего за один клик.

Vidu vs Sora

Vidu является прямым конкурентом недавно анонсированной американской модели Sora от OpenAI. По качеству генерируемого видео Vidu пока немного уступает Sora, однако по некоторым параметрам опережает своего соперника.

Главным преимуществом Vidu является возможность создавать 16-секундные ролики. Другие существующие на рынке решения для генерации видео ограничены 4 секундами. После этого времени видеоряд начинает "распадаться".

Как работает Vidu

Vidu основана на собственной разработке китайских ученых – архитектуре Universal Vision Transformer (U-ViT). Она интегрирует преимущества двух подходов для генерации изображений – диффузии и трансформеров.

Благодаря этому Vidu демонстрирует высокий реализм сцен – правдоподобное освещение, тени, мимика. Также модель хорошо понимает специфически китайские образы вроде панды или дракона.

Чего ожидать дальше

Пока доступ к Vidu ограничен, но компания ShengShu-AI активно набирает тестеров для улучшения своей модели. Учитывая недавний анонс Sora от OpenAI, китайцы вряд ли будут долго "тянуть" с широким релизом.

Можно предположить, что в компании уже работают над следующей, более совершенной версией Vidu. Так что в ближайшее время мы еще услышим об этой модели в контексте гонки ИИ между Китаем и США.

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!