Компанія Stability AI представила нову модель штучного інтелекту Stable Diffusion XL Turbo. Вона здатна генерувати зображення на основі текстового опису з небаченою раніше швидкістю. Так, картинка роздільною здатністю 512 на 512 пікселів генерується всього за 207 мілісекунд. У чому секрет такої продуктивності і які перспективи відкриває ця розробка? Давайте розбиратися.
Революційна технологія, доступна всім
В основі Stable Diffusion XL Turbo лежить запатентована технологія Adversarial Diffusion Distillation (ADD). Вона дає змогу створювати зображення за один крок замість 20-50, необхідних у попередніх моделях. Це стало можливим завдяки використанню машинного навчання з підкріпленням на базі наявних генераторів зображень.
Хоча деталізація одержуваних зображень дещо нижча, ніж у звичайній моделі Stable Diffusion XL, швидкість вражає. На відеокарті Nvidia A100 генерується картинка 512х512 пікселів всього за 207 мілісекунд!
Експерименти та доступність моделі
Поки що Stable Diffusion XL Turbo доступна тільки для некомерційного використання. Однак компанія не виключає появи комерційної версії в майбутньому. Уже зараз можна спробувати бета-версію генератора на платформі Clipdrop.
Потенціал застосування
Завдяки швидкості, яку можна порівняти зі "швидкістю думки", Stable Diffusion XL Turbo відкриває шлях до створення інтерактивних ШІ-фільтрів і графіки в комп'ютерних іграх у режимі реального часу. Звичайно, належить вирішити проблеми узгодженості зображень у відеопотоці, але майбутнє однозначно за подібними розробками.











