У той час як більшість нейромереж для створення зображень вимагають від користувачів майстерності написання промптів, Google представила експериментальний інструмент, здатний перевернути звичний підхід до генерації зображень. Whisk, що працює на базі передової моделі Imagen 3, дає змогу створювати вражаючі візуальні твори, використовуючи інші зображення як відправну точку.
Як працює візуальна магія від Google
Процес створення зображень в Whisk напрочуд простий та інтуїтивно зрозумілий. Користувачеві достатньо завантажити три типи референсних зображень: об'єкт, який стане головним героєм майбутньої картини, сцену для визначення оточення і стилістичний приклад. Система самостійно аналізує завантажені зображення і формує текстовий промпт, на основі якого генерує фінальний результат.
Для тих, хто не має під рукою відповідних референсів, розробники передбачили спеціальну функцію у вигляді іконки гральної кістки. Одним натисканням Google створить AI-згенеровані заготовки, які можна використовувати як відправну точку.
Я теж трохи поекспериментував із новим штучним інтелектом, генератором картинок. Whisk запропонував "за замовчуванням" стиль – плюшевий динозаврик. Я завантажив зображення відьми і на виході очікувано отримав зображення іграшки у вигляді відьми.
Технологічна основа ШІ Whisk
В основі Whisk лежить потужний тандем технологій – модель генерації зображень Imagen 3 і мовна модель Gemini. Це поєднання забезпечує не тільки високу якість вихідних зображень, а й глибоке розуміння контексту та користувацьких намірів.
Сервіс надає широкі можливості для творчого експерименту. Користувачі можуть ітеративно покращувати результати, редагуючи автоматично згенеровані промпти або додаючи нові референсні зображення. Усі створені роботи зберігаються в персональній бібліотеці, звідки їх можна завантажити або видалити в будь-який момент.
Перспективи розвитку та вплив на креативну індустрію
Google позиціонує Whisk як інструмент для швидкого візуального дослідження, а не для створення піксельно-точних зображень. Такий підхід відкриває нові горизонти для креативних професіоналів, даючи їм змогу швидко візуалізувати ідеї та концепції.
Whisk є частиною ширшої екосистеми AI-інструментів Google, що включає також Veo 2 для генерації відео. Це свідчить про серйозні наміри компанії розвивати напрямок генеративного AI для креативної індустрії.
Незважаючи на експериментальний статус, Whisk вже демонструє потенціал для демократизації створення візуального контенту, роблячи доступними інструменти професійного рівня для широкого кола користувачів.











