Новий ШІ Google Whisk генерує зображення без текстового опису

Эта статья доступна на русском языке
Whisk
Джерело фото: https://labs.google/

У той час як більшість нейромереж для створення зображень вимагають від користувачів майстерності написання промптів, Google представила експериментальний інструмент, здатний перевернути звичний підхід до генерації зображень. Whisk, що працює на базі передової моделі Imagen 3, дає змогу створювати вражаючі візуальні твори, використовуючи інші зображення як відправну точку.

Як працює візуальна магія від Google

Процес створення зображень в Whisk напрочуд простий та інтуїтивно зрозумілий. Користувачеві достатньо завантажити три типи референсних зображень: об'єкт, який стане головним героєм майбутньої картини, сцену для визначення оточення і стилістичний приклад. Система самостійно аналізує завантажені зображення і формує текстовий промпт, на основі якого генерує фінальний результат.

Для тих, хто не має під рукою відповідних референсів, розробники передбачили спеціальну функцію у вигляді іконки гральної кістки. Одним натисканням Google створить AI-згенеровані заготовки, які можна використовувати як відправну точку.

Я теж трохи поекспериментував із новим штучним інтелектом, генератором картинок. Whisk запропонував "за замовчуванням" стиль – плюшевий динозаврик. Я завантажив зображення відьми і на виході очікувано отримав зображення іграшки у вигляді відьми.

Whisk, скріншот

Технологічна основа ШІ Whisk

В основі Whisk лежить потужний тандем технологій – модель генерації зображень Imagen 3 і мовна модель Gemini. Це поєднання забезпечує не тільки високу якість вихідних зображень, а й глибоке розуміння контексту та користувацьких намірів.

Сервіс надає широкі можливості для творчого експерименту. Користувачі можуть ітеративно покращувати результати, редагуючи автоматично згенеровані промпти або додаючи нові референсні зображення. Усі створені роботи зберігаються в персональній бібліотеці, звідки їх можна завантажити або видалити в будь-який момент.

Перспективи розвитку та вплив на креативну індустрію

Google позиціонує Whisk як інструмент для швидкого візуального дослідження, а не для створення піксельно-точних зображень. Такий підхід відкриває нові горизонти для креативних професіоналів, даючи їм змогу швидко візуалізувати ідеї та концепції.

Whisk є частиною ширшої екосистеми AI-інструментів Google, що включає також Veo 2 для генерації відео. Це свідчить про серйозні наміри компанії розвивати напрямок генеративного AI для креативної індустрії.

Незважаючи на експериментальний статус, Whisk вже демонструє потенціал для демократизації створення візуального контенту, роблячи доступними інструменти професійного рівня для широкого кола користувачів.

Теги: google

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!



Інші статті рубрики

В этот день 17 декабря

2025

2024

2023