В то время как большинство нейросетей для создания изображений требуют от пользователей мастерства написания промптов, Google представила экспериментальный инструмент, способный перевернуть привычный подход к генерации изображений. Whisk, работающий на базе передовой модели Imagen 3, позволяет создавать впечатляющие визуальные произведения, используя другие изображения в качестве отправной точки.
Как работает визуальная магия от Google
Процесс создания изображений в Whisk удивительно прост и интуитивно понятен. Пользователю достаточно загрузить три типа референсных изображений: объект, который станет главным героем будущей картины, сцену для определения окружения и стилистический пример. Система самостоятельно анализирует загруженные изображения и формирует текстовый промпт, на основе которого генерирует финальный результат.
Для тех, кто не имеет под рукой подходящих референсов, разработчики предусмотрели специальную функцию в виде иконки игральной кости. Одним нажатием Google создаст AI-сгенерированные заготовки, которые можно использовать в качестве отправной точки.
Я тоже немного поэкспериментировал с новым искусственным интеллектом, генератором картинок. Whisk предложил «по умолчанию» стиль — плюшевый динозаврик. Я загрузил изображение ведьмы и на выходе ожидаемо получил изображение игрушки в виде ведьмы.
Технологическая основа ИИ Whisk
В основе Whisk лежит мощный тандем технологий — модель генерации изображений Imagen 3 и языковая модель Gemini. Это сочетание обеспечивает не только высокое качество выходных изображений, но и глубокое понимание контекста и пользовательских намерений.
Сервис предоставляет широкие возможности для творческого эксперимента. Пользователи могут итеративно улучшать результаты, редактируя автоматически сгенерированные промпты или добавляя новые референсные изображения. Все созданные работы сохраняются в персональной библиотеке, откуда их можно скачать или удалить в любой момент.
Перспективы развития и влияние на креативную индустрию
Google позиционирует Whisk как инструмент для быстрого визуального исследования, а не для создания пиксельно-точных изображений. Такой подход открывает новые горизонты для креативных профессионалов, позволяя им быстро визуализировать идеи и концепции.
Whisk является частью более широкой экосистемы AI-инструментов Google, включающей также Veo 2 для генерации видео. Это свидетельствует о серьезных намерениях компании развивать направление генеративного AI для креативной индустрии.
Несмотря на экспериментальный статус, Whisk уже демонстрирует потенциал для демократизации создания визуального контента, делая доступными инструменты профессионального уровня для широкого круга пользователей.











