В мире, где каждый запрос к искусственному интеллекту может стоить немало, Google представил новую функцию, которая обещает значительно снизить расходы разработчиков.
Google внедрил в своем API для моделей Gemini 2.5 Pro и 2.5 Flash функцию "имплицитного кэширования". Это означает, что система автоматически распознает повторяющиеся части запросов и сохраняет их, что позволяет избежать повторной обработки одинаковых данных. По словам компании, это может привести к экономии до 75% на обработке "повторяющегося контекста" в запросах.
В отличие от предыдущего "эксплицитного кэширования", которое требовало ручной настройки, новая функция работает автоматически и не требует дополнительных действий от разработчиков. Это особенно полезно для тех, кто часто использует одинаковые шаблоны запросов или контекстов в своих приложениях.
Когда запрос к модели Gemini 2.5 имеет общий префикс с предыдущим запросом, система распознает это как "cache hit" и применяет сохраненные данные, уменьшая вычислительные ресурсы и соответственно расходы. Для активации кэширования минимальное количество токенов в запросе должно составлять 1024 для модели 2.5 Flash и 2048 для 2.5 Pro.
Google рекомендует размещать повторяющийся контекст в начале запроса, а переменные части – в конце. Это повышает вероятность того, что система распознает запрос как такой, который можно кэшировать.
Для разработчиков это нововведение означает значительное снижение затрат на использование передовых моделей ИИ. Поскольку функция работает автоматически, нет необходимости в дополнительной настройке или изменении существующего кода. Это делает передовые технологии более доступными для широкого круга пользователей.
Однако стоит отметить, что Google не предоставил независимой верификации эффективности этой функции. Поэтому реальная экономия может варьироваться в зависимости от конкретного использования.
Имплицитное кэширование от Google – это шаг к уменьшению затрат на использование ИИ и упрощению процесса интеграции передовых моделей в приложения. Хотя окончательную эффективность еще предстоит оценить на практике, потенциальные преимущества для разработчиков очевидны.
Источник: TechCrunch










