У світі, де кожен запит до штучного інтелекту може коштувати чимало, Google представив нову функцію, яка обіцяє значно знизити витрати розробників.
Google впровадив у своєму API для моделей Gemini 2.5 Pro та 2.5 Flash функцію "імпліцитного кешування". Це означає, що система автоматично розпізнає повторювані частини запитів і зберігає їх, що дозволяє уникнути повторної обробки однакових даних. За словами компанії, це може призвести до економії до 75% на обробці "повторюваного контексту" у запитах.
На відміну від попереднього "експліцитного кешування", яке вимагало ручного налаштування, нова функція працює автоматично і не потребує додаткових дій від розробників. Це особливо корисно для тих, хто часто використовує однакові шаблони запитів або контекстів у своїх додатках.
Коли запит до моделі Gemini 2.5 має спільний префікс з попереднім запитом, система розпізнає це як "cache hit" і застосовує збережені дані, зменшуючи обчислювальні ресурси та відповідно витрати. Для активації кешування мінімальна кількість токенів у запиті повинна становити 1024 для моделі 2.5 Flash та 2048 для 2.5 Pro.
Google рекомендує розміщувати повторюваний контекст на початку запиту, а змінні частини — наприкінці. Це підвищує ймовірність того, що система розпізнає запит як такий, що можна кешувати.
Для розробників це нововведення означає значне зниження витрат на використання передових моделей ШІ. Оскільки функція працює автоматично, немає потреби в додатковому налаштуванні або зміні існуючого коду. Це робить передові технології більш доступними для широкого кола користувачів.
Однак варто зазначити, що Google не надав незалежної верифікації ефективності цієї функції. Тому реальні заощадження можуть варіюватися залежно від конкретного використання.
Імпліцитне кешування від Google — це крок до зменшення витрат на використання ШІ та спрощення процесу інтеграції передових моделей у додатки. Хоча остаточну ефективність ще належить оцінити на практиці, потенційні переваги для розробників очевидні.
Джерело: TechCrunch










