Компанія OpenAI представила масштабне оновлення свого популярного чат-бота ChatGPT, який тепер зможе не тільки розуміти текстові запити, а й сприймати голосові команди, аналізувати зображення і давати голосові відповіді. Ці нововведення зроблять спілкування зі штучним інтелектом більш природним і наблизять його до людського рівня.
Як працює "голосовий режим" штучного інтелекту
Незабаром користувачі ChatGPT зможуть увімкнути голосовий режим у мобільних додатках "Чату" для iOS і Android. Достатньо буде вимовити запитання в мікрофон, а відповідь чат-бот озвучить одним із п'яти доступних голосів. Це дасть змогу вести з ChatGPT двосторонній голосовий діалог, як із живим співрозмовником.
Інтеграція з Whisher
Функція розпізнавання мови заснована на системі Whisper, а голоси синтезовані за допомогою нейромережі. За словами розробників, їх можна використовувати для різних цілей – від читання книг до звичайних розмов. Дійсно, якщо вам сумно і самотньо, то чому б і не поговорити з розумним співрозмовником?
Зір і мовлення
Ще одне важливе нововведення – можливість завантажувати в ChatGPT зображення і ставити запитання щодо їхнього змісту. Тепер можна сфотографувати, наприклад, вміст холодильника і попросити порадити рецепт з наявних інгредієнтів.
На фото можна навіть малювати або виділяти конкретні області, щоб уточнити запит. А чат-бот проаналізує зображення і дасть розгорнуту голосову відповідь. Це значно розширює можливості візуальної взаємодії зі штучним інтелектом.
Поки що нові функції доступні тільки платним передплатникам ChatGPT і корпоративним користувачам. Але незабаром їх зможуть випробувати всі охочі. Це довгоочікуване оновлення знаменує важливий крок у розвитку чат-ботів і наближає нас до ери природного спілкування з ШІ.











