Компания OpenAI представила масштабное обновление своего популярного чат-бота ChatGPT, который теперь сможет не только понимать текстовые запросы, но и воспринимать голосовые команды, анализировать изображения и давать голосовые ответы. Эти новшества сделают общение с искусственным интеллектом более естественным и приблизят его к человеческому уровню.
Как работает “голосовой режим” искусственного интеллекта
В скором времени пользователи ChatGPT смогут включить голосовой режим в мобильных приложениях “Чата” для iOS и Android. Достаточно будет произнести вопрос в микрофон, а ответ чат-бот озвучит одним из пяти доступных голосов. Это позволит вести с ChatGPT двусторонний голосовой диалог, как с живым собеседником.
Интеграция с Whisher
Функция распознавания речи основана на системе Whisper, а голоса синтезированы с помощью нейросети. По словам разработчиков, их можно использовать для различных целей – от чтения книг до обычных разговоров. Действительно, если вам грустно и одиноко, то почему бы и не поговорить с умным собеседником?
Зрение и речь
Еще одно важное нововведение – возможность загружать в ChatGPT изображения и задавать вопросы по их содержанию. Теперь можно сфотографировать, к примеру, содержимое холодильника и попросить посоветовать рецепт из имеющихся ингредиентов.
На фото можно даже рисовать или выделять конкретные области, чтобы уточнить запрос. А чат-бот проанализирует изображение и даст развернутый голосовой ответ. Это значительно расширяет возможности визуального взаимодействия с искусственным интеллектом.
Пока что новые функции доступны только платным подписчикам ChatGPT и корпоративным пользователям. Но в скором времени их смогут опробовать все желающие. Это долгожданное обновление знаменует важный шаг в развитии чат-ботов и приближает нас к эре естественного общения с ИИ.











