Искусственный интеллект сильно переоценен: бенчмарк SimpleQA от OpenAI показал низкую точность ИИ

5 ноября 2024 в 11:09

Источник фото: Photo by Zac Wolff on Unsplash

На днях компания OpenAI представила свой новый бенчмарк под названием SimpleQA, предназначенный для оценки точности языковых моделей искусственного интеллекта (ИИ). Результаты тестов оказались довольно неожиданными: даже самая продвинутая модель смогла дать правильные ответы всего в 42% случаев. Что же пошло не так?

Как работает SimpleQA?

SimpleQA представляет собой набор вопросов, каждый из которых имеет только один правильный ответ. Вопросы были выбраны таким образом, чтобы они представляли различные сферы знаний, начиная от научных фактов и заканчивая информацией о популярных телевизионных шоу и видеоиграх. Основная цель этого теста заключается в оценке способности ИИ находить точные факты и предоставлять корректные ответы.

Каждая языковая модель проходила через серию тестов, состоящих из нескольких тысяч вопросов. Важно отметить, что для создания набора вопросов использовались специальные методы, обеспечивающие отсутствие двусмысленности и наличие единственного правильного ответа.

Результаты тестов

Как уже упоминалось выше, лучшая модель, участвовавшая в тестировании, дала правильные ответы только в 42,7% случаев. Остальные участники показали еще худшие результаты. Например, модель GPT-4o справилась правильно только в 38,2% случаев, а модель GPT-4o-mini оказалась точной менее чем в 10% случаев.

Эти данные вызвали волну обсуждений среди специалистов в области ИИ. Многие выразили свое удивление такими низкими показателями, ведь современные языковые модели считаются одними из самых мощных инструментов в мире ИИ.

Почему ИИ допускает ошибки?

Одной из основных причин низкой точности является то, что ИИ склонен "переоценивать" свои возможности. Модели часто дают уверенные ответы, даже если информация, которую они предоставляют, оказывается неверной. Это явление известно как "галлюцинации", когда ИИ генерирует контент, который кажется правдоподобным, но на самом деле не соответствует действительности.

Кроме того, многие специалисты указывают на недостаточную подготовку данных, используемых для обучения ИИ. Хотя модели обучены на огромном количестве текстов, качество этих данных оставляет желать лучшего. В результате ИИ может легко запутаться и выдать неправильный ответ.

Что дальше?

Несмотря на разочаровывающие результаты, эксперты считают, что выпуск SimpleQA стал важным шагом вперед. Теперь у разработчиков есть четкое понимание слабостей существующих моделей и возможность улучшить их работу.

Некоторые предлагают использовать более качественные наборы данных для обучения, другие рассматривают возможность внедрения механизмов проверки фактов непосредственно в процесс генерации контента. Также обсуждается идея создания моделей, способных распознавать ситуации, в которых они не обладают достаточной информацией для точного ответа, и вместо выдачи случайного результата честно признаваться в своей неуверенности.

Бенчмарк SimpleQA от OpenAI открыл глаза на реальные возможности современных языковых моделей ИИ. Несмотря на впечатляющие достижения в других областях, когда дело доходит до предоставления точных фактов, ИИ пока далек от идеала. Тем не менее, этот тест стал отправной точкой для дальнейшего совершенствования технологий и поиска новых подходов к созданию надежных и точных моделей искусственного интеллекта.

Олександр Пасічний

Головний редактор TERAZUS

Теги: openai, штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!