Штучний інтелект сильно переоцінений: бенчмарк SimpleQA від OpenAI показав низьку точність ШІ

5 листопада 2024 в 11:09

Джерело фото: Photo by Zac Wolff on Unsplash

Днями компанія OpenAI представила свій новий бенчмарк під назвою SimpleQA, призначений для оцінки точності мовних моделей штучного інтелекту (ШІ). Результати тестів виявилися досить несподіваними: навіть найпросунутіша модель змогла дати правильні відповіді лише в 42% випадків. Що ж пішло не так?

Як працює SimpleQA?

SimpleQA являє собою набір запитань, кожне з яких має тільки одну правильну відповідь. Запитання були обрані таким чином, щоб вони представляли різні сфери знань, починаючи від наукових фактів і закінчуючи інформацією про популярні телевізійні шоу та відеоігри. Основна мета цього тесту полягає в оцінці здатності ШІ знаходити точні факти і надавати коректні відповіді.

Кожна мовна модель проходила через серію тестів, що складалися з кількох тисяч запитань. Важливо зазначити, що для створення набору запитань використовували спеціальні методи, що забезпечують відсутність двозначності та наявність єдиної правильної відповіді.

Результати тестів

Як уже згадувалося вище, найкраща модель, що брала участь у тестуванні, дала правильні відповіді тільки в 42,7% випадків. Інші учасники показали ще гірші результати. Наприклад, модель GPT-4o впоралася правильно тільки в 38,2% випадків, а модель GPT-4o-mini виявилася точною менш ніж у 10% випадків.

Ці дані викликали хвилю обговорень серед фахівців у галузі ШІ. Багато хто висловив своє здивування такими низькими показниками, адже сучасні мовні моделі вважаються одними з найпотужніших інструментів у світі ШІ.

Чому ШІ припускається помилок?

Однією з основних причин низької точності є те, що ШІ схильний "переоцінювати" свої можливості. Моделі часто дають впевнені відповіді, навіть якщо інформація, яку вони надають, виявляється хибною. Це явище відоме як "галюцинації", коли ШІ генерує контент, який здається правдоподібним, але насправді не відповідає дійсності.

Крім того, багато фахівців вказують на недостатню підготовку даних, використовуваних для навчання ШІ. Хоча моделі навчені на величезній кількості текстів, якість цих даних залишає бажати кращого. У результаті ШІ може легко заплутатися і видати неправильну відповідь.

Що далі?

Незважаючи на розчаровуючі результати, експерти вважають, що випуск SimpleQA став важливим кроком уперед. Тепер у розробників є чітке розуміння слабкостей наявних моделей і можливість поліпшити їхню роботу.

Деякі пропонують використовувати більш якісні набори даних для навчання, інші розглядають можливість впровадження механізмів перевірки фактів безпосередньо в процес генерації контенту. Також обговорюється ідея створення моделей, здатних розпізнавати ситуації, в яких вони не володіють достатньою інформацією для точної відповіді, і замість видачі випадкового результату чесно зізнаватися у своїй невпевненості.

Бенчмарк SimpleQA від OpenAI відкрив очі на реальні можливості сучасних мовних моделей ШІ. Незважаючи на вражаючі досягнення в інших галузях, коли справа доходить до надання точних фактів, ШІ поки далекий від ідеалу. Проте цей тест став відправною точкою для подальшого вдосконалення технологій і пошуку нових підходів до створення надійних і точних моделей штучного інтелекту.

Олександр Пасічний

Головний редактор TERAZUS

Теги: openai, штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!