GPT 4 тупішає, а GPT 3.5 стає розумнішим

Эта статья доступна на русском языке
штучний інтелект
Джерело фото: https://pixabay.com/photos/web-network-technology-developer-3963945/

Генеративний штучний інтелект, який наробив стільки фурору, тепер, схоже, стрімко тупіє. ChatGPT неправильно відповів на запитання з програмування, які йому ставили.

 

Як ChatGPT провалив запитання з програмування

Саме такий висновок зробила команда вчених з Університету Пердью (США). Учені вирішили перевірити ChatGPT, поставивши йому 517 запитань із популярного ресурсу Stack Overflow.

На цьому ресурсі програмісти діляться знаннями та розв'язаннями різних задач. Мета дослідження – визначення точності, повноти та лаконічності відповідей чат-бота.

Сказати, що результати розчарували, значить, нічого не сказати: ChatGPT "провалив" 52% запитань. При цьому 77% відповідей були оцінені як багатослівні. Серед відповідей були і правильні, і неправильні.

Рекомендуємо прочитати: Microsoft “закручує” гайки: ви не встановите Windows 11 на комп’ютери з цими процесорами Intel

ChatGPT, як і заснований на ньому Bing Chat, дуже часто бреше. У науковій термінології це називається "галюцинаціями". Навіть явно неправильні відповіді можуть здаватися правдоподібними через упевнений, позитивний тон і вичерпний, повчальний стиль викладення, притаманний ШІ.

"Чат" і Bing можуть навіть навести посилання, звідки вони брали матеріал для своєї відповіді. От тільки якщо перейти за цими посиланнями, у більшості випадків розумієш, що все написане є фейком.

Розпізнати помилку практично неможливо

інтелект

Шанси розпізнати помилку невеликі: користувачі помічають тільки явні "галюцинації". У випадках, коли текст читав непрофесіонал, відсоток пропуску помилок був набагато вищим.

Цікаво те, що навіть якщо отримана від "Чату ГПТ" відповідь була явно неправильною, 2 з 12 учасників все одно продовжували нею користуватися. Їм подобався позитивний, упевнений тон штучного інтелекту.

GPT 4 у багатьох питаннях гірше, ніж GPT 3.5

Потрібно зазначити, що ChatGPT "тупішає" по-різному. GPT 4 у середньому стає більш дурним, ніж раніше, а GPT 3.5 дає більш правильні та розгорнуті ідеї.

Про погіршення видачі GPT-4 повідомила група дослідників зі Стенфордського та Каліфорнійського університетів. Учені тестували штучний інтелект на прості числа. У березні точність "Чату" у відповіді на це запитання становила 97,6%. А в червні знизилася до 2.4% - разюча різниця!

Далі GPT-4 і GPT-3.5 тестували за такими критеріями:

  • Розв'язування математичних задач;
  • Відповіді на делікатні запитання;
  • Генерування програмного коду;
  • Візуальне сприйняття.

Не будемо вас стомлювати нудними викладками, а відразу розповімо про результати:

  • У червні "Чат" погіршив свої відповіді порівняно з березнем, за винятком лише завдання на візуальні образи.
  • Версія GPT-3.5 стала кращою в 3 завданнях із 4 (результат погіршився тільки в завданнях на програмування).

Висновки: GPT-4 краще справлялася приблизно з 50% завдань. Але загалом до ефективності мовної моделі були великі питання.

З часом будь-яка мовна модель може деградувати, показуючи з часом гірші результати. Поки що незрозуміло, з чим конкретно це пов'язано. Цілком можливо, що намагаючись поліпшити якісь одні характеристики моделі, розробники погіршують інші.

Інші вчені провели паралельне дослідження штучного інтелекту. Вони з'ясували, що якщо навчати ШІ на згенерованих матеріалах, то він теж стрімко "тупіє".

Економія OpenAI – причина "отупіння" ChatGPT

штучний інтелект

Є думка, що однією з причин "тупізму" ChatGPT є економія компанії OpenAI. Не секрет, що всього один день роботи обходиться в десятки тисяч доларів. Можливо, що компанія вирішила відключити деяке обладнання, оптимізувавши, таким чином, свої витрати.

Загалом, дослідження демонструє, що генеративні ШІ ще далекі від того, щоб повністю замінити собою людину. Їхні відповіді мають ретельно перевірятися і не можуть сліпо прийматися на віру, особливо коли йдеться про важливі технічні питання.

Рекомендуємо прочитати: Як звичайні студенти хакнули “Теслу” та отримали доступ до платних функцій

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!



Інші статті рубрики

В этот день 11 августа

2025

2024

2023