GPT 4 тупеет, а GPT 3.5 становится более умным

11 августа 2023 в 15:48

Источник фото: https://pixabay.com/photos/web-network-technology-developer-3963945/

Генеративный искусственный интеллект, который наделал столько фурора, теперь, похоже, стремительно тупеет. ChatGPT неправильно ответил на вопросы по программированию, которые ему задавали.

Как ChatGPT провалил вопросы по программированию

Именно такой вывод сделала команда ученых из Университета Пердью (США). Ученые решили проверить ChatGPT, задав ему 517 вопросов из популярного ресурса Stack Overflow.

На этом ресурсе программисты делятся знаниями и решениями различных задач. Цель исследования – определение точности, полноты и лаконичности ответов чат-бота.

Сказать, что результаты разочаровали, значит, ничего не сказать: ChatGPT “провалил” 52% вопросов. При этом 77% ответов были оценены как многословные. Среди ответов были и правильные, и неверные.

ChatGPT, как и основанный на нем Bing Chat очень часто врет. В научной терминологии это называется “галлюцинациями”. Даже явно неверные ответы могут казаться правдоподобными из-за уверенного, позитивного тона и исчерпывающего, поучительного стиля изложения, присущего ИИ.

“Чат” и Bing могут даже привести ссылки, откуда они брали материал для своего ответа. Вот только если перейти по этим ссылкам, в большинстве случаев понимаешь, что все написанное является фейком.

Распознать ошибку практически невозможно

Шансы распознать ошибку невелики: пользователи замечают только явные “галлюцинации”. В случаях, когда текст читал непрофессионал, процент пропуска ошибок был гораздо выше.

Интересно то, что даже если полученный от “Чата ГПТ” ответ был явно неправильным, 2 из 12 участников все равно продолжали им пользоваться. Им нравился позитивный, уверенный тон искусственного интеллекта.

GPT 4 во многих вопросах хуже, чем GPT 3.5

Нужно отметить, что ChatGPT “тупеет” по-разному. GPT 4 в среднем становится более глупым, чем раньше, а GPT 3.5 дает более правильные и развернутые идеи.

Об ухудшении выдачи GPT-4 сообщила группа исследователей из Стэнфордского и Калифорнийского университетов. Ученые тестировали искусственный интеллект на простые числа. В марте точность “Чата” в ответе на этот вопрос составила 97,6%. А в июне снизилась до 2.4% – поразительная разница!

Далее GPT-4 и GPT-3.5 тестировали по таким критериям:

Решение математических задач;
Ответы на деликатные вопросы;
Генерирование программного кода;
Визуальное восприятие.

Не будем вас утомлять нудными выкладками, а сразу расскажем о результатах:

В июне “Чат” ухудшил свои ответы по сравнению с мартом, исключая только задачу на визуальные образы.
Версия GPT-3.5 стала лучше в 3 задачах из 4 (результат ухудшился только в задачах на программирование).

Выводы: GPT-4 лучше справлялась примерно с 50% задач. Но в целом к эффективности языковой модели были большие вопросы.

Со временем любая языковая модель может деградировать, показывая со временем худшие результаты. Пока что неясно, с чем конкретно это связано. Вполне возможно, что пытаясь улучшить какие-то одни характеристики модели, разработчики ухудшают другие.

Другие ученые провели параллельное исследование искусственного интеллекта. Они выяснили, что если обучать ИИ на сгенерированных материалах, то он тоже стремительно “тупеет”.

Экономия OpenAI – причина “отупения” ChatGPT

Есть мнение, что одной из причин “тупизма” ChatGPT является экономия компании OpenAI. Не секрет, что всего один день работы обходится в десятки тысяч долларов. Возможно, что компания решила отключить некоторое оборудование, оптимизировав, таким образом, свои расходы.

В целом, исследование демонстрирует, что генеративные ИИ еще далеки от того, чтобы полностью заменить собой человека. Их ответы должны тщательно проверяться и не могут слепо приниматься на веру, особенно когда речь идет о важных технических вопросах.

Рекомендуем прочитать: Как вернуться к Windows 10, если Windows 11 не подошел

Олександр Пасічний

Головний редактор TERAZUS

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!