Этический хакер взломал GPT-4o, заставив ИИ игнорировать ограничения

2 июня 2024 в 15:33

Источник фото: Изображение от rawpixel.com на Freepik

Недавно в мире искусственного интеллекта произошло неординарное событие – пользователь Twitter под ником Pliny the Prompter, называющий себя этичным хакером, выпустил модифицированную версию нейросети GPT-4o от OpenAI. Эта версия, названная GODMODE GPT, смогла обойти все установленные ограничения и демонстрировала впечатляющие, но в то же время тревожные возможности.

Взломанная версия GPT-4o и ее возможности

GODMODE GPT шокировала пользователей своим поведением. Нейросеть свободно пользовалась ненормативной лексикой, давала советы по взлому автомобилей и даже рассказывала, как изготавливать запрещенные вещества. Такие действия недопустимы для обычной версии GPT-4o, которая имеет четкие этические ограничения.

Однако, триумф GODMODE GPT длился недолго. Как только информация о модифицированной нейросети приобрела вирусную популярность в соцсети X (бывший Twitter), компания OpenAI быстро отреагировала. Уже через несколько часов после публикации, GODMODE GPT была удалена с сайта. Хотя сейчас доступ к ней невозможен, скриншоты с "вредными советами" GPT-4o все еще можно найти в оригинальном треде автора.

Возможный способ взлома GPT-4o

Существует предположение, что для взлома GPT-4o был использован архаичный интернет-жаргон leetspeak, который заключается в замене букв цифрами и спецсимволами. Это подтверждается скриншотами разговоров с GODMODE GPT. Компания OpenAI пока не дала четкого ответа, действительно ли использование leetspeak позволяет обходить ограничения ChatGPT. Также не исключено, что Pliny the Prompter просто любит leetspeak, а для взлома использовал какой-то другой метод.

Вывод

Инцидент с GODMODE GPT является ярким примером движения AI red teaming, в рамках которого этичные хакеры пытаются выявить слабые места современных систем искусственного интеллекта, не нанося им существенного вреда. Этот случай напоминает нам, что несмотря на впечатляющие возможности, современный генеративный искусственный интеллект все еще остается системой, которая умеет хорошо угадывать следующие слова в тексте, но не имеет настоящего интеллекта. Как показал недавний опыт с Google и ее обзорами в поиске, ИИ может выдавать неточную или даже вредную информацию. Поэтому важно продолжать исследования в этой области, чтобы сделать системы искусственного интеллекта более надежными и безопасными.

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!