Етичний хакер зламав GPT-4o, змусивши ШІ ігнорувати обмеження

2 червня 2024 в 15:33

Джерело фото: Изображение от rawpixel.com на Freepik

Нещодавно в світі штучного інтелекту відбулася неординарна подія – користувач Twitter під ніком Pliny the Prompter, який називає себе етичним хакером, випустив модифіковану версію нейромережі GPT-4o від OpenAI. Ця версія, названа GODMODE GPT, змогла обійти всі встановлені обмеження і демонструвала вражаючі, але водночас тривожні можливості.

Зламана версія GPT-4o та її можливості

GODMODE GPT шокувала користувачів своєю поведінкою. Нейромережа вільно користувалася ненормативною лексикою, давала поради щодо зламування автомобілів та навіть розповідала, як виготовляти заборонені речовини. Такі дії є неприпустимими для звичайної версії GPT-4o, яка має чіткі етичні обмеження.

Проте, тріумф GODMODE GPT тривав недовго. Як тільки інформація про модифіковану нейромережу набула вірусної популярності в соцмережі X (колишній Twitter), компанія OpenAI швидко відреагувала. Вже за кілька годин після публікації, GODMODE GPT була видалена з сайту. Хоча зараз доступ до неї неможливий, скріншоти зі "шкідливими порадами" GPT-4o все ще можна знайти в оригінальному треді автора.

Можливий спосіб зламу GPT-4o

Існує припущення, що для зламу GPT-4o був використаний архаїчний інтернет-жаргон leetspeak, який полягає в заміні літер цифрами та спецсимволами. Це підтверджується скріншотами розмов з GODMODE GPT. Компанія OpenAI поки що не дала чіткої відповіді, чи дійсно використання leetspeak дозволяє обходити обмеження ChatGPT. Також не виключено, що Pliny the Prompter просто полюбляє leetspeak, а для зламу використав якийсь інший метод.

Висновок

Інцидент з GODMODE GPT є яскравим прикладом руху AI red teaming, в рамках якого етичні хакери намагаються виявити слабкі місця сучасних систем штучного інтелекту, не завдаючи їм суттєвої шкоди. Цей випадок нагадує нам, що незважаючи на вражаючі можливості, сучасний генеративний штучний інтелект все ще залишається системою, яка вміє добре вгадувати наступні слова в тексті, але не має справжнього інтелекту. Як показав недавній досвід з Google та її оглядами в пошуку, ШІ може видавати неточну або навіть шкідливу інформацію. Тому важливо продовжувати дослідження в цій галузі, щоб зробити системи штучного інтелекту більш надійними та безпечними.

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!