Обхід захисту ШІ: сінгапурські вчені створили модель для злому ChatGPT

31 грудня 2023 в 14:47

Джерело фото: Photo by Steve Johnson on Unsplash

Дослідники з Сінгапурського технологічного університету Наньян розробили АІ-модель, здатну зламувати популярні чат-боти на кшталт ChatGPT і Google Bard. Метою було продемонструвати вразливості систем захисту таких сервісів і допомогти розробникам удосконалити їх.

Пошук вразливостей

Учені провели зворотний інжиніринг роботи чат-ботів, щоб зрозуміти принципи їхнього захисту від шкідливих запитів. Потім вони навчили власну нейромережу автоматично генерувати текстові підказки, що дають змогу обходити ці захисні механізми.

Так, наприклад, модель навчилася вставляти зайві пробіли в слова або формулювати запит від імені вигаданих персонажів. У підсумку їй вдавалося змушувати ChatGPT і Bard генерувати заборонений контент.

Підвищення кібербезпеки ШІ

Розробники підкреслюють, що їхньою метою було лише продемонструвати недоліки наявних систем захисту чат-ботів. Отримані результати можуть допомогти компаніям удосконалити алгоритми і знизити ризики зловживань.

Вчені вже поінформували OpenAI і Google про свої знахідки. Тепер розробники чат-ботів зможуть врахувати виявлені вразливості та поліпшити захист від зломів у майбутніх версіях.

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!