Дослідники з Сінгапурського технологічного університету Наньян розробили АІ-модель, здатну зламувати популярні чат-боти на кшталт ChatGPT і Google Bard. Метою було продемонструвати вразливості систем захисту таких сервісів і допомогти розробникам удосконалити їх.
Пошук вразливостей
Учені провели зворотний інжиніринг роботи чат-ботів, щоб зрозуміти принципи їхнього захисту від шкідливих запитів. Потім вони навчили власну нейромережу автоматично генерувати текстові підказки, що дають змогу обходити ці захисні механізми.
Так, наприклад, модель навчилася вставляти зайві пробіли в слова або формулювати запит від імені вигаданих персонажів. У підсумку їй вдавалося змушувати ChatGPT і Bard генерувати заборонений контент.
Підвищення кібербезпеки ШІ
Розробники підкреслюють, що їхньою метою було лише продемонструвати недоліки наявних систем захисту чат-ботів. Отримані результати можуть допомогти компаніям удосконалити алгоритми і знизити ризики зловживань.
Вчені вже поінформували OpenAI і Google про свої знахідки. Тепер розробники чат-ботів зможуть врахувати виявлені вразливості та поліпшити захист від зломів у майбутніх версіях.











