Дослідники в галузі штучного інтелекту виявили вразливість у процесі навчання чат-ботів і генераторів зображень, що базуються на ШІ, таких як ChatGPT. Ці системи використовують величезні обсяги даних, зібраних з Інтернету, для формування відповідей на запити користувачів. Однак, як з'ясувалося, зловмисники можуть досить просто і дешево маніпулювати цими даними, спотворюючи результати роботи ШІ.
Перший спосіб: придбання прострочених доменів
Одним із способів такого втручання є придбання прострочених доменів за символічну плату, наприклад, $10 на рік, і розміщення на них будь-якої інформації. Експерименти показали, що витративши лише $60, можна ефективно контролювати домени та отруювати щонайменше 0,01% навчального набору даних, що становить десятки тисяч зображень.
Другий спосіб: написання «сміття» у Вікіпедію
Інший метод полягає у редагуванні статей Вікіпедії, яка є ключовим джерелом даних для багатьох мовних моделей ШІ. Хоча Вікіпедія не дозволяє безпосереднє вилучення даних, вона надає можливість завантажувати копії сторінок у визначені проміжки часу. Зловмисник може приурочити внесення шкідливих змін до моменту сканування потрібної сторінки. За оцінками, близько 5% таких правок потраплять у навчальні матеріали, хоча на практиці цей відсоток може бути значно вищим.
Попри те, що сучасні ШІ-моделі й без стороннього втручання мають чимало недоліків, загроза отруєння даних може стати особливо серйозною, коли інструменти штучного інтелекту почнуть тісніше взаємодіяти із зовнішніми системами, отримуючи доступ до вебсторінок, електронної пошти, календарів користувачів тощо. Тож розробникам варто подбати про надійний захист від потенційних маніпуляцій з боку зловмисників.











