Исследователи в области искусственного интеллекта обнаружили уязвимость в процессе обучения чат-ботов и генераторов изображений, основанных на ИИ, таких как ChatGPT. Эти системы используют огромные объемы данных, собранных из Интернета, для формирования ответов на запросы пользователей. Однако, как выяснилось, злоумышленники могут довольно просто и дешево манипулировать этими данными, искажая результаты работы ИИ.
Первый способ: приобретение просроченных доменов
Одним из способов такого вмешательства является приобретение просроченных доменов за символическую плату, например, $10 в год, и размещение на них любой информации. Эксперименты показали, что потратив всего $60, можно эффективно контролировать домены и отравлять не менее 0,01% учебного набора данных, составляющего десятки тысяч изображений.
Второй способ: написание "мусора" в Википедию
Другой метод заключается в редактировании статей Википедии, которая является ключевым источником данных для многих языковых моделей ИИ. Хотя Википедия не позволяет непосредственное извлечение данных, она предоставляет возможность загружать копии страниц в определенные промежутки времени. Злоумышленник может приурочить внесение вредоносных изменений к моменту сканирования нужной страницы. По оценкам, около 5% таких правок попадут в учебные материалы, хотя на практике этот процент может быть значительно выше.
Несмотря на то, что современные ИИ-модели и без постороннего вмешательства имеют немало недостатков, угроза отравления данных может стать особенно серьезной, когда инструменты искусственного интеллекта начнут теснее взаимодействовать с внешними системами, получая доступ к веб-страницам, электронной почте, календарям пользователей и т.п. Поэтому разработчикам стоит позаботиться о надежной защите от потенциальных манипуляций со стороны злоумышленников.











