Сотні мільйонів особистих документів, включаючи паспорти, водійські права та банківські карти, виявилися в одному з найбільших наборів даних для навчання штучного інтелекту. Дослідження показало, що DataComp CommonPool, який містить 12,8 мільярда зразків, став справжньою скарбничкою приватної інформації мільйонів людей.
Масштаби проблеми вражають
Науковці з Університету Вашингтона проаналізували лише 0,1% від загального обсягу даних. Навіть у цій мізерній частці вони знайшли тисячі зображень особистих документів. Екстраполюючи результати на весь масив, дослідники прийшли до тривожного висновку про сотні мільйонів скомпрометованих файлів.
Особливо шокує кількість пропущених алгоритмами облич. Система автоматичного розмивання не змогла розпізнати 102 мільйони фотографій людей у повному наборі даних. При цьому CommonPool завантажили понад 2 мільйони разів за останні два роки, що означає широке розповсюдження приватної інформації.
Серед виявлених документів опинилися не лише посвідчення особи та фінансові картки, але й понад 800 резюме з деталями про інвалідність, результати перевірок біографій та адреси проживання. Дослідники також виявили особисті дані дітей, включаючи свідоцтва про народження та медичні довідки, які потрапили в загальний доступ.
Правові наслідки та захист
Європейське законодавство GDPR передбачає штрафи до 20 мільйонів євро за порушення приватності, проте американське регулювання залишається фрагментарним. Каліфорнійський закон про приватність споживачів має винятки для "публічно доступної" інформації, що створює правову прогалину для дослідників машинного навчання.
Платформа Hugging Face, яка розповсюджує CommonPool, інтегрувала інструмент для пошуку та видалення власної інформації. Однак цей механізм вимагає від користувачів заздалегідь знати про наявність їхніх даних у наборі, що практично нереально для пересічних людей.
Експерти підкреслюють фундаментальну проблему сучасного розвитку ШІ. Навіть якщо людина дала згоду на публікацію своїх даних в інтернеті у 2015 році, вона не могла передбачити їх використання для навчання нейромереж, які тоді ще не існували. Видалення інформації з набору даних не гарантує її зникнення з уже натренованих моделей, що робить шкоду незворотною.











