Сотни миллионов личных документов, включая паспорта, водительские права и банковские карты, оказались в одном из крупнейших наборов данных для обучения искусственного интеллекта. Исследование показало, что DataComp CommonPool, который содержит 12,8 миллиарда образцов, стал настоящей сокровищницей частной информации миллионов людей.
Масштабы проблемы поражают
Ученые из Университета Вашингтона проанализировали лишь 0,1% от общего объема данных. Даже в этой мизерной доле они нашли тысячи изображений личных документов. Экстраполируя результаты на весь массив, исследователи пришли к тревожному выводу о сотнях миллионов скомпрометированных файлов.
Особенно шокирует количество пропущенных алгоритмами лиц. Система автоматического размывания не смогла распознать 102 миллиона фотографий людей в полном наборе данных. При этом CommonPool загрузили более 2 миллионов раз за последние два года, что означает широкое распространение частной информации.
Среди обнаруженных документов оказались не только удостоверения личности и финансовые карты, но и более 800 резюме с деталями об инвалидности, результаты проверок биографий и адреса проживания. Исследователи также обнаружили личные данные детей, включая свидетельства о рождении и медицинские справки, которые попали в общий доступ.
Правовые последствия и защита
Европейское законодательство GDPR предусматривает штрафы до 20 миллионов евро за нарушение приватности, однако американское регулирование остается фрагментарным. Калифорнийский закон о приватности потребителей имеет исключения для "публично доступной" информации, что создает правовой пробел для исследователей машинного обучения.
Платформа Hugging Face, которая распространяет CommonPool, интегрировала инструмент для поиска и удаления собственной информации. Однако этот механизм требует от пользователей заранее знать о наличии их данных в наборе, что практически нереально для обычных людей.
Эксперты подчеркивают фундаментальную проблему современного развития ИИ. Даже если человек дал согласие на публикацию своих данных в интернете в 2015 году, он не мог предвидеть их использование для обучения нейросетей, которые тогда еще не существовали. Удаление информации из набора данных не гарантирует ее исчезновения из уже натренированных моделей, что делает вред необратимым.











