Корпорация Meta оказалась в эпицентре громкого скандала: судебные документы свидетельствуют о массовом использовании пиратского контента для тренировки AI. Вместо легальных баз данных компания, вроде бы, выбрала путь цифрового пиратства, загружая десятки тысяч книг из "теневых" библиотек. Но самое интересное – внутренняя переписка сотрудников, где они откровенно обсуждают сомнительные методы.
Масштабы цифрового пиратства
По данным судебных материалов, Meta скачала 81.7 ТБ данных из таких источников:
- 54 ТБ с Z-Library - платформы, которую ФБР закрывало в 2022 году;
- 10 ТБ с LibGen - российской пиратской библиотеки;
- 17.7 ТБ из Sci-Hub и дополнительных источников.
Это эквивалент 25 миллионам книг в PDF-формате. Для сравнения: крупнейшая в мире Библиотека Конгресса США содержит "всего" 17 миллионов единиц хранения.
Этические дилеммы и внутренние конфликты
Еще в октябре 2022 года старший исследователь AI в Meta писал коллегам: "Использование пиратских материалов должно быть за пределами нашего этического порога". Но уже через 3 месяца Марк Цукерберг лично одобрил продолжение работ, заявив на совещании: "Нам нужно найти способ разблокировать это".
Интересный факт: сотрудники использовали корпоративные ноутбуки для торрентинга, шутя в переписке: "Скачивать пиратский контент с офисного компьютера – это как есть попкорн в кинотеатре через громкоговорители"











