Meta тренировала свой ИИ на 82 Тб пиратских книг

11 февраля 2025 в 15:45

139

Источник фото: Изображение Artapixel с сайта Pixabay

Корпорация Meta оказалась в эпицентре громкого скандала: судебные документы свидетельствуют о массовом использовании пиратского контента для тренировки AI. Вместо легальных баз данных компания, вроде бы, выбрала путь цифрового пиратства, загружая десятки тысяч книг из "теневых" библиотек. Но самое интересное – внутренняя переписка сотрудников, где они откровенно обсуждают сомнительные методы.

Масштабы цифрового пиратства

По данным судебных материалов, Meta скачала 81.7 ТБ данных из таких источников:

54 ТБ с Z-Library - платформы, которую ФБР закрывало в 2022 году;
10 ТБ с LibGen - российской пиратской библиотеки;
17.7 ТБ из Sci-Hub и дополнительных источников.

Это эквивалент 25 миллионам книг в PDF-формате. Для сравнения: крупнейшая в мире Библиотека Конгресса США содержит "всего" 17 миллионов единиц хранения.

Этические дилеммы и внутренние конфликты

Еще в октябре 2022 года старший исследователь AI в Meta писал коллегам: "Использование пиратских материалов должно быть за пределами нашего этического порога". Но уже через 3 месяца Марк Цукерберг лично одобрил продолжение работ, заявив на совещании: "Нам нужно найти способ разблокировать это".

Интересный факт: сотрудники использовали корпоративные ноутбуки для торрентинга, шутя в переписке: "Скачивать пиратский контент с офисного компьютера – это как есть попкорн в кинотеатре через громкоговорители"

Теги: meta, штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!