Meta тренувала свій ШІ на 82 Тб піратських книг

11 лютого 2025 в 15:45

137

Джерело фото: Изображение Artapixel с сайта Pixabay

Корпорація Meta опинилася в епіцентрі гучного скандалу: судові документи свідчать про масове використання піратського контенту для тренування AI. Замість легальних баз даних компанія, начебто, обрала шлях цифрового піратства, завантажуючи десятки тисяч книг із "тіньових" бібліотек. Але найцікавіше – внутрішнє листування співробітників, де вони відверто обговорюють сумнівні методи.

Масштаби цифрового піратства

За даними судових матеріалів, Meta викачала 81.7 ТБ даних із таких джерел:

54 ТБ із Z-Library – платформи, яку ФБР закривало у 2022 році;
10 ТБ із LibGen – російської піратської бібліотеки;
17.7 ТБ із Sci-Hub та додаткових джерел.

Це еквівалент 25 мільйонам книг у PDF-форматі. Для порівняння: найбільша у світі Бібліотека Конгресу США містить "лише" 17 мільйонів одиниць зберігання.

Етичні дилеми та внутрішні конфлікти

Ще у жовтні 2022 року старший дослідник AI у Meta писав колегам: "Використання піратських матеріалів має бути за межами нашого етичного порога". Але вже через 3 місяці Марк Цукерберг особисто схвалив продовження робіт, заявивши на нараді: "Нам потрібно знайти спосіб розблокувати це".

Цікавий факт: співробітники використовували корпоративні ноутбуки для торентінгу, жартуючи в листуванні: "Завантажувати піратський контент з офісного комп’ютера – це як їсти попкорн у кінотеатрі через гучномовці"

Теги: meta, штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!