OpenAI знищила 100 000 книг, що використовувалися для навчання GPT-3, через позов про порушення авторських прав

22 травня 2024 в 11:22

Всесвітньо відома компанія OpenAI, яка є лідером у сфері розробки штучного інтелекту, потрапила під шквал критики через свої сумнівні методи навчання ШІ-моделей. Організація Authors Guild, що захищає інтереси письменників, звинуватила технологічного гіганта у неправомірному використанні понад 100 тисяч книг для тренування моделі GPT-3 без отримання дозволу від правовласників. Цей інцидент порушив серйозні питання щодо етичності та законності підходів, які застосовують ІТ-компанії у гонитві за створенням передових ШІ-систем.

Претензії Authors Guild: масштабне порушення авторських прав

Юристи Authors Guild стверджують, що набори даних, на яких OpenAI навчала свою флагманську модель GPT-3, містили величезну кількість творів, захищених авторським правом. Таким чином, компанія грубо порушила законодавство, не отримавши згоди правовласників та не виплативши їм справедливу винагороду за використання їхньої інтелектуальної власності.

Протягом тривалого часу Authors Guild намагалася отримати від OpenAI деталі щодо складу навчальних даних, проте спершу отримувала відмови, мотивовані конфіденційністю інформації. Але згодом з'ясувалося, що компанія взагалі знищила всі копії цих даних, ймовірно, щоб уникнути відповідальності.

Значення якісних даних для розвитку потужного ШІ

Для створення передових моделей штучного інтелекту, здатних ефективно вирішувати складні завдання, критично важливо мати доступ до величезних обсягів високоякісної інформації. OpenAI, як і інші технологічні компанії, активно черпає ці дані з інтернету, зокрема використовуючи книги. Однак такий підхід часто призводить до конфлікту інтересів з правовласниками контенту.

Багато авторів та видавництв, які створили цей цінний інтелектуальний ресурс, цілком справедливо очікують на отримання роялті за використання їхніх творів у комерційних ШІ-продуктах. Натомість, ІТ-гіганти намагаються всіляко уникнути додаткових витрат. Ця суперечка вже призвела до кількох судових позовів і, схоже, триватиме.

Наскільки важливими були видалені книги для GPT-3?

Згідно з технічною документацією, оприлюдненою OpenAI у 2020 році, набори даних "books1" і "books2", сформовані з книг, знайдених в інтернеті, складали близько 16% від загального обсягу інформації, використаної для навчання GPT-3. Ці два набори разом містили приголомшливі 50 мільярдів слів.

Лише наприкінці 2021 року OpenAI припинила використовувати ці дані для тренування своїх моделей, а в середині 2022 повністю видалила їх, пояснивши це "невідповідністю для подальшого застосування". Однак реальні мотиви такого кроку викликають серйозні підозри.

OpenAI «між молотом і ковадлом»

Опинившись у центрі скандалу, OpenAI намагається захистити свою репутацію та уникнути багатомільйонних позовів. З одного боку, компанія прагне створювати інноваційні ШІ-інструменти, які потребують величезної кількості навчальних даних. З іншого – вона не може ігнорувати права інтелектуальної власності та діюче законодавство.

Якби OpenAI сплачувала роялті всім правовласникам за використання їхніх творів, це суттєво збільшило б собівартість розробки ШІ-моделей. Для користувачів це означало б значне подорожчання сервісів, як-от ChatGPT. Чи готові ви платити $120 замість $20 на місяць за доступ до чат-бота? Питання риторичне.

Потрібен баланс між технологічним прогресом та правами авторів

Скандал навколо неправомірного використання OpenAI 100 тисяч книг без дозволу загострив фундаментальне протиріччя між розвитком ШІ та захистом інтелектуальної власності. ІТ-компанії у прагненні створити передові ШІ-моделі часто нехтують авторськими правами, що викликає справедливе обурення творчої спільноти.

Щоб уникнути подібних конфліктів у майбутньому, необхідно виробити чіткі та справедливі правила взаємодії між розробниками ШІ та правовласниками контенту. Тільки збалансований підхід, який враховуватиме інтереси всіх сторін, дасть змогу забезпечити відповідальний та сталий розвиток технологій штучного інтелекту без утисків для авторів. В іншому випадку, судові баталії триватимуть, а користувачі ризикують отримати або недосконалі ШІ-інструменти, або захмарні ціни за їх використання.

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!