OpenAI уничтожила 100 000 книг, использовавшихся для обучения GPT-3, из-за иска о нарушении авторских прав

22 мая 2024 в 11:22

Всемирно известная компания OpenAI, которая является лидером в сфере разработки искусственного интеллекта, попала под шквал критики из-за своих сомнительных методов обучения ИИ-моделей. Организация Authors Guild, защищающая интересы писателей, обвинила технологического гиганта в неправомерном использовании более 100 тысяч книг для тренировки модели GPT-3 без получения разрешения от правообладателей. Этот инцидент поднял серьезные вопросы об этичности и законности подходов, которые применяют ИТ-компании в погоне за созданием передовых ИИ-систем.

Претензии Authors Guild: масштабное нарушение авторских прав

Юристы Authors Guild утверждают, что наборы данных, на которых OpenAI обучала свою флагманскую модель GPT-3, содержали огромное количество произведений, защищенных авторским правом. Таким образом, компания грубо нарушила законодательство, не получив согласия правообладателей и не выплатив им справедливое вознаграждение за использование их интеллектуальной собственности.

В течение длительного времени Authors Guild пыталась получить от OpenAI детали о составе учебных данных, однако сначала получала отказы, мотивированные конфиденциальностью информации. Но впоследствии выяснилось, что компания вообще уничтожила все копии этих данных, вероятно, чтобы избежать ответственности.

Значение качественных данных для развития мощного ИИ

Для создания передовых моделей искусственного интеллекта, способных эффективно решать сложные задачи, критически важно иметь доступ к огромным объемам высококачественной информации. OpenAI, как и другие технологические компании, активно черпает эти данные из интернета, в частности используя книги. Однако такой подход часто приводит к конфликту интересов с правообладателями контента.

Многие авторы и издательства, создавшие этот ценный интеллектуальный ресурс, вполне справедливо ожидают получения роялти за использование их произведений в коммерческих ИИ-продуктах. Зато ИТ-гиганты пытаются всячески избежать дополнительных расходов. Этот спор уже привел к нескольким судебным искам и, похоже, будет продолжаться.

Насколько важными были удаленные книги для GPT-3?

Согласно технической документации, обнародованной OpenAI в 2020 году, наборы данных "books1" и "books2", сформированные из книг, найденных в интернете, составляли около 16% от общего объема информации, использованной для обучения GPT-3. Эти два набора вместе содержали потрясающие 50 миллиардов слов.

Лишь в конце 2021 года OpenAI прекратила использовать эти данные для тренировки своих моделей, а в середине 2022 года полностью удалила их, объяснив это "несоответствием для дальнейшего применения". Однако реальные мотивы такого шага вызывают серьезные подозрения.

OpenAI "между молотом и наковальней"

Оказавшись в центре скандала, OpenAI пытается защитить свою репутацию и избежать многомиллионных исков. С одной стороны, компания стремится создавать инновационные ИИ-инструменты, которые требуют огромного количества учебных данных. С другой – она не может игнорировать права интеллектуальной собственности и действующее законодательство.

Если бы OpenAI платила роялти всем правообладателям за использование их произведений, это существенно увеличило бы себестоимость разработки ИИ-моделей. Для пользователей это означало бы значительное подорожание сервисов, таких как ChatGPT. Готовы ли вы платить $120 вместо $20 в месяц за доступ к чат-боту? Вопрос риторический.

Нужен баланс между технологическим прогрессом и правами авторов

Скандал вокруг неправомерного использования OpenAI 100 тысяч книг без разрешения обострил фундаментальное противоречие между развитием ИИ и защитой интеллектуальной собственности. ИТ-компании в стремлении создать передовые ИИ-модели часто пренебрегают авторскими правами, что вызывает справедливое возмущение творческого сообщества.

Чтобы избежать подобных конфликтов в будущем, необходимо выработать четкие и справедливые правила взаимодействия между разработчиками ИИ и правообладателями контента. Только сбалансированный подход, который будет учитывать интересы всех сторон, позволит обеспечить ответственное и устойчивое развитие технологий искусственного интеллекта без ущемления авторов. В противном случае, судебные баталии будут продолжаться, а пользователи рискуют получить или несовершенные ИИ-инструменты, или заоблачные цены за их использование.

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!