Майбутнє GPT-5 під питанням: для його навчання просто не вистачить якісних даних

2 квітня 2024 в 19:45

Джерело фото: Изображение от rawpixel.com на Freepik

Розробники передових моделей штучного інтелекту зіткнулися з несподіваною перешкодою на шляху до створення GPT-5 та інших перспективних ШІ-систем. Як виявилося, навіть величезних обсягів інформації, доступних в інтернеті, може бути недостатньо для повноцінного навчання нових моделей. Експерти попереджають, що дефіцит якісних даних здатний серйозно уповільнити прогрес у сфері ШІ.

Гонка за даними: чому наявних ресурсів замало?

На думку вчених, значна частина контенту в інтернеті непридатна для навчання ШІ через низьку якість, незв'язність або повторюваність інформації. Лише близько 10% даних, зібраних некомерційними організаціями на кшталт Common Crawl, підходять для тренування мовних моделей. При цьому потреби ШІ постійно зростають: якщо GPT-4 навчався на 12 трильйонах токенів, то для GPT-5 може знадобитися від 60 до 100 трильйонів. Такої кількості якісних текстових і графічних даних просто немає у відкритому доступі.

Ситуацію погіршує небажання великих платформ, таких як соціальні мережі та новинні агентства, ділитися своїми даними з розробниками ШІ. Користувачі також неохоче надають особисте листування для навчання мовних моделей. У результаті компанії на кшталт OpenAI змушені шукати альтернативні джерела, наприклад, транскрипції публічних відео з YouTube.

Пошук рішень: оптимізація даних і "синтетичний контент"

Щоб подолати дефіцит якісних даних, деякі стартапи експериментують із новими підходами до навчання ШІ. Так, DatologyAI пропонує "навчальний план", за якого дані подаються моделі в певному порядку для встановлення зв'язків між ними. За розрахунками засновника компанії Арі Моркоса, такий метод дає змогу вдвічі скоротити обсяг необхідної інформації, хоча незалежні дослідження поки що не підтвердили ці висновки.

Інший потенційний шлях – створення "синтетичних даних" самими розробниками ШІ. За словами представників OpenAI і Anthropic, подібний згенерований контент уже застосовували під час навчання останніх версій їхніх моделей. Однак фахівці попереджають, що зловживання "синтетичними даними" може призвести до серйозних проблем.

Невизначене майбутнє: чи вистачить даних для нових проривів?

Незважаючи на зусилля компаній і дослідників, багато експертів сумніваються, що проблему нестачі якісних даних вдасться вирішити найближчим часом. Утім, оптимісти на кшталт Пабло Вільялобоса з Epoch Research Institute вірять, що майбутні відкриття дадуть змогу подолати цей виклик.

Крім дефіциту даних, розвиток ШІ стримують й інші чинники, як-от брак спеціалізованих чипів і обчислювальних потужностей. Однак саме якісні дані залишаються ключовим інгредієнтом для створення все більш досконалих мовних моделей. Без розв'язання цієї проблеми майбутнє GPT-5 та інших амбітних ШІ-проектів залишається під питанням.

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!