Разработчики передовых моделей искусственного интеллекта столкнулись с неожиданным препятствием на пути к созданию GPT-5 и других перспективных ИИ-систем. Как оказалось, даже огромных объемов информации, доступных в интернете, может быть недостаточно для полноценного обучения новых моделей. Эксперты предупреждают, что дефицит качественных данных способен серьезно замедлить прогресс в сфере ИИ.
Гонка за данными: почему существующих ресурсов мало?
По мнению ученых, значительная часть контента в интернете непригодна для обучения ИИ из-за низкого качества, бессвязности или повторяемости информации. Лишь около 10% данных, собранных некоммерческими организациями вроде Common Crawl, подходят для тренировки языковых моделей. При этом потребности ИИ постоянно растут: если GPT-4 обучался на 12 триллионах токенов, то для GPT-5 может потребоваться от 60 до 100 триллионов. Такого количества качественных текстовых и графических данных попросту нет в открытом доступе.
Ситуацию усугубляет нежелание крупных платформ, таких как социальные сети и новостные агентства, делиться своими данными с разработчиками ИИ. Пользователи также неохотно предоставляют личную переписку для обучения языковых моделей. В результате компании вроде OpenAI вынуждены искать альтернативные источники, например, транскрипции публичных видео с YouTube.
Поиск решений: оптимизация данных и "синтетический контент"
Чтобы преодолеть дефицит качественных данных, некоторые стартапы экспериментируют с новыми подходами к обучению ИИ. Так, DatologyAI предлагает "учебный план", при котором данные подаются модели в определенном порядке для установления связей между ними. По расчетам основателя компании Ари Моркоса, такой метод позволяет вдвое сократить объем необходимой информации, хотя независимые исследования пока не подтвердили эти выводы.
Другой потенциальный путь – создание "синтетических данных" самими разработчиками ИИ. По словам представителей OpenAI и Anthropic, подобный сгенерированный контент уже применялся при обучении последних версий их моделей. Однако специалисты предупреждают, что злоупотребление "синтетическими данными" может привести к серьезным проблемам.
Неопределенное будущее: хватит ли данных для новых прорывов?
Несмотря на усилия компаний и исследователей, многие эксперты сомневаются, что проблему нехватки качественных данных удастся решить в ближайшее время. Впрочем, оптимисты вроде Пабло Вильялобоса из Epoch Research Institute верят, что будущие открытия позволят преодолеть этот вызов.
Помимо дефицита данных, развитие ИИ сдерживают и другие факторы, такие как нехватка специализированных чипов и вычислительных мощностей. Однако именно качественные данные остаются ключевым ингредиентом для создания все более совершенных языковых моделей. Без решения этой проблемы будущее GPT-5 и других амбициозных ИИ-проектов остается под вопросом.











