Мир технологий стоит на пороге масштабных изменений, которые могут навсегда устранить "галлюцинации" нейросетей. Исследователи разрабатывают концепцию "мировых моделей", которая научит машины не просто угадывать следующий кадр или слово, а по-настоящему понимать пространство и время.
Пользователи ChatGPT или генераторов видео часто сталкиваются со странными ошибками: собака, забегающая за диван, внезапно теряет ошейник, а сама мебель меняет форму. Причина кроется в самой природе современных нейросетей – они прогнозируют наиболее вероятный результат, но не имеют стабильного представления о физическом мире. Однако ситуация начинает меняться. Ведущие лаборатории мира работают над созданием систем, которые будут обладать "пространственной памятью", что приблизит нас к созданию общего искусственного интеллекта (AGI).
От плоской картинки к объемному миру
Проще всего понять новую технологию через аналогию с кинематографом. В 2012 году фильм "Титаник" конвертировали в 3D, добавив ощущение глубины, но зритель все равно не мог заглянуть за спину Леонардо ди Каприо. Современные же "мировые модели" (World Models) предлагают 4D-подход: три измерения пространства плюс время.
Это позволяет искусственному интеллекту не просто рисовать картинку, а создавать полноценную симуляцию реальности. Если вы попросите изменить ракурс в видео, система сгенерирует новую перспективу, сохраняя все детали стабильными. Речь идет о:
- NeoVerse – технологии, превращающей обычное видео в 4D-модель для генерации новых ракурсов.
- TeleWorld – системе, обновляющей карту сцены в реальном времени, предотвращая исчезновение объектов (например, того же ошейника на собаке).
Новая эра для роботов и AGI
Потенциал технологии выходит далеко за пределы развлечений. Для шлемов дополненной реальности, таких как прототип Orion от Meta, критически важно понимать, где находятся виртуальные объекты, даже если пользователь отвернулся.
Еще большее влияние ожидается в сфере робототехники и автономного транспорта. Сегодняшние модели часто демонстрируют "почти случайную точность" при распознавании траекторий движения. Внедрение 4D-моделей позволит роботам предсказывать последствия своих действий в реальном мире, обучаясь на видеоданных значительно эффективнее.
"Большие языковые модели (LLM) имеют определенное представление о мире, но это не реальное понимание физики во времени. AGI невозможен без решения этой проблемы", – отмечает Анджу Каназава, доцент Калифорнийского университета в Беркли.
Сейчас такие гиганты, как World Labs Фей-Фей Ли и AMI Labs Яна Лекуна, уже работают над системами, обладающими устойчивой памятью и способностью планировать сложные действия. Это означает, что будущий ИИ станет не просто генератором текста, а надежным партнером, понимающим законы нашей реальности.











