Штучний інтелект навчився розуміти фізику та простір краще за людей

18 січня 2026 в 19:49

Джерело фото: Flux Pro

Світ технологій стоїть на порозі масштабних змін, які можуть назавжди усунути "галюцинації" нейромереж. Дослідники розробляють концепцію "світових моделей", що навчить машини не просто вгадувати наступний кадр чи слово, а по-справжньому розуміти простір і час.

Користувачі ChatGPT або генераторів відео часто стикаються з дивними помилками: собака, що біжить за диван, раптово втрачає нашийник, а самі меблі змінюють форму. Причина криється в самій природі сучасних нейромереж – вони прогнозують найбільш імовірний результат, але не мають стабільного уявлення про фізичний світ. Проте ситуація починає змінюватися. Провідні лабораторії світу працюють над створенням систем, які матимуть "просторову пам’ять", що наблизить нас до створення загального штучного інтелекту (AGI).

Від плоскої картинки до об’ємного світу

Найпростіше зрозуміти нову технологію через аналогію з кінематографом. У 2012 році фільм "Титанік" конвертували у 3D, додавши відчуття глибини, але глядач все одно не міг зазирнути за спину Леонардо ді Капріо. Сучасні ж "світові моделі" (World Models) пропонують 4D-підхід: три виміри простору плюс час.

Це дозволяє штучному інтелекту не просто малювати картинку, а створювати повноцінну симуляцію реальності. Якщо ви попросите змінити ракурс у відео, система згенерує нову перспективу, зберігаючи всі деталі стабільними. Мова йде про:

NeoVerse – технологію, що перетворює звичайне відео на 4D-модель для генерації нових ракурсів.
TeleWorld – систему, яка оновлює мапу сцени в реальному часі, запобігаючи зникненню об’єктів (наприклад, того самого нашийника на собаці).

Нова ера для роботів та AGI

Потенціал технології виходить далеко за межі розваг. Для шоломів доповненої реальності, таких як прототип Orion від Meta, критично важливо розуміти, де знаходяться віртуальні об’єкти, навіть якщо користувач відвернувся.

Ще більший вплив очікується у сфері робототехніки та автономного транспорту. Сьогоднішні моделі часто демонструють "майже випадкову точність" при розпізнаванні траєкторій руху. Впровадження 4D-моделей дозволить роботам передбачати наслідки своїх дій у реальному світі, навчаючись на відеоданих значно ефективніше.

"Великі мовні моделі (LLM) мають певне уявлення про світ, але це не реальне розуміння фізики в часі. AGI неможливий без вирішення цієї проблеми", – зазначає Анджу Каназава, доцент Каліфорнійського університету в Берклі.

Наразі такі гіганти, як World Labs Фей-Фей Лі та AMI Labs Яна Лекуна, вже працюють над системами, що мають стійку пам’ять та здатність планувати складні дії. Це означає, що майбутній ШІ стане не просто генератором тексту, а надійним партнером, який розуміє закони нашої реальності.

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!