"Интересная тема про Теорию пространства. Вперёд к embodiment! Theory of Space:… — @gonzo_ML

"Интересная тема про Теорию пространства. Вперёд к embodiment! Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration? __Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li__ Статья: https://arxiv.org/abs/2602.07055 Код: https://github.com/mll-lab-nu/Theory-of-Space Ревью: https://arxiviq.substack.com/p/theory-of-space-can-foundation-models # TL;DR ЧТО сделали: Представили ""Theory of Space"" (ToS) — бенчмарк для проверки того, способны ли мультимодальные большие языковые модели (MLLMs) активно исследовать частично наблюдаемую среду и строить явную внутреннюю ""когнитивную карту"". Вместо пассивных ответов по картинкам, агент должен автономно перемещаться, чтобы уменьшить неопределенность, и на каждом шаге выдавать JSON с макетом мира. ПОЧЕМУ это важно: Работа сдвигает фокус оценки с простого маппинга «вход-выход» на способность поддерживать латентное состояние мира. Обнаружен критический ""Активно-пассивный разрыв"": модели уровня GPT-5.2 и Gemini-3 Pro работают значительно хуже, когда им приходится самим добывать информацию. Также выявлена ""Инерция убеждений"" — визуальные агенты не могут ""развидеть"" старые данные и обновить карту даже при наличии противоречащих доказательств. Подробнее: https://t.me/gonzo_ML_podcasts/2490"

Из этого канала