Зачем агентам нужна интуитивная физика. Grounding Social Perception in… — @gonzo_ML

Зачем агентам нужна интуитивная физика. Grounding Social Perception in Intuitive Physics Lance Ying, Aydan Y. Huang, Aviv Netanyahu, Andrei Barbu, Boris Katz, Joshua B. Tenenbaum, Tianmin Shu Статья: https://arxiv.org/abs/2603.27410v1 Ревью: https://arxiviq.substack.com/p/grounding-social-perception-in-intuitive Код: https://osf.io/fkp5m/ # TL;DR ЧТО сделали: Авторы представили PHASE — датасет из 500 процедурно сгенерированных анимаций взаимодействий 2D-агентов на основе физики. Также они предложили SIMPLE — вычислительный фреймворк, который предсказывает социальные цели и отношения агентов, объединяя прямой физический движок с байесовским обратным планированием. ПОЧЕМУ это важно: Текущие SOTA vision-language модели (VLM) и графовые нейросети часто ошибаются в интерпретации сложных социальных взаимодействий (например, путают соревнование с сотрудничеством), так как воспринимают социальное восприятие просто как поиск визуальных паттернов. Работа показывает, что подход «анализа через синтез», опирающийся на физические ограничения, позволяет достичь уровня человеческого восприятия, предлагая масштабируемый путь к надёжному физическому и социальному здравому смыслу у ИИ. Для практиков: Чтобы ИИ-системы безопасно и разумно действовали в общих физических пространствах, они должны понимать человеческие намерения. Вывод намерений требует не просто маппинга визуальных фичей в социальные метки, а симуляции физических ограничений, в которых действуют агенты. Явное объединение интуитивной психологии (theory of mind) с интуитивной физикой (разрешение сил и коллизий) позволяет модели точно восстанавливать скрытые ментальные состояния по наблюдаемым траекториям. Это подсвечивает стратегическое узкое место чисто feedforward архитектур и валидирует генеративную симуляцию как критически важный путь для продвинутого ризонинга агентов. Получать интуицию тут: https://t.me/gonzo_ML_podcasts/3088

Из этого канала