"Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья. SIMA 2: A Generalist Embodied Agent for Virtual Worlds __SIMA Team, Google DeepMind__ Paper: https://arxiv.org/abs/2512.04797 Review: https://arxiviq.substack.com/p/sima-2-a-generalist-embodied-agent # TL;DR ЧТО сделали: Представили SIMA 2 — универсальную Vision-Language-Action (VLA) модель, созданную через файнтюнинг Gemini Flash-Lite. В отличие от первой версии (https://t.me/gonzo_ML/2466), которая просто переводила инструкции в нажатия клавиш, SIMA 2 интегрирует внутренний процесс рассуждения (chain-of-thought). Это позволяет ей справляться с неоднозначными инструкциями, вести диалог и выполнять сложные многошаговые задачи в различных 3D-средах. ПОЧЕМУ это важно: Работа демонстрирует успешный рецепт создания ""foundation agents"", которые не страдают от катастрофического забывания: SIMA 2 сохраняет математические и рассуждающие способности базовой Gemini, при этом достигая человеческого уровня в видеоиграх. Кроме того, предложен масштабируемый механизм open-ended self-improvement, где LLM выступают и постановщиками задач, и моделями вознаграждения, позволяя агенту учиться в новых средах без доступа к программным API игры. Подробнее: https://t.me/gonzo_ML_podcasts/1656"