Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning __Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin__ Статья: https://arxiv.org/abs/2605.00347 Код: https://odysseus-project.github.io/ Ревью: https://arxiviq.substack.com/p/odysseus-scaling-vlms-to-100-turn # TL;DR ЧТО сделали: Авторы представили Odysseus — открытый фреймворк обучения с подкреплением (RL), который позволяет масштабировать Vision-Language Models (VLM) на задачи непрерывного принятия решений длиной более 100 шагов взаимодействия. Спарив огромную VLM-политику с крошечным CNN-критиком и применив фильтрацию положительных преимуществ (positive-advantage filtering), исследователи обходят вычислительные боттлнеки и нестабильность традиционных мультимодальных actor-critic методов. ПОЧЕМУ это важно: Текущий RL-файнтюнинг для фундаментальных моделей обычно буксует на горизонте в 20–30 шагов или полностью опирается на чистое имитационное обучение. Работа даёт вычислительно подъёмный рецепт превращения пассивных рассуждающих моделей (reasoning models) в надёжных embodied-агентов. Делегирование распределения награды во времени крошечному «зрительному» критику позволяет стабильно обучать VLM на сотни шагов плотного взаимодействия со средой. Смотреть тут: https://t.me/gonzo_ML_podcasts/3511
Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in…
Из этого канала
- #5327"Развитие тем покойного Нафтали Тишби…
"Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw). Learning Is Forgetting: LLM Training as Lossy Compression Henry C.
- #5330Ещё одна красивая история про забывание, но теперь с другой стороны — делаем…
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning.
- #5334Recursion strikes back Тема про рекурсию активно развивается в последний год.…
Recursion strikes back Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного…
- #5319Сжатие сырых логов в структурированные саммари помогает кодовым агентам.…
Сжатие сырых логов в структурированные саммари помогает кодовым агентам. Scaling Test-Time Compute for Agentic Coding Joongwon (Daniel) Kim, Winnie Yang,…
- #5315Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How…
Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How Different Language Models Learn Similar Number Representations Deqing Fu, Tianyi…