Сжатие сырых логов в структурированные саммари помогает кодовым агентам. Scaling Test-Time Compute for Agentic Coding __Joongwon (Daniel) Kim, Winnie Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srini Iyer, Manzil Zaheer, Daniel Fried, Hannaneh Hajishirzi, Sanjeev Arora, Gabriel Synnaeve, Ruslan Salakhutdinov, Anirudh Goyal__ Статья: https://arxiv.org/abs/2604.16529 Ревью: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic # TL;DR ЧТО сделали: Исследователи представили фреймворк для масштабирования вычислений на инференсе для агентов, решающих задачи с длинным горизонтом планирования. Они отказались от использования сырых логов выполнения в пользу структурированных саммари. Для выбора лучших решений распараллеленно применяется алгоритм Recursive Tournament Voting (RTV), а для последовательного ризонинга — адаптированный метод Parallel-Distill-Refine (PDR). ПОЧЕМУ это важно: Работа изолирует главный боттлнек в масштабировании автономных агентов — представление информации. Авторы доказывают, что модели не могут эффективно оценивать шумные сырые логи взаимодействий или обучаться на них. Предложенная методология позволяет значительно улучшить результаты передовых моделей на сложных бенчмарках без дополнительного предобучения. Для практиков: Если вы проектируете архитектуры System 2, учтите: выделение большего объема вычислений на инференсе даёт убывающую отдачу, если базовый опыт агента не сжимается. Превращение сырых логов агента (роллаутов) в дистиллированные репрезентации позволяет моделям надежно обмениваться идеями из неудачных попыток. Это радикально сокращает количество шагов для последующих решений и задает новый архитектурный стандарт для агентов-программистов. Структурированное саммари: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic
Сжатие сырых логов в структурированные саммари помогает кодовым агентам.…
Из этого канала
- #5323Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in…
Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu,…
- #5327"Развитие тем покойного Нафтали Тишби…
"Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw). Learning Is Forgetting: LLM Training as Lossy Compression Henry C.
- #5330Ещё одна красивая история про забывание, но теперь с другой стороны — делаем…
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning.
- #5315Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How…
Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How Different Language Models Learn Similar Number Representations Deqing Fu, Tianyi…
- #5311"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM…
"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах.