"Всё больше работ про непрерывную адаптацию агентов в проде. Было извлечение… — @gonzo_ML

"Всё больше работ про непрерывную адаптацию агентов в проде. Было извлечение реворда из текущих взаимодействий с OpenClaw-RL. Будет завтра про Memento-Skills. Гиперагенты в каком-то смысле тоже сюда. Теперь вот MetaClaw. Здесь сделали быструю доадаптацию скиллами и медленную дообучением лорой. MetaClaw: Just Talk – An Agent That Meta-Learns and Evolves in the Wild __Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao__ Статья: https://arxiv.org/abs/2603.17187 Код: https://github.com/aiming-lab/MetaClaw Ревью: https://arxiviq.substack.com/p/metaclaw-just-talk-an-agent-that # TL;DR ЧТО сделали: Авторы предложили MetaClaw — фреймворк непрерывного мета-обучения (continual meta-learning), который позволяет задеплоенным LLM-агентам асинхронно эволюционировать в продакшене. Это достигается за счет комбинации двух циклов: безградиентной ""быстрой адаптации"", синтезирующей навыки на естественном языке из неудачных попыток, и ""медленной адаптации"" на основе градиентов, которая оппортунистически оптимизирует политику в периоды неактивности пользователя. ПОЧЕМУ это важно: Задеплоенные агенты неизбежно сталкиваются со сдвигом распределения задач. В результате статичные веса предобучения всё хуже справляются с реальными пользовательскими воркфлоу. MetaClaw предлагает системное решение этой проблемы нестационарности. Фреймворк вводит строгий механизм версионирования, разделяющий данные неудач (до адаптации) и данные успехов (после адаптации). Это предотвращает загрязнение памяти устаревшими ревордами, что обычно ломает непрерывное обучение с подкреплением у агентов. Для практиков: Для инженеров, поддерживающих автономных агентов в проде, постоянная деградация качества при изменении требований пользователей — главная головная боль. MetaClaw внедряет архитектуру с двумя временными шкалами. Сначала происходит немедленная корректировка поведения через динамическое добавление навыков в промпт. Затем следует отложенное асинхронное обновление весов через облачный файнтюнинг. Такой подход позволяет избежать даунтайма сервиса и при этом существенно повышает надёжность выполнения задач. Авторы доказывают, что координация дискретной семантической памяти с непрерывной оптимизацией параметров может сократить разрыв в возможностях между open-weights моделями и передовыми проприетарными API. Метаоптимизировать агентов здесь: https://t.me/gonzo_ML_podcasts/2935"

Из этого канала