"Добыча ценного реварда из текущего взаимодействия агента со средой.… — @gonzo_ML

"Добыча ценного реварда из текущего взаимодействия агента со средой. OpenClaw-RL: Train Any Agent Simply by Talking __Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang__ Статья: https://arxiv.org/abs/2603.10165 Код: https://github.com/Gen-Verse/OpenClaw-RL Ревью: https://arxiviq.substack.com/p/openclaw-rl-train-any-agent-simply # TL;DR ЧТО сделали: Исследователи из Принстонского университета представили OpenClaw-RL — асинхронный фреймворк для непрерывного обучения языковых агентов прямо во время их работы (live deployment). Разделив инференс политики, выполнение в среде, оценку реворда и обучение модели на независимые асинхронные циклы, система улавливает ""сигналы следующего состояния"" (next-state signals, такие как исправления от пользователя или ошибки в терминале). Затем эти сигналы превращаются в градиенты для оптимизации с помощью комбинации скалярных Process Reward Models (PRMs) (https://arxiv.org/abs/2305.20050) и дистилляции на уровне токенов (Hindsight-Guided On-Policy Distillation, OPD). ПОЧЕМУ это важно: Современная парадигма элайнмента сильно зависит от собранных батчами статических датасетов или итоговых эпизодических ревордов, которые дают крайне разреженный сигнал для credit assignment в длинных задачах. Разработав неблокирующую архитектуру, которая динамически впитывает неявный фидбек от пользователя и среды без паузы на инференс, авторы предлагают рабочий концепт для самообучающихся агентов. Это позволяет им адаптироваться в реальном времени, существенно решая проблему сбора данных в современном обучении с подкреплением. Ревард получать тут: https://t.me/gonzo_ML_podcasts/2820"

Из этого канала