"Добыча ценного реварда из текущего взаимодействия агента со средой. OpenClaw-RL: Train Any Agent Simply by Talking __Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang__ Статья: https://arxiv.org/abs/2603.10165 Код: https://github.com/Gen-Verse/OpenClaw-RL Ревью: https://arxiviq.substack.com/p/openclaw-rl-train-any-agent-simply # TL;DR ЧТО сделали: Исследователи из Принстонского университета представили OpenClaw-RL — асинхронный фреймворк для непрерывного обучения языковых агентов прямо во время их работы (live deployment). Разделив инференс политики, выполнение в среде, оценку реворда и обучение модели на независимые асинхронные циклы, система улавливает ""сигналы следующего состояния"" (next-state signals, такие как исправления от пользователя или ошибки в терминале). Затем эти сигналы превращаются в градиенты для оптимизации с помощью комбинации скалярных Process Reward Models (PRMs) (https://arxiv.org/abs/2305.20050) и дистилляции на уровне токенов (Hindsight-Guided On-Policy Distillation, OPD). ПОЧЕМУ это важно: Современная парадигма элайнмента сильно зависит от собранных батчами статических датасетов или итоговых эпизодических ревордов, которые дают крайне разреженный сигнал для credit assignment в длинных задачах. Разработав неблокирующую архитектуру, которая динамически впитывает неявный фидбек от пользователя и среды без паузы на инференс, авторы предлагают рабочий концепт для самообучающихся агентов. Это позволяет им адаптироваться в реальном времени, существенно решая проблему сбора данных в современном обучении с подкреплением. Ревард получать тут: https://t.me/gonzo_ML_podcasts/2820"
"Добыча ценного реварда из текущего взаимодействия агента со средой.…
Из этого канала
- #4994Кто хочет написать новую ОС? AgentOS: From Application Silos to a Natural…
Кто хочет написать новую ОС? AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng…
- #4998Пост про RL для ризонинг моделей https://aweers.de/blog/2026/rl-for-llms/
Пост про RL для ризонинг моделей https://aweers.de/blog/2026/rl-for-llms/
- #4999Вчера не нашёл подходящей картинки, а сегодня нашёл. R.I.P.
Вчера не нашёл подходящей картинки, а сегодня нашёл. R.I.P.
- #4983Это мне кажется гениальная работа. Задним умом механизм настолько простой и…
Это мне кажется гениальная работа. Задним умом механизм настолько простой и логичный, что непонятно, почему его не сделали раньше.
- #4969Но и других интересных картинок вам до кучи. Про движение к опенсорсу и…
Но и других интересных картинок вам до кучи. Про движение к опенсорсу и коалицию по продвижению открытых моделей тоже интересно.