Продолжаем тему с постоянной адаптацией агентов. Сегодня обещанная эволюция скиллов. Memento-Skills: Let Agents Design Agents __Huichi Zhou, Siyuan Guo, Anjie Liu, Zhongwei Yu, Ziqin Gong, Bowen Zhao, Zhixun Chen, Menglong Zhang, Yihang Chen, Jinsong Li, Runyu Yang, Qiangbin Liu, Xinlei Yu, Jianmin Zhou, Na Wang, Chunyang Sun, Jun Wang__ Статья: https://arxiv.org/abs/2603.18743 Код: https://github.com/Memento-Teams/Memento-Skills Ревью: https://arxiviq.substack.com/p/memento-skills-let-agents-design # TL;DR ЧТО сделали: Авторы представили Memento-Skills — систему агентов-дженералистов, которая автономно создаёт, мутирует и улучшает переиспользуемые специализированные навыки без изменения весов базовой модели. Используя структурированные markdown-файлы и код как внешнюю эпизодическую память, система применяет замкнутый цикл рефлексивного обучения (Read-Write Reflective Learning) для непрерывной оптимизации своей политики исполнения на основе обратной связи от среды. ПОЧЕМУ это важно: Традиционно обучение LLM во время инференса упирается в огромные вычислительные затраты на обновление параметров. Предложенный фреймворк даёт математически обоснованный путь к непрерывному обучению замороженных моделей. Он показывает, что самосовершенствующаяся персистентная память может принести радикальный прирост метрик (более 100% относительного улучшения на некоторых бенчмарках) при сохранении строгих гарантий сходимости. Для практиков: Для тех, кто масштабирует агентные пайплайны, опора на статические промпты или библиотеки few-shot примеров жёстко ограничивает способность агента адаптироваться к пограничным случаям (корнер-кейсам) со временем. Memento-Skills смещает парадигму с обучения параметров на эволюцию навыков в памяти. Оснастив замороженную LLM роутером на базе offline RL и механизмом перезаписи собственных логических файлов, система работает как senior-разработчик, непрерывно рефакторящий общую кодовую базу. Этот подход радикально повышает долю успешных выполнений в сложных задачах на рассуждение. Будущее надёжных агентов лежит в сложных, самоизменяющихся архитектурах памяти, а не только в увеличении размера базовых моделей. ~~Рефакторить говнокод ~~Эволюционировать скиллы тут: https://t.me/gonzo_ML_podcasts/2946
Продолжаем тему с постоянной адаптацией агентов. Сегодня обещанная эволюция…
Из этого канала
- #5055Будем почитать
Будем почитать
- #5056Агенты переписывают описания тулов для других агентов. Всегда было непонятно,…
Агенты переписывают описания тулов для других агентов. Всегда было непонятно, зачем для того, чтобы один компьютер пообщался с другим, нужно столько людей…
- #5060"Статья небольшая, но содержательная (3 страницы текста + 2 ссылок). Такую…
"Статья небольшая, но содержательная (3 страницы текста + 2 ссылок). Такую комментировать и обозревать -- только портить. Так что лучше почитайте оригинал.
- #5045"Всё больше работ про непрерывную адаптацию агентов в проде. Было извлечение…
"Всё больше работ про непрерывную адаптацию агентов в проде. Было извлечение реворда из текущих взаимодействий с OpenClaw-RL. Будет завтра про Memento-Skills.
- #5042Про свою работу о Гиперагентах Таня уже написала, но не пропадать же картинке!…
Про свою работу о Гиперагентах Таня уже написала, но не пропадать же картинке! HyperAgents Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune,…