Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART) https://github.com/OpenPipe/ART Пишут что есть multi-turn. При этом базируются на анслот + trl. По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах. Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах. Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач. Все по ИИшечке собираем и проектики делаем в https://t.me/researchim