Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART) https://github.com/OpenPipe/ART Пишут что есть multi-turn. При этом базируются на анслот + trl. По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах. Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах. Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач. Все по ИИшечке собираем и проектики делаем в https://t.me/researchim
Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART)…
Из этого канала
- #1040Один раз исследователи не написали обзорку по агентам, больше их никто не видел…
Один раз исследователи не написали обзорку по агентам, больше их никто не видел Эти написали.
- #1042так смешнее
так смешнее
- #1043Genius: Когда языковая модель начинает учиться сама Представьте: вы не даёте…
Genius: Когда языковая модель начинает учиться сама Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика.
- #1038Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее…
Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время? Ресерч их как будто сжался
- #1037шьто-то пусто в коментах. Пригоршня гпт 4.1 вас не удивила? Жду локальную…
шьто-то пусто в коментах. Пригоршня гпт 4.1 вас не удивила? Жду локальную модельку от ОпенАИ. Может они прям всех разорвут в опенсурсе? Хотелось бы.