Microsoft опенсорснули проект SkillOpt для оптимизации способностей агентов Это фреймворк, который фоново улучшает вашего агента через изменение markdown файлов со скиллами. Это похоже на классический learning loop, но в текстовом пространстве. То есть агент выполняет задачи с текущей версией условного skill.md (это аналог прямого прохода), система легирует все, что тот делает, отмечает ошибки и успешные ответы, а затем на основе этого предлагает небольшие правки в skill (это уже backward pass). Новая версия md принимается только после прохождения верификации на отдельном сете задач (его можно задать самостоятельно или взять готовый). Как и в реальном обучении, тут предусмотрено подобие learning rate: чтобы сразу случайно сильно не испортить файл правками, они могут быть только небольшими и должны соответствовать определенным правилам. Так что попробовать инструмент можно довольно безопасно, даже если боитесь за свои md-шки. Приросты можно посмотреть в большой таблице наверху. Как видите, абсолютно во всех комбинациях моделей и бенчмарков они положительные и заметные, а в Codex и Claude Code на GPT-5.5 средний gain указан вообще как +21.8 и +18.6 соответственно (!). Статья, код, овервью и инструкции по использованию – все здесь: https://microsoft.github.io/SkillOpt/
Microsoft опенсорснули проект SkillOpt для оптимизации способностей агентов…
Из этого канала
- #9299Предлагаем вам поломать голову над задачей с «Рекурсии по городу» Яндекса,…
Предлагаем вам поломать голову над задачей с «Рекурсии по городу» Яндекса, которую далеко не все смогли решить На станциях было много интересных задач на…
- #9300После утренней новости про отказ Microsoft от Claude Code выяснилось, что они в…
После утренней новости про отказ Microsoft от Claude Code выяснилось, что они в своих идеях не одиноки Операционный директор Uber только что заявил, что…
- #9301Все, Anthropic в конце концов начали генерировать больше выручки, чем OpenAI…
Все, Anthropic в конце концов начали генерировать больше выручки, чем OpenAI The Information насчитали, что сейчас Anthropic, вероятно, генерирует как минимум…
- #9295Инфоповод опять разлетелся на мемы
Инфоповод опять разлетелся на мемы
- #9294"Как перестать тестировать AI-продукты в режиме «вроде работает» Если вы…
"Как перестать тестировать AI-продукты в режиме «вроде работает» Если вы работаете с LLM в продукте, то наверняка знаете, что качество AI-фич часто до сих пор…