Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving… — @gonzo_ML

Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving Agent Skills __Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo__ Paper: https://arxiv.org/abs/2605.23904 Review: https://arxiviq.substack.com/p/skillopt-executive-strategy-for-self Code: https://aka.ms/SkillOpt Model: N/A # TL;DR ЧТО сделали: Авторы разработали SkillOpt — систематический и контролируемый оптимизатор в текстовом пространстве. Он рассматривает навыки ИИ-агентов на естественном языке как обучаемое внешнее состояние. Вместо ручного подбора промптов или хаотичной автоматической генерации, SkillOpt структурирует обновления поведения агентов с помощью подходов, вдохновлённых глубоким обучением. Здесь используются текстовые аналоги скорости обучения (бюджеты правок), строгие фильтры валидации, буферы отклонённых правок и медленные мета-обновления на уровне эпох. ПОЧЕМУ это важно: Этот подход обеспечивает высокую стабильность и воспроизводимость офлайн-оптимизации как для замороженных передовых моделей, так и для небольших локальных LLM. Компилируя сложную доменную адаптацию в обычные, понятные человеку markdown-файлы, SkillOpt обеспечивает колоссальный прирост точности (в среднем на +23.5 процентных пункта для GPT-5.5) в задачах на рассуждение, работе с таблицами и управлении агентами. При этом во время инференса не возникает никакой дополнительной задержки или лишних вызовов моделей. Для практиков: Фреймворк позволяет бесплатно переносить высококачественные «навыки», оптимизированные на мощных моделях, на более лёгкие локальные LLM (например, Qwen). Полученные файлы инструкций компактны, легко проверяются человеком и не требуют файнтюнинга весов. Оптимизировать скиллы здесь: https://t.me/gonzo_ML_podcasts/3785

Из этого канала