дистилляция промптов? Нет, дистилляция скиллов! Это что то новенькое...… — @neuralstack

дистилляция промптов? Нет, дистилляция скиллов! Это что то новенькое... Мелкийсофт выкатили пейпер SkillOpt – штуковину, где обучают не модель, а skill-файл агента. Ну конечно это не дистилляция, а optimization loop вокруг markdown-инструкций. Но направление интересное, я даже глаза не закатывал)))) Элементарное просто – берем замороженного агента, даем ему skill, гоняем на задачах и сохраняем весь роллаут: какие тулзы дергал, где поехал, какой ответ выдал, и тд. Потом внешняя сильная модель-оптимизатор читает эти следы и предлагает патч (выборочный, весь скилл в кашу переписывать нельзя) к skill-файлу: добавить правило, выкинуть вредную инструкцию, заменить кривой кусок. такие предложения принимаются и сразу проверяются – если справилось лучше то… применяем изменение в описание скилла. Цифры бодрые, обещают десятки и десятки процентов улучшения… работы на бенчмарках Это все дикая молотилка токенов, но кажется что в вертикальных кейсах должно работать норм. сложные системы скиллов (вроде haft) тренировать такой машинкой врядли получится. Все таки сложные сценарии, измерить результат еще сложнее. Но если у вас есть понятный AI процесс, который держится на файлике с инструкциями, и результат можно измерить и оценить в табличке – поздравляю, у вас уже есть тренируемая поверхность))) Если у вас скиллы в проде… я не знаю что сказать 🫪 Скорее это про улучшение всякой harness прикладной истории.

Из этого канала