Для категории General Agent делают дополнительную фильтрацию, чтобы выкинуть некачественную синтетику. Для этого запускают RL на этом наборе данных, и прогоняют промежуточную модель по 100 раз на каждом вопросе. Оставляют только те, где модель хотя бы раз смогла дать правильный ответ — и на них будут переучиваться как на «чистых» данных. То есть мы вроде бы уверены, что данные хоть сколько-нибудь качественные. Но могут ли они чему-то научить модель? В конечном итоге это же более ранняя версия модели сама в режиме агента наклепала их — может она и решать умеет? Достаточно ли сложны синтетические задачи для обучения и выучивания новых навыков? Чтобы ответить на этот вопрос, авторы случайным образом выбирают 50 примеров и оценивают разные модели, включая проприетарные. DeepSeek-V3.2-Exp достигает точности всего 12% с первой попытки, в то время как передовые закрытые модели достигают 62%. Что интересно — GPT-5 почему-то сильно лучше в этом «бенчмарке», чем Gemini 3 и Sonnet 4.5. А ещё обратите внимание на разницу проприетарных моделей и открытой 🙂 На нижней половине картинке показан рост метрик в разных бенчмарках при обучении только на этой синтетике — видно, что это помогает решать другие задачи, так что авторы довольны.
Для категории General Agent делают дополнительную фильтрацию, чтобы выкинуть…
Из этого канала
- #3163Про метрики не вижу большого смысла говорить — по бенчмаркам показывают, что на…
Про метрики не вижу большого смысла говорить — по бенчмаркам показывают, что на равне или почти нос к носу с фронтиром, но мы-то с вами знаем, что это не так,…
- #3165Ещё обучили DeepSeek-V3.2-Speciale — всё то же самое, только снизили штраф за…
Ещё обучили DeepSeek-V3.2-Speciale — всё то же самое, только снизили штраф за длину размышлений, плюс выкинули все данные без рассуждений.
- #3166TheInformation: согласно внутренней служебной записке, в понедельник…
TheInformation: согласно внутренней служебной записке, в понедельник генеральный директор OpenAI Sam Altman сообщил сотрудникам, что объявляет «красный уровень…
- #3161Пример сгенерированной задачи для General Agent: 1) есть детальнейшее описание…
Пример сгенерированной задачи для General Agent: 1) есть детальнейшее описание того, что хочет человек при планировании путешествия 2) есть набор функций,…
- #3160И теперь самое интересное — масштабирование датасетов для агентского RL.…
И теперь самое интересное — масштабирование датасетов для агентского RL. Разнообразный набор задач имеет решающее значение для повышения надежности и…