Для категории General Agent делают дополнительную фильтрацию, чтобы выкинуть некачественную синтетику. Для этого запускают RL на этом наборе данных, и прогоняют промежуточную модель по 100 раз на каждом вопросе. Оставляют только те, где модель хотя бы раз смогла дать правильный ответ — и на них будут переучиваться как на «чистых» данных. То есть мы вроде бы уверены, что данные хоть сколько-нибудь качественные. Но могут ли они чему-то научить модель? В конечном итоге это же более ранняя версия модели сама в режиме агента наклепала их — может она и решать умеет? Достаточно ли сложны синтетические задачи для обучения и выучивания новых навыков? Чтобы ответить на этот вопрос, авторы случайным образом выбирают 50 примеров и оценивают разные модели, включая проприетарные. DeepSeek-V3.2-Exp достигает точности всего 12% с первой попытки, в то время как передовые закрытые модели достигают 62%. Что интересно — GPT-5 почему-то сильно лучше в этом «бенчмарке», чем Gemini 3 и Sonnet 4.5. А ещё обратите внимание на разницу проприетарных моделей и открытой 🙂 На нижней половине картинке показан рост метрик в разных бенчмарках при обучении только на этой синтетике — видно, что это помогает решать другие задачи, так что авторы довольны.