Сам по себе датасет получается сложным: это видно по сравнению количества действий, необходимых для ответа на вопрос, с другими бенчмарками, уже упомянутым BrowseComp от OpenAI и WebDancer из вчерашнего разбора. Обратите внимание, что в последнем сложность очень низкая — на 55% вопросов удалось ответить всего за 2 действия (условно 1 поиск + 1 переход по ссылке), и ни один вопрос не требовал больше 10 действий. В то же время в BrowseComp есть вопросы, в которых делается аж 30 действий. На второй картинке — доля вопросов, на которые из коробки могут ответить o4-mini и DeepSeek-R1. Первая показывает себя лучше на всех трёх датасетах. SailorFrog-QA точно сложнее WebDancer-QA. При ручной проверке траекторий ответов на вопросы из SailorFrog-QA авторы обнаружили, что низкая точность в данных во многом обусловлена их сложностью, а также тем, что ответы не всегда однозначны. Неоднозначность информации может приводить к нескольким пересечениям условий, не дающим одного уникального ответа. Иными словами под критерии могут подпадать разные варианты, каждый из которых не противоречит условию. Однако гарантируется корректность условий относительно ответа, то есть ответ всегда удовлетворяет ограничениям, заданным в вопросе.
Сам по себе датасет получается сложным: это видно по сравнению количества…
Из этого канала
- #2916Напоследок запускают RL поверх разогретой модели. Предлагают использовать свою…
Напоследок запускают RL поверх разогретой модели. Предлагают использовать свою модификацию DAPO, упомянутого вчера: Duplicating Sampling Policy Optimization…
- #2917😢 разборы становятся всё длиннее и длиннее
😢 разборы становятся всё длиннее и длиннее
- #2918It's gonna be big: во внутренней записке в слаке Sama написал, что хочет иметь…
It's gonna be big: во внутренней записке в слаке Sama написал, что хочет иметь вычислительных мощностей на 250 ГигаВатт к 2033-му году.
- #2913Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова…
Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова предлагается сначала сделать разогрев в SFT-стиле, а затем запускать RL для обучения…
- #2912Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы…
Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы описывают примерный процесс его создания, но в этот раз опускают множество деталей,…