Сам по себе датасет получается сложным: это видно по сравнению количества действий, необходимых для ответа на вопрос, с другими бенчмарками, уже упомянутым BrowseComp от OpenAI и WebDancer из вчерашнего разбора. Обратите внимание, что в последнем сложность очень низкая — на 55% вопросов удалось ответить всего за 2 действия (условно 1 поиск + 1 переход по ссылке), и ни один вопрос не требовал больше 10 действий. В то же время в BrowseComp есть вопросы, в которых делается аж 30 действий. На второй картинке — доля вопросов, на которые из коробки могут ответить o4-mini и DeepSeek-R1. Первая показывает себя лучше на всех трёх датасетах. SailorFrog-QA точно сложнее WebDancer-QA. При ручной проверке траекторий ответов на вопросы из SailorFrog-QA авторы обнаружили, что низкая точность в данных во многом обусловлена их сложностью, а также тем, что ответы не всегда однозначны. Неоднозначность информации может приводить к нескольким пересечениям условий, не дающим одного уникального ответа. Иными словами под критерии могут подпадать разные варианты, каждый из которых не противоречит условию. Однако гарантируется корректность условий относительно ответа, то есть ответ всегда удовлетворяет ограничениям, заданным в вопросе.