WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле разборов Tongyi DeepResearch (вторая разобрана тут). Её разбор стоит начать с того, что весной 2025-го OpenAI выпустили бенчмарк BrowseComp — это произошло вместе с релизом DeepResearch, в анонсе которого было показано, насколько же он лучше других решений на этом бенчмарке (с пометкой, что он натренирован на такой тип вопросов). BrowseComp — один из самых сложных бенчмарков, оценивающий навыки агентов находить труднодоступную, часто неоднозначную информацию в интернете. Вопросы там очень сложные — сами OpenAI нанимали людей и давали им по два часа для поиска ответа на каждый вопрос. В 70% случаев люди сдавались, а среди тех, кто дал ответ, только 86% оказались правильными. При этом бенчмарк не тестирует какие-то знания на уровне докторов наук, не требует разбираться в квантовой физике — просто сами вопросы заставляют закопаться в деталях. И вот авторы сегодняшней статьи отмечают, что OpenAI DeepResearch показывает на этом бенчмарке уровень поиска информации выше среднего человека (об этом писала и сама компания), а открытые решения не набирают двузначного процента правильных ответов. Они говорят, что этот разрыв в качестве возникает из‑за того, что в тренировочных данных их моделей нет настолько сложных зададач, и моделям неоткуда научиться их решать. Что это за сложность и чем она определяется? Требуемые для поиска ответа шаблоны рассуждений задаются количеством неопределённости в самом вопросе и сложностью уменьшения этой самой неопределённости. Выделяют 3 уровня: — Первый: вопросы с низкой неопределённостью, которую легко уменьшить. Сюда относятся вопросы, на которые LLM могут ответить сходу без поиска в интернете или за один запрос в гугл. «Когда родился такой-то известный человек» относится к этой категории. — Второй: вопросы, которые обладают высокой исходной неопределённостью, но следуют ясному пути к решению. Даже если поиск ответа требует множество шагов поиска, сущности связаны понятной логикой, что позволяет систематически уменьшать неопределённость. «Кто был первым академиком Китайской академии наук из альма-матер нынешнего генерального директора Alibaba?» — ищете директора, смотрите его университет, перебираете несколько академиков и ответ готов. План сходу ясен. — Третий, который и является фокусом этой статьи — вопросы с высокой неопределённостью, которую сложно уменьшать. Здесь сущности связаны сложными неочевидными способами, и у ответа нет предопределённого пути рассуждений. Решение таких задач требует креатива и выхода за рамки обычных паттернов поиска. Вопросы третьего уровня содержат множество сложно связанных между собой сущностей и намеренно упущенную информацию, такую как расплывчатые временные ссылки («примерно середина V века», «начало XXI века») и неконкретные описания («известная столица Южной Америки», «уважаемое учреждение искусств»). Часто нужно сопоставить несколько фактов, чтобы однозначно идентифицровать сущность. Пример вопроса: «Назовите вымышленного персонажа, который время от времени разрушает четвертую стену в общении со зрителями, имеет предысторию, связанную с помощью от бескорыстных аскетов, известен своим чувством юмора и имел телешоу, выходившее в эфир в период с 1960-х по 1980-е годы и насчитывавшее менее 50 серий» (спойлер: не Дедпул 😨)
WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле…
Из этого канала
- #2912Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы…
Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы описывают примерный процесс его создания, но в этот раз опускают множество деталей,…
- #2913Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова…
Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова предлагается сначала сделать разогрев в SFT-стиле, а затем запускать RL для обучения…
- #2914Сам по себе датасет получается сложным: это видно по сравнению количества…
Сам по себе датасет получается сложным: это видно по сравнению количества действий, необходимых для ответа на вопрос, с другими бенчмарками, уже упомянутым…
- #2910Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на…
Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на 10%+- лучше, чем Qwen-2.5 такого же размера.
- #2909Ну и всё, теперь дело за малым: берём дообученные модели и запускаем RL-цикл.…
Ну и всё, теперь дело за малым: берём дообученные модели и запускаем RL-цикл. Вместо GRPO авторы используют свежую модификацию от ByteDance Seed, Decoupled…