WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле разборов Tongyi DeepResearch (вторая разобрана тут). Её разбор стоит начать с того, что весной 2025-го OpenAI выпустили бенчмарк BrowseComp — это произошло вместе с релизом DeepResearch, в анонсе которого было показано, насколько же он лучше других решений на этом бенчмарке (с пометкой, что он натренирован на такой тип вопросов). BrowseComp — один из самых сложных бенчмарков, оценивающий навыки агентов находить труднодоступную, часто неоднозначную информацию в интернете. Вопросы там очень сложные — сами OpenAI нанимали людей и давали им по два часа для поиска ответа на каждый вопрос. В 70% случаев люди сдавались, а среди тех, кто дал ответ, только 86% оказались правильными. При этом бенчмарк не тестирует какие-то знания на уровне докторов наук, не требует разбираться в квантовой физике — просто сами вопросы заставляют закопаться в деталях. И вот авторы сегодняшней статьи отмечают, что OpenAI DeepResearch показывает на этом бенчмарке уровень поиска информации выше среднего человека (об этом писала и сама компания), а открытые решения не набирают двузначного процента правильных ответов. Они говорят, что этот разрыв в качестве возникает из‑за того, что в тренировочных данных их моделей нет настолько сложных зададач, и моделям неоткуда научиться их решать. Что это за сложность и чем она определяется? Требуемые для поиска ответа шаблоны рассуждений задаются количеством неопределённости в самом вопросе и сложностью уменьшения этой самой неопределённости. Выделяют 3 уровня: — Первый: вопросы с низкой неопределённостью, которую легко уменьшить. Сюда относятся вопросы, на которые LLM могут ответить сходу без поиска в интернете или за один запрос в гугл. «Когда родился такой-то известный человек» относится к этой категории. — Второй: вопросы, которые обладают высокой исходной неопределённостью, но следуют ясному пути к решению. Даже если поиск ответа требует множество шагов поиска, сущности связаны понятной логикой, что позволяет систематически уменьшать неопределённость. «Кто был первым академиком Китайской академии наук из альма-матер нынешнего генерального директора Alibaba?» — ищете директора, смотрите его университет, перебираете несколько академиков и ответ готов. План сходу ясен. — Третий, который и является фокусом этой статьи — вопросы с высокой неопределённостью, которую сложно уменьшать. Здесь сущности связаны сложными неочевидными способами, и у ответа нет предопределённого пути рассуждений. Решение таких задач требует креатива и выхода за рамки обычных паттернов поиска. Вопросы третьего уровня содержат множество сложно связанных между собой сущностей и намеренно упущенную информацию, такую ​​как расплывчатые временные ссылки («примерно середина V века», «начало XXI века») и неконкретные описания («известная столица Южной Америки», «уважаемое учреждение искусств»). Часто нужно сопоставить несколько фактов, чтобы однозначно идентифицровать сущность. Пример вопроса: «Назовите вымышленного персонажа, который время от времени разрушает четвертую стену в общении со зрителями, имеет предысторию, связанную с помощью от бескорыстных аскетов, известен своим чувством юмора и имел телешоу, выходившее в эфир в период с 1960-х по 1980-е годы и насчитывавшее менее 50 серий» (спойлер: не Дедпул 😨)