Вместе с датасетом предлагается и WebWalker — система из двух агентов: агента‑исследователя и агента‑критика. У каждого своя роль, свои промпты, и действуют они поочерёдно. Давайте посмотрим на картинку: — В центре в самом верху вопрос и ссылка на сайт, которые попадают в агента. С HTML-страницы на фоне вытаскивают все кнопки, на которые можно нажать, и полезный контент; для этого используется открытая библиотека ai4crawl с LLM под капотом, которая переводит страницу в Markdown. Глянуть детали можно тут. — Модель с промптом на выбор клика выбирает, по какой ссылке перейти. Текст с новой страницы попадает в агента-критика. Тот по контенту решает, какую полезную информацию надо выписать для ответа на вопрос. Может быть и так, что ничего записывать не надо. Отдельным промптом критик решает, нужно ли продолжать поиск или вся нужная информация уже есть. — Если критик решил, что информации недостаточно, то цикл повторяется: один агент получает контент (и историю предыдущих действий), решает, куда кликнуть, критик выписывает информацию и так далее. — В конце концов критик решает, что информации достаточно для ответа на исходный вопрос, после чего пишет результат. По сути это прокачанный ReAct, где добавили разных промптов и отдельный блок «памяти», в который LLM решает, что записать. Пробуют несколько разных LLM, но так как бенчмарку уже больше 9 месяцев, то все модели неактуальны, и результаты не очень интересны. GPT-4o выбила 37.5% правильных ответов с лимитом в 15 действий (переходов по ссылкам); кроме этого опробовали коммерческие RAG-системы, Gemini-Search взяла 27.94%, а лучшей оказалась система от самих же Tongyi с результатом в 40.7%. Лидерборд на HF недоступен, но вот тут по картинке можно увидеть, что o3 до этого была топ-1 с результатом в 71.7% (видимо, с тем же фреймворком из двух агентов, что описан выше). Замеров для более свежих моделей не нашёл :( Надо отметить, что правильность результата определяется LLM, которой на вход подаётся ответ системы и исходный ответ, подготовленный вышеописанной связкой GPT-4o + человек. Все промпты есть в статье, можете глянуть. Сам датасет тут.