WebWalker: Benchmarking LLMs in Web Traversal Первая статья в цикле разборов… — @seeallochnaya

WebWalker: Benchmarking LLMs in Web Traversal Первая статья в цикле разборов Tongyi DeepResearch. Хорошая традиция в ML начинать решение задачи с бенчмарка, по которому можно оценивать прогресс. Правда кажется, что WebWalkerQA, предлагаемый в статье, немного устарел: задачи DeepResearch сейчас гораздо более объёмны и обширны, чем те, что включены в датасет. Тем не менее пайплайн интересный, так что давайте разбирать. На момент января 2025-го года, когда вышла статья, RAG для «простых» вопросов уже был по сути решённой задачей: делаем хороший поиск, LLM читает несколько сайтов-кандидатов и выдаёт ответ. Авторы отмечают, что существующие бенчмарки не копают вглубь, когда для ответа на вопрос нужно не просто перейти на сайт, а несколько раз кликнуть на правильные ссылки. На этом и фокусируется WebWalkerQA. Авторы формулируют задачу как Web Traversal: имея URL исходного сайта и запрос, необходимо систематически обходить веб‑страницы, чтобы обнаружить информацию для ответа. Первым шагом собирают набор сайтов, для которых будут придумываться вопросы. WebWalkerQA охватывает четыре прикладных домена: конференции, игры, организации, и образование. Для первых двух сайты выбрали через поиск Google по ключевым словам, для последних двух собрали список из головы. Далее на все собранных сайтах запустили краулинг/обход ссылок, чтобы собрать дерево (граф) переходов. Граф иерархический и описывает сколько кликов нужно минимально сделать, чтобы попасть на страницу. Это важно учесть, чтобы контролировать сложность задач в бенчмарке: больше кликов -> глубже надо копать, и легче запутаться. Затем на полученных графах запустили случайный выбор по 1 или 2 страницы, текстовый контент с которых подавали в запромпченную GPT-4o. Модель должна была прочитать текст и придумать вопрос. Если страницы две, то вопросы должны были быть таким, чтобы для ответа требовалась информация с обеих страниц. Вопросы по одной странице простые, по двум — часто составные в духе «где и когда» или «кто и сколько». Я полистал вопросы в датасете и сложилось ощущение, что некоторая доля вопросов как бы про одно и то же, но первая часть не связана со второй. Но и хороших вопросов тоже много: — когда начало конференции и до какой даты нужно подать заявку — когда вышли дополнения А и Б для игры — кто сделал что-то в таком-то и таком-то году Пример несвязанных: «Кто стал обладателем премии POMS Fellows Award в 2006 году и премии Скиннера за инновации в преподавании в 2018 году?». Оба человека в ответе разные, никакой связи я не нашел — поэтому выглядит как слепление двух вопросов в один. Сайты страниц и вопросы, кстати, на двух языках — китайский и английский, 60%/40%. После того, как GPT-4o нагенерировала пары, их глазами отсмотрели эксперты и часть выкинули, в часть внесли правки (в вопросы и ответы — последние тоже были сгенерированы синтетически, хоть и на основе текста страниц). Суммарно оставили 680 пар вопрос-ответ, и ещё 14 тысяч выложены без ручной проверки — предлагается использовать для дообучения своих агентов, но мы то с вами знаем, что качество важнее количества.

Из этого канала