WebWalker: Benchmarking LLMs in Web Traversal Первая статья в цикле разборов Tongyi DeepResearch. Хорошая традиция в ML начинать решение задачи с бенчмарка, по которому можно оценивать прогресс. Правда кажется, что WebWalkerQA, предлагаемый в статье, немного устарел: задачи DeepResearch сейчас гораздо более объёмны и обширны, чем те, что включены в датасет. Тем не менее пайплайн интересный, так что давайте разбирать. На момент января 2025-го года, когда вышла статья, RAG для «простых» вопросов уже был по сути решённой задачей: делаем хороший поиск, LLM читает несколько сайтов-кандидатов и выдаёт ответ. Авторы отмечают, что существующие бенчмарки не копают вглубь, когда для ответа на вопрос нужно не просто перейти на сайт, а несколько раз кликнуть на правильные ссылки. На этом и фокусируется WebWalkerQA. Авторы формулируют задачу как Web Traversal: имея URL исходного сайта и запрос, необходимо систематически обходить веб‑страницы, чтобы обнаружить информацию для ответа. Первым шагом собирают набор сайтов, для которых будут придумываться вопросы. WebWalkerQA охватывает четыре прикладных домена: конференции, игры, организации, и образование. Для первых двух сайты выбрали через поиск Google по ключевым словам, для последних двух собрали список из головы. Далее на все собранных сайтах запустили краулинг/обход ссылок, чтобы собрать дерево (граф) переходов. Граф иерархический и описывает сколько кликов нужно минимально сделать, чтобы попасть на страницу. Это важно учесть, чтобы контролировать сложность задач в бенчмарке: больше кликов -> глубже надо копать, и легче запутаться. Затем на полученных графах запустили случайный выбор по 1 или 2 страницы, текстовый контент с которых подавали в запромпченную GPT-4o. Модель должна была прочитать текст и придумать вопрос. Если страницы две, то вопросы должны были быть таким, чтобы для ответа требовалась информация с обеих страниц. Вопросы по одной странице простые, по двум — часто составные в духе «где и когда» или «кто и сколько». Я полистал вопросы в датасете и сложилось ощущение, что некоторая доля вопросов как бы про одно и то же, но первая часть не связана со второй. Но и хороших вопросов тоже много: — когда начало конференции и до какой даты нужно подать заявку — когда вышли дополнения А и Б для игры — кто сделал что-то в таком-то и таком-то году Пример несвязанных: «Кто стал обладателем премии POMS Fellows Award в 2006 году и премии Скиннера за инновации в преподавании в 2018 году?». Оба человека в ответе разные, никакой связи я не нашел — поэтому выглядит как слепление двух вопросов в один. Сайты страниц и вопросы, кстати, на двух языках — китайский и английский, 60%/40%. После того, как GPT-4o нагенерировала пары, их глазами отсмотрели эксперты и часть выкинули, в часть внесли правки (в вопросы и ответы — последние тоже были сгенерированы синтетически, хоть и на основе текста страниц). Суммарно оставили 680 пар вопрос-ответ, и ещё 14 тысяч выложены без ручной проверки — предлагается использовать для дообучения своих агентов, но мы то с вами знаем, что качество важнее количества.
WebWalker: Benchmarking LLMs in Web Traversal Первая статья в цикле разборов…
Из этого канала
- #2901Вместе с датасетом предлагается и WebWalker — система из двух агентов:…
Вместе с датасетом предлагается и WebWalker — система из двух агентов: агента‑исследователя и агента‑критика.
- #2902И вот такой ещё пример из датасета: нужно посчитать, сколько часов суммарно…
И вот такой ещё пример из датасета: нужно посчитать, сколько часов суммарно потратит человек, который посещает мероприятие с 1-го по 6-ое декабря.
- #2903Абсолютный чемпион мира в супертяжелом весе по привлечению инвестиций и…
Абсолютный чемпион мира в супертяжелом весе по привлечению инвестиций и масштабированию Sam Altman заявил о своём следующем шаге: OpenAI заключили…
- #2899Я уже один раз писал про сборник песен с радио GTA IV — и даже получил…
Я уже один раз писал про сборник песен с радио GTA IV — и даже получил благодарности в личку за то, что поделился ❤️ Сегодня у нас снова играет Vladivostok FM…
- #2896🌸Релизим GAIA2 — Агенты в реалистичной среде😘 #nlp #nlppapers 🌸TL;DR Выпускаем…
🌸Релизим GAIA2 — Агенты в реалистичной среде😘 #nlp #nlppapers 🌸TL;DR Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic…