WebDancer: Towards Autonomous Information Seeking Agency Вторая статья в цикле разборов Tongyi DeepResearch (первая разобрана тут). В этой работе описан полный пайплайн сбора данных и обучения модели, так что на ней как будто бы можно и остановиться 😀 но статья майская, и за лето многое изменилось. Популярные наборы вопросов для DeepResearch-агентов часто поверхностны и обычно состоят из задач, которые решаются одним или несколькими шагами поиска. Кроме того, они включают только валидационные выборки, а их объем относительно невелик: например, GAIA содержит всего 466 заданий, WebWalkerQA, разобранный вчера, 680 примеров, а BrowseComp от OpenAI — 1 266; этого недостаточно для обучения. Поэтому предлагается методология сбора двух крупных датасетов: CrawlQA и E2HQA. CrawlQA собирается по той же методике, что вчерашний WebWalkerQA, с одним отличием: набор ссылок на сайты, по которым производится обход страниц и последующее построение пар вопрос-ответ. Плюс, нет этапа анализа и исправления человеком, зато есть дополнительная фильтрация (о ней чуть ниже). E2HQA интереснее. Сначала берут большую базу вопросов с ответами, которые являются краткими однозначными сущностями. Ответ фиксируется и не меняется в ходе последующих итераций, а вот вопрос — меняется, усложняется. Для этого берут LLM, подключают её к поиску и промптят на извлечение и замену одной сущности из вопроса. Например, пусть исходный вопрос «Кто получил премию IEEE Фрэнка Розенблатта в 2010 году?». Тут понятная сущность — премия и её название. Модель делает поиск и по прочитанным текстам понимает, что можно заменить на такой вопрос: «В 2010 году была вручена награда имени пионера в области искусственного интеллекта. Кто стал лауреатом этой награды?» Этот вопрос сложнее — для ответа сначала придётся разобраться, что это за награда, отсечь несколько вариантов, которые, например, не подходят по году, а затем уже искать лауреата. Процесс усложнения повторяется итеративно, чем больше шагов, тем сложнее финальный вопрос, ибо нужно решить маленькие подзадачи. Такой приём называется «стратегия обратного составления». Причём исходные вопросы могут быть очень простыми и берутся из уже имеющихся датасетов: MuSiQue, Bamboogle, PopQA, 2Wiki, HotpotQA — все очень старые, периода 2018-2022-ых годов, ибо никакой сложности не нужно. Выкидывают те вопросы, на которые может ответить простая RAG-система (не уточняют детали, но положим, что один запрос на поиск от LLM + генерация ответа по найденым результатам). По итогу, в CrawlQA 60 тысяч пар вопрос-ответ, в E2HQA — 40. На этом этапе никакой фильтрации не произвели, кроме описанной выше (через RAG).