И вот такой ещё пример из датасета: нужно посчитать, сколько часов суммарно потратит человек, который посещает мероприятие с 1-го по 6-ое декабря. Есть отдельная страница, на которой указаны часы, и от LLM требуется самостоятельно посчитать, сколько суммарно пройдёт от и до. Авторы заносят такие ошибки в reasoning error, когда до страницы с ответом WebWalker вроде и дошёл, но не смог сформулировать. Их не так много — на релизе старенький Qwen-Plus совершал меньше 10% подобных ошибок. И примерно 35% вопросов не были отвечены потому, что упирались в ограничение на 15 переходов по ссылкам. Вкупе с тем, что исходный датасет собирался с ограничением на 4 перехода по ссылкам, выходит, что LLM просто не знали, куда кликать и где искать информацию; но опять же с того момента модели прокачались, и это может быть уже неактуально. В общем, метод сбора данных кажется немного устаревшим и простым; модели шагнули далеко вперёд, и потому можно делать нечто похожее, но гораздо более проработанное. DeepResearch как продукт у OpenAI появился на месяц позже, чем этот бенчмарк; кажется, что для его оценки нужны задачки посложнее.. Увидим, что придумали авторы в следующих сериях!