И вот такой ещё пример из датасета: нужно посчитать, сколько часов суммарно потратит человек, который посещает мероприятие с 1-го по 6-ое декабря. Есть отдельная страница, на которой указаны часы, и от LLM требуется самостоятельно посчитать, сколько суммарно пройдёт от и до. Авторы заносят такие ошибки в reasoning error, когда до страницы с ответом WebWalker вроде и дошёл, но не смог сформулировать. Их не так много — на релизе старенький Qwen-Plus совершал меньше 10% подобных ошибок. И примерно 35% вопросов не были отвечены потому, что упирались в ограничение на 15 переходов по ссылкам. Вкупе с тем, что исходный датасет собирался с ограничением на 4 перехода по ссылкам, выходит, что LLM просто не знали, куда кликать и где искать информацию; но опять же с того момента модели прокачались, и это может быть уже неактуально. В общем, метод сбора данных кажется немного устаревшим и простым; модели шагнули далеко вперёд, и потому можно делать нечто похожее, но гораздо более проработанное. DeepResearch как продукт у OpenAI появился на месяц позже, чем этот бенчмарк; кажется, что для его оценки нужны задачки посложнее.. Увидим, что придумали авторы в следующих сериях!
И вот такой ещё пример из датасета: нужно посчитать, сколько часов суммарно…
Из этого канала
- #2903Абсолютный чемпион мира в супертяжелом весе по привлечению инвестиций и…
Абсолютный чемпион мира в супертяжелом весе по привлечению инвестиций и масштабированию Sam Altman заявил о своём следующем шаге: OpenAI заключили…
- #2904Вместе с этим Sama выпустил эссе «Изобилие интеллекта», оригинал тут, а перевод…
Вместе с этим Sama выпустил эссе «Изобилие интеллекта», оригинал тут, а перевод — ниже: Рост использования AI-сервисов был поразительным; мы ожидаем, что в…
- #2905АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк…
АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк от 4wallai.
- #2901Вместе с датасетом предлагается и WebWalker — система из двух агентов:…
Вместе с датасетом предлагается и WebWalker — система из двух агентов: агента‑исследователя и агента‑критика.
- #2900WebWalker: Benchmarking LLMs in Web Traversal Первая статья в цикле разборов…
WebWalker: Benchmarking LLMs in Web Traversal Первая статья в цикле разборов Tongyi DeepResearch.