Ещё одна работа про то, как агенты косячат. На этот раз исследовательские. В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать любопытно. Авторы придумали свою классификацию косяков агентов и выдумали несколько забористых терминов — Strategic Content Fabrication или Redundant Content Piling, например. Можно теперь оценивать агента по булшит-бинго чеклисту! Дальше поразбираю какие-нибудь другие темы. How Far Are We from Genuinely Useful Deep Research Agents? __Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou__ Paper: https://arxiv.org/abs/2512.01948 Code: https://github.com/OPPO-PersonalAI/FINDER_DEFT Review: https://arxiviq.substack.com/p/how-far-are-we-from-genuinely-useful # TL;DR ЧТО сделали: Представили FINDER — детальный бенчмарк для Deep Research агентов (DRA), включающий 100 экспертных задач с 419 проверочными чек-листами, и DEFT — таксономию сбоев, построенную на методе обоснованной теории (Grounded Theory), которая классифицирует ошибки агентов по 14 различным режимам. ПОЧЕМУ это важно: Текущие бенчмарки часто путают «умение болтать» с «исследовательской строгостью», позволяя моделям проскакивать за счёт генерации гладкого, но бессодержательного текста. Работа квантифицирует явление Strategic Content Fabrication (стратегическая фабрикация контента), когда агенты имитируют *форму* профессионального анализа (цитаты, академический тон), подделывая *содержание*. Это показывает, что узкое место агентов — не понимание задачи, а интеграция доказательств и устойчивость ризонинга (reasoning resilience). Подробнее: https://t.me/gonzo_ML_podcasts/1621
Ещё одна работа про то, как агенты косячат. На этот раз исследовательские. В…
Из этого канала
- #4344В очередной раз программировал тут с агентом, надо было переписать MCP сервер с…
В очередной раз программировал тут с агентом, надо было переписать MCP сервер с stdio-транспорта на Streamable HTTP -- в принципе типичный пример задачи, для…
- #4345ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq…
ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq 54% на ARC-AGI-2, $31/task https://x.com/i/status/1997743855203148038
- #4347"Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах?…
"Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich.
- #4339Модели продолжают подвозить и подвозить https://z.ai/blog/glm-4.6v…
Модели продолжают подвозить и подвозить https://z.ai/blog/glm-4.6v Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
- #4335Ещё про код — вышел огромный (300+ страниц) обзор про кодовые модели. Из…
Ещё про код — вышел огромный (300+ страниц) обзор про кодовые модели. Из прикольного, законы скейлинга для разных языков программирования отличаются.