Про многоэтапную верификацию CUA (Computer Use Agent). The Art of Building Verifiers for Computer Use Agents __Corby Rosset, Pratyusha Sharma, Andrew Zhao, Miguel Gonzalez-Fernandez, Ahmed Awadallah__ Статья: https://arxiv.org/abs/2604.06240v1 Код: https://github.com/microsoft/fara Ревью: https://arxiviq.substack.com/p/the-art-of-building-verifiers-for # TL;DR ЧТО сделали: Авторы разработали Universal Verifier (UV) — многоэтапную систему для оценки траекторий агентов, использующих компьютер (Computer Use Agent, CUA). Они отошли от бинарных вердиктов через один промпт, внедрив специфичные для каждой задачи рубрикаторы, мультимодальную оценку релевантности по всем скриншотам траектории и явное разделение оценки качества исполнения (process rewards) и достижения конечной цели (outcome rewards). Кроме того, в опенсорс выложили CUAVerifierBench — датасет из 246 размеченных людьми траекторий для оценки верификаторов. ПОЧЕМУ это важно: Надёжная верификация — главное узкое горлышко для масштабирования RLHF и циклов автономного обучения в агентном ИИ. Существующие эвалюаторы страдают от огромного количества ложноположительных срабатываний, часто слепо доверяя галлюцинациям агентов. Снижая долю ложноположительных ошибок почти до нуля и достигая уровня согласия между людьми-разметчиками, этот фреймворк даёт надёжный, гранулярный сигнал награды, необходимый для обучения следующего поколения веб- и десктопных агентов. Для практиков: По мере того как модели переходят от ответов на вопросы к выполнению длинных задач за компьютером, оценка их реального успеха на практике оказывается обманчиво сложной. Модель может сделать всё правильно, но споткнуться о пейволл или окно логина, или наоборот — сгаллюцинировать успех, ничего по факту не сделав. Статья показывает, что для решения проблемы верификации нужна архитектурная строгость, а не просто более крупные базовые модели. Структурно отделяя процесс от результата и требуя тщательной визуальной привязки на каждом шагу, предложенная система снижает уровень ложноположительных оценок с более чем 30% до примерно 1%. Для ИИ-исследователей это сигнал к необходимому отказу от простой оценки конечного состояния в пользу модульных пайплайнов верификации, основанных на сборе доказательств. Верифицировать здесь: https://t.me/gonzo_ML_podcasts/3204
Про многоэтапную верификацию CUA (Computer Use Agent). The Art of Building…
Из этого канала
- #5187"""Думать надо, когда надо. А когда не надо, думать не надо."" -- Тони Роббинс…
"""Думать надо, когда надо. А когда не надо, думать не надо."" -- Тони Роббинс А вообще забавно, что в LLM появляются механизмы прерываний, как в своё время в…
- #5194Growing Neural Cellular Automata Alexander Mordvintsev, Ettore Randazzo, Eyvind…
Growing Neural Cellular Automata Alexander Mordvintsev, Ettore Randazzo, Eyvind Niklasson, Michael Levin Интерактивная статья + ссылки на код:…
- #5195Правило обновления можно воспринимать как геном клетки и он у всех клеток будет…
Правило обновления можно воспринимать как геном клетки и он у всех клеток будет общим.
- #5171Про будущее математики от Теренса Тао. Также в тему свежая статья из Quanta…
Про будущее математики от Теренса Тао. Также в тему свежая статья из Quanta Magazine: “The AI Revolution in Math Has Arrived” Mathematical methods and human…
- #5164"Большой обзор про латентное пространство! The Latent Space: Foundation,…
"Большой обзор про латентное пространство! The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook Xinlei Yu, Zhangquan Chen, Yongbo He,…