Про многоэтапную верификацию CUA (Computer Use Agent). The Art of Building Verifiers for Computer Use Agents __Corby Rosset, Pratyusha Sharma, Andrew Zhao, Miguel Gonzalez-Fernandez, Ahmed Awadallah__ Статья: https://arxiv.org/abs/2604.06240v1 Код: https://github.com/microsoft/fara Ревью: https://arxiviq.substack.com/p/the-art-of-building-verifiers-for # TL;DR ЧТО сделали: Авторы разработали Universal Verifier (UV) — многоэтапную систему для оценки траекторий агентов, использующих компьютер (Computer Use Agent, CUA). Они отошли от бинарных вердиктов через один промпт, внедрив специфичные для каждой задачи рубрикаторы, мультимодальную оценку релевантности по всем скриншотам траектории и явное разделение оценки качества исполнения (process rewards) и достижения конечной цели (outcome rewards). Кроме того, в опенсорс выложили CUAVerifierBench — датасет из 246 размеченных людьми траекторий для оценки верификаторов. ПОЧЕМУ это важно: Надёжная верификация — главное узкое горлышко для масштабирования RLHF и циклов автономного обучения в агентном ИИ. Существующие эвалюаторы страдают от огромного количества ложноположительных срабатываний, часто слепо доверяя галлюцинациям агентов. Снижая долю ложноположительных ошибок почти до нуля и достигая уровня согласия между людьми-разметчиками, этот фреймворк даёт надёжный, гранулярный сигнал награды, необходимый для обучения следующего поколения веб- и десктопных агентов. Для практиков: По мере того как модели переходят от ответов на вопросы к выполнению длинных задач за компьютером, оценка их реального успеха на практике оказывается обманчиво сложной. Модель может сделать всё правильно, но споткнуться о пейволл или окно логина, или наоборот — сгаллюцинировать успех, ничего по факту не сделав. Статья показывает, что для решения проблемы верификации нужна архитектурная строгость, а не просто более крупные базовые модели. Структурно отделяя процесс от результата и требуя тщательной визуальной привязки на каждом шагу, предложенная система снижает уровень ложноположительных оценок с более чем 30% до примерно 1%. Для ИИ-исследователей это сигнал к необходимому отказу от простой оценки конечного состояния в пользу модульных пайплайнов верификации, основанных на сборе доказательств. Верифицировать здесь: https://t.me/gonzo_ML_podcasts/3204