Вчера OpenAI анонсировали и выпустили Agent, нового агента, объединяющего в себе Deep Research + Operator, которого ещё и прокачали в работе с Excel и Power Point. От первого Agent забрал возможность зарываться в детали и гулять по большому количеству текстовых сайтов, от второго — возможность интерактивного взаимодействия и прокликивания, где это нужно. Вся система работает с отдельной версией модели o3, дообученной специально под задачу. Я думал, что анонс будет интереснее, покажут больше практических/бизнес кейсов. Главная фича, думаю, это что Agent может интегрироваться с вашей почтой, Google Drive и с любым MCP сервером (что на практике означает, что значимая доля сервисов вроде условного Confluence ему доступна, если в компании это настроено). На каких-то бенчмарках приростов относительно o3/Deep Research нет (или и вовсе метрика убывает, ыы), но на самых свежих и «сложных» разница заметна. В посте приложил картинки для Humanity’s Last Exam (тут слегка обгоняет Grok 4 with tools, но не Grok 4 Heavy), Frontier Math (Tiers 1-3) — тут скачок от прошлого чемпиона o4-mini с 19% до 27%, и до 49% если давать 16 попыток (что означает, что можно сильно улучшить систему с будущим дообучением/другими методами).