Агент Cursor решил одну из задач First Proof challenge лучше, чем люди First Proof challenge – это набор из 10 математических задач, составленный 11 известными математиками (включая лауреата Филдсовской премии Мартина Хайрера). Задачи там из областей алгебраической комбинаторики, спектральной теории графов, топологии, стохастического анализа и тд. Они имитируют реальную работу академиков лучших университетов мира. Задачки были составлены всего лишь месяц назад и открыто не публикуются во избежании лика данных в трейн моделей. И вот сегодня CEO Cursor заявил, что их агент (для кодинга, на секундочку) справился с одной из этих задач, и нашел при этом лучшее решение, чем люди. Это подтверждают математики: подход агента действительно отличается от существующего и улучшает доказательство до новой константы. Что интересно, тут использовалась ровно та же система, с помощью которой Cursor с нуля завайбкодили браузер (пост об этом вот тут). Она автономно работала над задачей четыре дня, не получая никаких подсказок. Под капотом там, кстати, не один, а десятки агентов на основе разных моделей, которые динамически планируют действия и работают над подзадачами.