Cursor написали в своём блоге о том, как отслеживают качество моделей в написании кода. Они используют гибридный онлайн-офлайн процесс. Оффлайн — это обычный бенчмарк на внутреннем наборе тестов, основанном на сессиях работы инженеров компании. В среднем решение требует гораздо больше строк кода в решении, нежели публичные бенчмарки: изменение 352 строк в ~8 файлах. Сравнение с другими бенчмарками приведено на второй картинке — откуда также видно, что входное описание куда короче других бенчмарков, то есть в промпте не прописывают каждую маленькую деталь (но детали прописаны в рубрике для автоматической проверки). Онлайн-часть — это контролируемый анализ на реальном живом трафике. Такие онлайн-оценки помогают выявлять регрессии, например, когда результат работы агента выглядит правильным для проверяющего, но воспринимается хуже самим разработчиком, использующим продукт. Онлайн-оценка позволяет измерить, действительно ли улучшения помогают разработчикам на практике. Cursor отслеживают набор высокоуровневых прокси-метрик (косвенных показателей) результативности агента на основе действий пользователя. Онлайн и офлайн бенчмарк очень скоррелированы и имеют одинаковое ранжирование моделей (третья картинка) — в топе GPT-5.4, чуть ниже Opus 4.6 на уровне с GPT-5.2, а собственная модель компании Composer 1.5 обходит Sonnet 4.5 (при том что она гораздо быстрее за счёт инференса на чипах Cerebras). Приятно удивлён, что пользователи Cursor так высоко оценивают модели OpenAI — но ещё здорово и то, что они требуют меньше токенов для решения задач. Задачи CursorBench решаются в рамках одной сессии, но компания ожидает, что в течение следующего года подавляющее большинство задач по разработке будет передано агентам с длинным горизонтом планирования, работающим на своих собственных мощностях где-то в облаке — и бенчмарк придётся адаптировать к этому.
Cursor написали в своём блоге о том, как отслеживают качество моделей в…
Из этого канала
- #3459Смотрим-слушаем про токеномику и гигаватты в свежем интервью Dwarkesh:…
Смотрим-слушаем про токеномику и гигаватты в свежем интервью Dwarkesh: https://www.youtube.com/watch?v=mDGHx3BSUE Какие темы обсудят: 00:00:00 – Почему H100…
- #3460Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых…
Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых видеокарт не представят (да и скоро ждать не стоит 😭), зато показали новую железку,…
- #3466OpenAI впервые с августа обновила свои мини- и нано- модели. Все мы знаем для…
OpenAI впервые с августа обновила свои мини- и нано- модели. Все мы знаем для чего sus 🤨
- #3455Как пример изменения потребления электричества (а значит и систем охлаждения, и…
Как пример изменения потребления электричества (а значит и систем охлаждения, и всей сети в ДЦ) — в поколении Vera Rubin Nvidia будет предоставлять серверные…
- #3454В последнее время много слухов про Stargate и вычислительные мощности OpenAI —…
В последнее время много слухов про Stargate и вычислительные мощности OpenAI — от «Oracle и OpenAI отказались от планов расширения дата-центра в Техасе» (на…