Cursor анонсировали новую модель собственного производства, Composer 2.5. Она… — @seeallochnaya

Cursor анонсировали новую модель собственного производства, Composer 2.5. Она базируется на Kimi 2.5 (как и Composer 2), но компания влила в модель в ~7 раз больше мощностей, чем авторы самой Kimi. Отчитались о качестве на 3 бенчмарках — везде существенно лучше Composer 2, и почти догоняет Opus 4.7. Самый главный бенчмарк тут наверное CursorBench v3.1, так как предположу, что он ближе всего к тому, что делают пользователи в их IDE с агентами. Если попробуете модель — пишите в комменты как вам. В анонсе важны три вещи. Во-первых, цена: поскольку компания сама разворачивает модель и никому не платит маржу, то Composer гораздо выгоднее (цена не поменялась с прошлой версии). Цены $0.5 и $2.5 за миллион токенов на входе и выходе (правда скидка на кэш всего 50%, а не по 90%, как у других). GPT-5.5 стоит 5/30 — более чем в 10 раз дороже. См. вторую картинку в посте для соотношения цена-качество. Это важно потому, что делает подписку Cursor привлекательной для корпоративных клиентов, которые уже начали ощущать на себе последствия ценовой политики Anthropic, заставляющих платить энтерпрайз по API-ценам. Во-вторых, Cursor написали, что уже тренируют (с нуля!) модель на в ~10 раз большем количестве мощностей на кластере SpaceXAI Colossus 2. Да, один кластер Elon Musk отдал Anthropic, а другой себе + Cursor, с которыми заключили сделку. Но даже для Composer 2.5 увеличили количество синтетических данных в 25 раз, и по другим осям тоже докинули — мощностей потребовалось не мало. В-третьих, в обучении модели использовали self-distillation. Я мб напишу позже разбор статей (в блоге ссылаются на 3), но если тезисно: одна и та же модель выступает и в роли учителя, и в роли ученика. Ученик генерирует ответы, и иногда ошибается (например, неправильно вызывает инструмент для редактирования кода или запуска тестов). Такой момент отлавливается, и затем та же модель с того же места получает подсказу или напоминание. Опираясь на них, учитель генерирует более качественное распределение вероятностей для следующих токенов. Ученик же видит только исходный запрос и учится предсказывать те же токены, минимизируя расхождение (KL-дивергенцию) с поведением учителя. См. картинку 3 в посте. Зачем это нужно? Проблема обычного подхода к обучению в том, что модель получает награду за всё решение, и либо всё — хорошо, либо всё — плохо. При этом даже неправильный шаг в правильном решении получает награду. Self-distillation позволяет точечно исправить это. Скорее всего в ближайшее время будем много слышать-читать про self-distillation, все подхватят и начнут использовать. А Cursor x SpaceXAI плавно идут к выпуску крупной модели Grok 5 / Composer 3.

Из этого канала