Ребята из Nebius обновили SWE-rebench после двухмесячного перерыва, добавив 110 новых задач. В отличии от многих других бенчей, наконец-то добавляют запуски в Codex и Claude Code. Просто писать «GPT-5.5 в очередной раз статистически значимо лучше моделей Anthropic» не хотелось, но Ибрагим, первый автор статьи, добавил немного аналитики по эффективности. — GPT-5.5 medium выглядит заметно эффективнее, чем Opus 4.8 high (обе настройки — значения по умолчанию) — Opus 4.6 -> 4.8 стал более оптимизирован: больше решенных задач, на 45% меньше токенов на задачу и примерно на 39% ниже стоимость решения задачи. — Opus 4.8 high практически не превосходит Opus 4.7 high по качеству, но значительно дешевле в плане вычислительных ресурсов. Количество токенов на задачу снизилось с 1.5 млн до 1 млн, а среднее количество шагов уменьшилось с 44 до 34. — Полезной метрикой является pass^5. Здесь мы засчитываем задачу только в том случае, если она была решена во всех 5 независимых запусках. GPT-5.5 vs GPT-5.4 – 51 vs 39 задач, модель гораздо меньше полагается на «везение», что один раз получилось решить, другой нет. Для Opus это число практически одинаково во всех версиях модели. — опенсурс очень сильно отстаёт — Composer 2.5 от Cursor на этом наборе задач выглядит очень перспективно за счёт цены (см. колонку) — в 4 раза дешевле GPT-5.5 medium — ещё отмечу, что Claude получает гораздо больший прирост качества из-за использования родного скаффолда, в то время как GPT показывает +- тот же результат (хотя цена отличается в два раза, интересно почему). В целом думаю честно сказать, что модели OpenAI с появлением 5.5 перешли в новую эпоху. Если давно в программировании они отставали от Anthropic, и потом +- сравнялись, то теперь они часто обходят конкурентов (особенно если закрыть глаза на фронтенд).
Ребята из Nebius обновили SWE-rebench после двухмесячного перерыва, добавив 110…
Из этого канала
- #3669Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для…
Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для эпохи AI (я не шучу, в анонсе так и пишут, и даже «новая глава»).
- #3670Где-то полгода назад слышал от SemiAnalysis, что самые прибыльные компании в…
Где-то полгода назад слышал от SemiAnalysis, что самые прибыльные компании в мире сейчас в 2027-м году и далее могут стать или еле-еле прибыльными, или вообще…
- #3671Пару часов назад Anthropic рассказали, что расширяют Project Glasswing с 50 до…
Пару часов назад Anthropic рассказали, что расширяют Project Glasswing с 50 до 200 компаний (это те, кому будет доступен Mythos).
- #3666Для референса, 6й самый дорогой фильм в истории, Аватар 2, стоил $350M, а…
Для референса, 6й самый дорогой фильм в истории, Аватар 2, стоил $350M, а Мстители: Война бесконечности — $321M
- #3665Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый…
Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый мощный взрыв на Мысе Канаверал за десятки лет.