Вчера обновился лидерборд SWE-ReBench, с добавлением 51 свежей задачи за октябрь. Для тех кто не следит, напомню, что ребята берут свежие PR из Python-репозиториев, подходящих под некоторые критерии, и прогоняют на них простого агента с разными моделями под капотом. Первенство остаётся за Sonnet 4.5, который слегка отрывается от GPT-5-medium / Codex в доле решаемых с первого раза задач, но существенно отрывается, если моделям давать по 5 независимых попыток и выбирать лучшую: 57% против 49 и 47% у моделей OpenAI. И даже от Sonnet 4 отрыв тоже 10%. При этом авторы гоняют бенчмарк на Sonnet 4.5 без рассуждений... но модель всё равно тратит больше токенов чем gpt-5 medium / high. Мне кажется это результат того, что используемый агент (инструменты + промпты) чуть больше отличаются для естественных у моделей OpenAI, чем у Anthropic: OpenAI рекомендует использовать модели так, чтобы им были доступны предыдущие рассуждения в рамках цепочки вызова инструментов, и сейчас на бенчмарке это выбрасывается. Очень жду, что авторы добавят хотя бы два агента, Claude Code и Codex, и протестируют с ними релевантные модели — было бы интересно увидеть гэп. Он точно есть, см. вот этот бенчмарк от Vercel (там агент авторов даёт 32% для Claude Sonnet 4 / 4.5, но 42% с Claude Code). Вангую, что и тут у моделей обеих компаний качество ощутимо подскочит, но какая будет лучше — хз, наверное, Anthropic. К другим инсайтам: — MiniMax M2 «самая экономически эффективная открытая модель из топа», но это на бумаге. Формально она стоит $0.255 / $1.02 против $1.25 / $10.00 за GPT-5 / Codex. Но OpenAI имеют кэширование промптов, которое предназначено как раз для длинных агентских сессий, состоящих из большого количества последовательных шагов. Вы платите на 90% меньше за входные токены, если они уже были обработаны. И по итогу цена за одно решение у M2 $0.44, а у Codex — $0.51. А разница в качестве 25% 🎃 При этом вместе с добавлением GPT-5.1 в API вчера OpenAI расширили кэш с 5-10 минут до 24 часов (за ту же цену, правда будет чуть медленее), так что вообще шик. — Если брать срез в 100 последних задач, то GPT-OSS 120b хоть и существенно отстаёт от фронтира (26.1% vs 44.4%), но... умудряется обгонять: DeepSeek-V3.1, Qwen3-235B, gpt-4.1, o4-mini, gemini-2.5-pro, и это при том, что она стоит 4 цента за задачу — самая дешёвая из всех, от некоторых из указанных моделей отрывается на порядок. Хорошая агентская модель для бейзлайна, получается. Grok Code Fast 1 мог с ней потягаться, за сентябрь у него была такая же цена и +- качество), но авторы не замерили модели xAI в октябре.
Вчера обновился лидерборд SWE-ReBench, с добавлением 51 свежей задачи за…
Из этого канала
- #3092Это чтоб вы понимали, насколько она большая! (Starship Superheavy, конечно,…
Это чтоб вы понимали, насколько она большая! (Starship Superheavy, конечно, больше) Из интересного — прочитал, что New Glenn сразу после посадки приваривает…
- #3093Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds Увидел…
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds Увидел статью у Андрея @datastorieslanguages и не понял, почему о ней так мало говорят.
- #3094Модель — без дообучения и изменений — смогла даже в Wukong поиграть, но тут…
Модель — без дообучения и изменений — смогла даже в Wukong поиграть, но тут из-за разницы графики и уж совсем нетипичности геймплея забуксовала, и ощутимого…
- #3090Не перестает удивлять и где-то даже шокировать отношение инженеров к своему…
Не перестает удивлять и где-то даже шокировать отношение инженеров к своему труду и современным инструментам. Случай из практики.
- #3089Схема атаки и её отдельных шагов.
Схема атаки и её отдельных шагов.