"Ребята из Nebius наконец-то обновили RE-Bench и добавили кучу новых моделей +… — @seeallochnaya

"Ребята из Nebius наконец-то обновили RE-Bench и добавили кучу новых моделей + свежие задачи за январь. (картинка 1) В топе нос к носу идут Claude Opus 4.6 / Claude Code (с этой же моделью под капотом) и GPT-5.2. Последнюю тестировали с двумя настройками длины рассуждений, максимальным и средним, и результат там одинаковый, зато токенов можно сэкономить в два раза. Все 4 лидера статистически значимо не отличаются друг от друга в решении задачи с первого раза, но если давать по 5 попыток и засчитывать лучшую, то Claude Code тут очень сильно вырывается вперёд — решает 70.8% по сравнению с ~60% у других. Также замерили GPT-5.2-codex как модель и Codex как обёртку над ней — и получилось как-то грустно. Пока не вникал в причины того, почему так вышло 🤷‍♂️ легко могу представить что заточенная под Codex модель в других обёртках может чувствовать себя плохо и проседать, но почему так плохо в родной — загадка. И это на фоне того, что обычная GPT-5.2 на уровне Opus 4.6 (картинка 2) Ну а весь опенсурс находится сильно ниже, Kimi K2.5 почему-то ниже Kimi K2 Thinking. Все они и хуже, и не существенно дешевле, чем Gemini 3 Flash. Из интересного тут Qwen3-Coder-Next, супер маленькая модель от Alibaba c 3 миллиардами активных параметров — сидит межу MiniMax 2.5 и GLM-5 и обгоняет DeepSeek v3.2. Думаю, увидим с ней много экспериментов, статей и на многих задачах. (картинка 3) Если объединять результаты за декабрь и январь, то доверительные интервалы сузятся, так как оценка будет на 96 задачах — тогда на первом месте GPT-5.2-xhigh, которая стат. значимо обгоняет Claude Code / Opus 4.6. Это не означает что эта модель лучше (и уж тем более не означает ""лучше для всего""), но показывает, как плотно OpenAI догнали Anthropic в гонке за кодинг. Ещё бы что-то с текстами сделать, дотянувшись до уровня Gemini 3, и можно снова Небесный мандат забрать."

Из этого канала