"Ребята из Nebius наконец-то обновили RE-Bench и добавили кучу новых моделей + свежие задачи за январь. (картинка 1) В топе нос к носу идут Claude Opus 4.6 / Claude Code (с этой же моделью под капотом) и GPT-5.2. Последнюю тестировали с двумя настройками длины рассуждений, максимальным и средним, и результат там одинаковый, зато токенов можно сэкономить в два раза. Все 4 лидера статистически значимо не отличаются друг от друга в решении задачи с первого раза, но если давать по 5 попыток и засчитывать лучшую, то Claude Code тут очень сильно вырывается вперёд — решает 70.8% по сравнению с ~60% у других. Также замерили GPT-5.2-codex как модель и Codex как обёртку над ней — и получилось как-то грустно. Пока не вникал в причины того, почему так вышло 🤷♂️ легко могу представить что заточенная под Codex модель в других обёртках может чувствовать себя плохо и проседать, но почему так плохо в родной — загадка. И это на фоне того, что обычная GPT-5.2 на уровне Opus 4.6 (картинка 2) Ну а весь опенсурс находится сильно ниже, Kimi K2.5 почему-то ниже Kimi K2 Thinking. Все они и хуже, и не существенно дешевле, чем Gemini 3 Flash. Из интересного тут Qwen3-Coder-Next, супер маленькая модель от Alibaba c 3 миллиардами активных параметров — сидит межу MiniMax 2.5 и GLM-5 и обгоняет DeepSeek v3.2. Думаю, увидим с ней много экспериментов, статей и на многих задачах. (картинка 3) Если объединять результаты за декабрь и январь, то доверительные интервалы сузятся, так как оценка будет на 96 задачах — тогда на первом месте GPT-5.2-xhigh, которая стат. значимо обгоняет Claude Code / Opus 4.6. Это не означает что эта модель лучше (и уж тем более не означает ""лучше для всего""), но показывает, как плотно OpenAI догнали Anthropic в гонке за кодинг. Ещё бы что-то с текстами сделать, дотянувшись до уровня Gemini 3, и можно снова Небесный мандат забрать."
"Ребята из Nebius наконец-то обновили RE-Bench и добавили кучу новых моделей +…
Из этого канала
- #3381⚡️FAA одобрили возврат второй ступени Starship в место старта (В документах это…
⚡️FAA одобрили возврат второй ступени Starship в место старта (В документах это называется RTLS - Return To Launch Site) Теперь SpaceX имеет право делать это…
- #3382https://www.youtube.com/watch?v=n1E9IZfvGMA 00:00:00 - What exactly are we…
https://www.youtube.com/watch?v=n1E9IZfvGMA 00:00:00 - What exactly are we scaling? 00:12:36 - Is diffusion cope? 00:29:42 - Is continual learning necessary?…
- #3383AI, очевидно, хайп и пузырь, и особенно это видно по заявлениям CEO…
AI, очевидно, хайп и пузырь, и особенно это видно по заявлениям CEO наживающихся на этом компаний вроде OpenAI.
- #3377Для сравнения с моделями, размер которых известен — вот документация Cerebras.…
Для сравнения с моделями, размер которых известен — вот документация Cerebras. 1000 токенов в секунду они выдают у GLM-4.7, общий размер которой 355 миллиардов…
- #3375https://openai.com/index/introducing-gpt-5-3-codex-spark/ GPT-5.3 в чипы…
https://openai.com/index/introducing-gpt-5-3-codex-spark/ GPT-5.3 в чипы Cerebras не влезла, поэтому вместо неё маленькая версия GPT‑5.3-Codex-Spark.