"GLM 5.2 - чуть лучше GPT 5.5 в SWE-Marathon Как вам задача переписать… — @ai_driven

"GLM 5.2 - чуть лучше GPT 5.5 в SWE-Marathon Как вам задача переписать Kubernetes на Rust? Или создать копию Slack? Безумие - скажете вы? ""SWE-Marathon"" скажут ребята из Abundant. Бенмарк измеряет сразу несколько вещей: 1. Прежде всего, автономность - то есть возможно агента крутиться без пинков до решения задачи столько, сколько нужно. Размер задачи там 7.6M токенов в медиане и 877.4M в пределе. 2. Внимательность к контексту - на длительных задачах навык модели удерживать контекст, не теряя цели и детали крайне важен. 3. Агентность, т. е. способность грамотно применять tools use (function calling). 4. И... Честность. Да, да, каким-то моделям более свойственно читерить, каким-то менее - то есть, некоторые модели банально хакают тесты и подстраиваются под них (ну, вы и сами знаете). Модели в целом довольно ленивы, как правило, а некоторые еще и жульничают. Любопытно, кстати, что этот показатель зависит не только от модели, но и от обвязки (harness). Собсна, мне этот бенч особенно понравился, т. к. крупные автономные задачи на тысячи и десятки тысячи строк в моем воркфлоу - довольно типичная история, и это как раз про марафон. Спасибо Ибрагиму, что показ мне этот бенч у нас на недавнем стриме. Так вот, интересно, что новенькая GLM 5.2 там выбивает очень бодрые результаты на уровне GPT 5.5. Из неочевидного: токенов при этом выжирает почти в 8 раз больше, чем GPT 5.5, при том, что из топов жульничает меньше всех. Моделька открытая, т. е. потенциально организации могут такую мощь и в закрытом контуре развернуть. Ждем в ближайшее время на OpenCode Go и на Synthetic. __Напоследок, поворчу про бенч: вообще, такие задачи нужно как минимум в режиме `____/goal____` запускать, а по-хорошему на кастомном поэтапном флоу (а-ля ultracode только более контролируемом). Следов goal я paper не нашел, поэтому ____задал____ вопрос одному из авторов в X.__ Там, кстати, еще Kimi K2.7 Code - пробовал кто ее? В OpenCode Go вижу уже доступна. Бенчей нормальных они, к сожалению, не дали. И подключайтесь завтра в 12:00 МСК, 14:00 по Алматы на стрим с Иваном Закутным, будем говорить про ошибки Spec-Driven Development: https://youtube.com/live/N01bvw44P60?feature=share Бенчмарк SWE-Marathon, блогпост по GLM 5.2. @ai_driven | AI-Driven Development: Родион Мостовой."

Из этого канала