И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и Terminus 2. В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для GPT-5.5 это вообще удвоило оценку (в статье указаны доверительные интервалы, и по ним выходит, что это стат. значимая разница). 😭 тем временем авторы ProgramBench до сих пор запускают mini-swe-agent и отказываются пробовать родные харнессы. Вообще не понимаю их логики, как можно было ни разу не прогнать хотя бы часть задач, чтобы убедиться, что нет большой разницы (она почти наверняка есть, но они-то думают, что нет).
И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле…
Из этого канала
- #3681Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие…
Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие несколько постов будут покороче.
- #3682"Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode (блог).…
"Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode (блог). Здесь большой упор сделан на то, может ли агент написать код, который мейнтейнер…
- #3687У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти…
У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти наверняка станет первым триллионером в мире 😇 В преддверии IPO команда подготовила…
- #3677"И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на…
"И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо…
- #3676В ChatGPT прокачали память — теперь она станет ещё более персонализированной.…
В ChatGPT прокачали память — теперь она станет ещё более персонализированной. Обновление уже доступно пользователям тарифов Plus и Pro в США, а в ближайшие…