Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже. Процитирую авторов: «GPT 5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам» 😏 Во-первых, появилась первая полностью решённая задача (из 200). Оба запуска GPT-5.5 решили её, при этом на двух разных языках, Python и C. Во-вторых, если брать не полностью решённые задачи, а те, где проходит 95% тестов (то есть выполнена почти вся функциональность), то разрыв ещё больше: GPT-5.5 xhigh может написать с нуля 13.5% программ, GPT 5.5 high 5%, Opus 4.7 xhigh 4.5%. Я не ожидал такой разницы. На второй картинке график доли задач, в которых проходит заданный процент тестов. Видно, как фронтир GPT-5.5 xhigh гораздо правее и выше, чем других моделей — то есть в целом модель закрывает сильно больше фичей в задачах. К сожалению, авторы так и не прогнали модели в Codex / Claude Code, не говоря уже про какой-то минимальный цикл работы до конца (аналог `/goal`), и я всё ещё ожидаю, что это повысит качество ещё больше. Что это значит для нас? Ждём к концу года агентов, которые будут выплёвывать по 100к строк кода на ваш промпт, и даже работать будет (на 95% 😂)
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю…
Из этого канала
- #3620😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор…
😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор Epoch.AI уже кинул клич, что им необходимо $600k или хотя бы $100k, чтобы…
- #3621"Появляется всё больше и больше историй от компаний, работающих и тестирующих…
"Появляется всё больше и больше историй от компаний, работающих и тестирующих Mythos.
- #3626...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер,…
...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер, так тут же новый пост от AISI.
- #3616"Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю…
"Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю разговоры на стриме из суда на YouTube, полностью послушал допрос Ilya Sutskever,…
- #3615Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень…
Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень сложных математических задачах около-исследовательского уровня (то есть…