Один из интересных графиков в статье с анализом поведениям моделей авторами статей. GPT думает гораздо больше перед тем, как начать писать какой-либо код. (Однако это может быть артефактом и обосновано тем, что модель заканчивает раньше из-за плохой обёртки, поэтому процент по оси OX посчитан по гораздо меньшему количеству шагов)
Один из интересных графиков в статье с анализом поведениям моделей авторами…
Из этого канала
- #3609МАСК — ВСЁ! Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro…
МАСК — ВСЁ! Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.
- #3610Как ProgramBench помогает понять, куда движется индустрия через год-полтора. В…
Как ProgramBench помогает понять, куда движется индустрия через год-полтора. В комментариях под постом про бенчмарк получилось обсуждение, приведу пару цитат…
- #3611METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач.…
METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач. Как и ожидалось (по таймлайну, экстраполируя данные), модель сломала бенчмарк…
- #3605Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть…
Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть вопросы к тому, как авторы замерили бейзлайн.
- #3604Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на…
Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+.