METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач. Как и ожидалось (по таймлайну, экстраполируя данные), модель сломала бенчмарк 👨🦳 в нём очень мало задач, требующих 16 и более часов работы человека, поэтому конкретную цифру дать сложно — сами METR пишут «не менее 16 часов» (Opus 4.6 был 12 часов) для 50% вероятности успеха. Для 80% — 3 часа (против полутора у Gemini 3.1 Pro). METR давно говорят, что работают над новым набором более длинных задач, но как вы понимаете клепать по 5 50-часовых задач в неделю просто не получится. А даже если такие задачи набрать — то всего лишь два удвоения (16->32->64) — и снова упрёмся в ту же проблему. И с текущим трендом такое произойдет всего за ~200 дней.
METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач.…
Из этого канала
- #3612В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое: —…
В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое: — новый корабль версии v3 — новый ускоритель версии v3 — новая башня, вторая на…
- #3613🚀📸Красота
🚀📸Красота
- #3614Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство…
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то…
- #3610Как ProgramBench помогает понять, куда движется индустрия через год-полтора. В…
Как ProgramBench помогает понять, куда движется индустрия через год-полтора. В комментариях под постом про бенчмарк получилось обсуждение, приведу пару цитат…
- #3609МАСК — ВСЁ! Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro…
МАСК — ВСЁ! Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.