METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач.… — @seeallochnaya

METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач. Как и ожидалось (по таймлайну, экстраполируя данные), модель сломала бенчмарк 👨‍🦳 в нём очень мало задач, требующих 16 и более часов работы человека, поэтому конкретную цифру дать сложно — сами METR пишут «не менее 16 часов» (Opus 4.6 был 12 часов) для 50% вероятности успеха. Для 80% — 3 часа (против полутора у Gemini 3.1 Pro). METR давно говорят, что работают над новым набором более длинных задач, но как вы понимаете клепать по 5 50-часовых задач в неделю просто не получится. А даже если такие задачи набрать — то всего лишь два удвоения (16->32->64) — и снова упрёмся в ту же проблему. И с текущим трендом такое произойдет всего за ~200 дней.

Из этого канала