Vals.ai успели протестировать Fable 5 на ProgramBench до отключения. Они… — @seeallochnaya

Vals.ai успели протестировать Fable 5 на ProgramBench до отключения. Они заметили странное — несмотря на то, что в 199 задачах из 200 уже на первом ходу система перекинула модель на Opus 4.8 из соображений безопасности, итоговая оценка получилась почти в два раза выше Opus. Более того, модель генерировала в два раза больше токенов и заняло это в два раза больше времени. Почему так вышло и что именно происходит под капотом — не ясно. Есть несколько теорий: — Во время перекидывания на Opus был активен более высокий внутренний режим рассуждений, недоступный извне — Opus 4.8 незаметно улучшился с момента последнего тестирования. — Перенаправление идет на каку-то другую внутреннюю версию Opus 4.8. — Fable всё равно писал первый ответ (и мб писал какой-то крутой план), а только после этого происходила смена на Opus. — Есть какой-то баг на стороне Anthropic 🤷‍♂️ Метрика на картинке — доля задач, которые «почти решены», то есть для которых проходит 95%+ тестов.

Из этого канала