Vals.ai успели протестировать Fable 5 на ProgramBench до отключения. Они заметили странное — несмотря на то, что в 199 задачах из 200 уже на первом ходу система перекинула модель на Opus 4.8 из соображений безопасности, итоговая оценка получилась почти в два раза выше Opus. Более того, модель генерировала в два раза больше токенов и заняло это в два раза больше времени. Почему так вышло и что именно происходит под капотом — не ясно. Есть несколько теорий: — Во время перекидывания на Opus был активен более высокий внутренний режим рассуждений, недоступный извне — Opus 4.8 незаметно улучшился с момента последнего тестирования. — Перенаправление идет на каку-то другую внутреннюю версию Opus 4.8. — Fable всё равно писал первый ответ (и мб писал какой-то крутой план), а только после этого происходила смена на Opus. — Есть какой-то баг на стороне Anthropic 🤷♂️ Метрика на картинке — доля задач, которые «почти решены», то есть для которых проходит 95%+ тестов.
Vals.ai успели протестировать Fable 5 на ProgramBench до отключения. Они…
Из этого канала
- #3719DeepSeek привлекают $7.4B при оценке в ~$50B — так что появятся деньги на…
DeepSeek привлекают $7.4B при оценке в ~$50B — так что появятся деньги на мощности (и контрабанду чипов 😀 пока Huawei не развернётся).
- #3717В Вашингтоне утро, сегодня начнутся переговоры Anthropic и USG. В новостях…
В Вашингтоне утро, сегодня начнутся переговоры Anthropic и USG. В новостях пишут, что от Anthropic приехали несколько исследователей, включая Tom Brown (первый…
- #3713Вот тут пишут, что OpenAI запустили рекламу с креативными идеями…
Вот тут пишут, что OpenAI запустили рекламу с креативными идеями сгенерированных картинок.
- #3712Теперь дополнительный контекст к новости: — Amazon крупный инвестор и партнёр…
Теперь дополнительный контекст к новости: — Amazon крупный инвестор и партнёр Anthropic.