gonzo-обзоры ML статей@gonzo_ML· 24 246 subs

Ещё из интересного. Подоспел новый график от METR про длительность задач,…

21 февр. 2026 г.3 919 views35 forwardsОткрыть в Telegram →

Ещё из интересного. Подоспел новый график от METR про длительность задач, которые могут выполнять агенты. Claude Opus 4.6 имеет 50%-time-horizon в районе 14.5 часов (а 95% доверительный интервал от 6 часов до 98). Это пока максимальное зарегистрированное значение, но измерение шумное из-за насыщения текущего пакета бенчмарков. Надо сказать, мы довольно быстро подошли к точке, когда агент может работать уже практически полный рабочий день или даже больше. https://x.com/METR_Evals/status/2024923422867030027

Источник

https://t.me/gonzo_ML/4817

Канал gonzo-обзоры ML статей · опубликовано 21 февр. 2026 г.

Из этого канала