Ещё из интересного. Подоспел новый график от METR про длительность задач, которые могут выполнять агенты. Claude Opus 4.6 имеет 50%-time-horizon в районе 14.5 часов (а 95% доверительный интервал от 6 часов до 98). Это пока максимальное зарегистрированное значение, но измерение шумное из-за насыщения текущего пакета бенчмарков. Надо сказать, мы довольно быстро подошли к точке, когда агент может работать уже практически полный рабочий день или даже больше. https://x.com/METR_Evals/status/2024923422867030027