Ещё из интересного. Подоспел новый график от METR про длительность задач, которые могут выполнять агенты. Claude Opus 4.6 имеет 50%-time-horizon в районе 14.5 часов (а 95% доверительный интервал от 6 часов до 98). Это пока максимальное зарегистрированное значение, но измерение шумное из-за насыщения текущего пакета бенчмарков. Надо сказать, мы довольно быстро подошли к точке, когда агент может работать уже практически полный рабочий день или даже больше. https://x.com/METR_Evals/status/2024923422867030027
Ещё из интересного. Подоспел новый график от METR про длительность задач,…
Из этого канала
- #4818Надо думать, когда думать! Чтобы перейти от монолитных рассуждений к…
Надо думать, когда думать! Чтобы перейти от монолитных рассуждений к модулируемому предсказанию латентных концептов, авторы опираются на когнитивную теорию…
- #4826Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to…
Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to train your latents Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans…
- #4831Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к…
Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура,…
- #4816Интересное свежее интервью с Борисом Чёрным, создателем Claude Code…
Интересное свежее интервью с Борисом Чёрным, создателем Claude Code https://www.youtube.com/watch?v=We7BZVKbCVw Про то, что он о конца прошлого года не написал…
- #4807"Интересная тема про Теорию пространства. Вперёд к embodiment! Theory of Space:…
"Интересная тема про Теорию пространства. Вперёд к embodiment! Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?…