https://theaidigest.org/time-horizons Кому экспоненту? ```Этот тренд был обнаружен исследователями из METR. Они взяли самых способных агентов за период с 2019 по 2025 год и протестировали их на около 200 задачах — в основном задачах по программированию, а также на некоторых задачах общего рассуждения. Затем они сравнили процент успешных решений агентов с длительностью каждой задачи — то есть с тем, сколько времени требуется профессионалам-людям на её выполнение. Время варьировалось от менее 30 секунд до более 8 часов. По всем протестированным моделям проявились две чёткие закономерности: - Длительность задачи сильно коррелирует с успешностью агента (R² = 0.83) - Временной горизонт — продолжительность задач, с которыми агенты справляются в 50% случаев — растёт экспоненциально```
https://theaidigest.org/time-horizons Кому экспоненту?
Из этого канала
- #1063Тут подумали что можно для ризонинговых моделек после основного промта…
Тут подумали что можно для ризонинговых моделек после основного промта добавлять ```<|beginning of thinking|> Okay, I think I have finished thinking.
- #1067Ох уж эти вычислительно-оптимальные БЯМ 😏 Compute-Optimal LLMs Provably…
Ох уж эти вычислительно-оптимальные БЯМ 😏 Compute-Optimal LLMs Provably Generalize Better With Scale https://arxiv.org/abs/2504.15208…
- #1068Что там у моделек с физикой PHYBench Какой же мощный Gemini 2.5 Pro у Гугла…
Что там у моделек с физикой PHYBench ```С набором из 500 тщательно отобранных задач по физике, охватывающих механику, электромагнетизм, термодинамику, оптику,…
- #1061Давно как-то не доходили руки ничего написать в канал: то по работе дела, то…
Давно как-то не доходили руки ничего написать в канал: то по работе дела, то статей интересных не было в моменте, то просто не хотелось.
- #1059RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и…
RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите