Ох уж эти вычислительно-оптимальные БЯМ 😏 Compute-Optimal LLMs Provably Generalize Better With Scale https://arxiv.org/abs/2504.15208 https://www.alphaxiv.org/ru/overview/2504.15208
Ох уж эти вычислительно-оптимальные БЯМ 😏 Compute-Optimal LLMs Provably…
Из этого канала
- #1068Что там у моделек с физикой PHYBench Какой же мощный Gemini 2.5 Pro у Гугла…
Что там у моделек с физикой PHYBench ```С набором из 500 тщательно отобранных задач по физике, охватывающих механику, электромагнетизм, термодинамику, оптику,…
- #1069Muon Optimizer Accelerates Grokking Amund Tveit, Bjørn Remseth, Arve Skogvold…
Muon Optimizer Accelerates Grokking Amund Tveit, Bjørn Remseth, Arve Skogvold Статья: https://arxiv.org/abs/2504.16041 Любопытная история про гроккинг, здесь…
- #1071Ему кайфово
Ему кайфово
- #1063Тут подумали что можно для ризонинговых моделек после основного промта…
Тут подумали что можно для ризонинговых моделек после основного промта добавлять ```<|beginning of thinking|> Okay, I think I have finished thinking.
- #1062https://theaidigest.org/time-horizons Кому экспоненту?
https://theaidigest.org/time-horizons Кому экспоненту? ```Этот тренд был обнаружен исследователями из METR.