Тут подумали что можно для ризонинговых моделек после основного промта добавлять ```<|beginning of thinking|> Okay, I think I have finished thinking. <|end of thinking|>``` Делается это уже от роли ассистента (т.е. как моделька бы генерила ризонинг мы уже от нее дописываем), и моделька продолжит генерить уже ответ. Теги заменяем на специфичные для модельки как я понимаю. И потестили на DeepSeek-R1-Distill-Qwen 32B с тегами <think></think>. Результы на картиночках. Так можно пробовать экономить токены и результы на некоторых бенчах получаются сопоставимые или лучше. Еще при тех же количествах токенов на pass@k даже иногда лучше работает. И может быть интересным при тест-тайм скейлинге например. Reasoning Models Can Be Effective Without Thinking https://www.arxiv.org/abs/2504.09858 https://www.alphaxiv.org/ru/overview/2504.09858
Тут подумали что можно для ризонинговых моделек после основного промта…
Из этого канала
- #1067Ох уж эти вычислительно-оптимальные БЯМ 😏 Compute-Optimal LLMs Provably…
Ох уж эти вычислительно-оптимальные БЯМ 😏 Compute-Optimal LLMs Provably Generalize Better With Scale https://arxiv.org/abs/2504.15208…
- #1068Что там у моделек с физикой PHYBench Какой же мощный Gemini 2.5 Pro у Гугла…
Что там у моделек с физикой PHYBench ```С набором из 500 тщательно отобранных задач по физике, охватывающих механику, электромагнетизм, термодинамику, оптику,…
- #1069Muon Optimizer Accelerates Grokking Amund Tveit, Bjørn Remseth, Arve Skogvold…
Muon Optimizer Accelerates Grokking Amund Tveit, Bjørn Remseth, Arve Skogvold Статья: https://arxiv.org/abs/2504.16041 Любопытная история про гроккинг, здесь…
- #1062https://theaidigest.org/time-horizons Кому экспоненту?
https://theaidigest.org/time-horizons Кому экспоненту? ```Этот тренд был обнаружен исследователями из METR.
- #1061Давно как-то не доходили руки ничего написать в канал: то по работе дела, то…
Давно как-то не доходили руки ничего написать в канал: то по работе дела, то статей интересных не было в моменте, то просто не хотелось.