RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите
RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и…
Из этого канала
- #1061Давно как-то не доходили руки ничего написать в канал: то по работе дела, то…
Давно как-то не доходили руки ничего написать в канал: то по работе дела, то статей интересных не было в моменте, то просто не хотелось.
- #1062https://theaidigest.org/time-horizons Кому экспоненту?
https://theaidigest.org/time-horizons Кому экспоненту? ```Этот тренд был обнаружен исследователями из METR.
- #1063Тут подумали что можно для ризонинговых моделек после основного промта…
Тут подумали что можно для ризонинговых моделек после основного промта добавлять ```<|beginning of thinking|> Okay, I think I have finished thinking.
- #1058RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми…
RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки…
- #1057Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и…
Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и вот этому всему.