ресечим/делаем (c) AI@researchim· 1 565 subs

The Art of Efficient Reasoning: Data, Reward, and Optimization…

25 февр. 2026 г.0 viewsОткрыть в Telegram →

The Art of Efficient Reasoning: Data, Reward, and Optimization https://arxiv.org/abs/2602.20945 https://www.alphaxiv.org/ru/overview/2602.20945

Источник

https://t.me/researchim/6171

Канал ресечим/делаем (c) AI · опубликовано 25 февр. 2026 г.

Из этого канала

#6172LocoOperator-4B is a 4B-parameter tool-calling agent model trained via…
LocoOperator-4B is a 4B-parameter tool-calling agent model trained via knowledge distillation from Qwen3-Coder-Next inference traces.
#6174квены забираем https://huggingface.co/Qwen/Qwen3.5-27B…
квены забираем https://huggingface.co/Qwen/Qwen3.5-27B https://huggingface.co/Qwen/Qwen3.5-35B-A3B
#6175кстати подключил в zed через lmstudio qwen 3.5 35b вроде неплохо пока
кстати подключил в zed через lmstudio qwen 3.5 35b вроде неплохо пока
#6169LLMs Can Learn to Reason Via Off-Policy RL https://arxiv.org/abs/2602.19362…
LLMs Can Learn to Reason Via Off-Policy RL https://arxiv.org/abs/2602.19362 https://www.alphaxiv.org/ru/overview/2602.19362
#6168On Data Engineering for Scaling LLM Terminal Capabilities…
On Data Engineering for Scaling LLM Terminal Capabilities https://arxiv.org/abs/2602.21193 https://www.alphaxiv.org/ru/overview/2602.21193…