ресечим/делаем (c) AI@researchim· 1 565 subs

Reinforcement Learning via Self-Distillation https://arxiv.org/abs/2601.20802…

31 янв. 2026 г.0 viewsОткрыть в Telegram →

Reinforcement Learning via Self-Distillation https://arxiv.org/abs/2601.20802 https://www.alphaxiv.org/ru/overview/2601.20802 https://github.com/lasgroup/SDPO

Источник

https://t.me/researchim/5865

Канал ресечим/делаем (c) AI · опубликовано 31 янв. 2026 г.

Из этого канала