VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training https://arxiv.org/abs/2602.10693 https://www.alphaxiv.org/ru/overview/2602.10693 https://github.com/FloyedShen/VESPO
VESPO: Variational Sequence-Level Soft Policy Optimization for Stable…
0 viewsОткрыть в Telegram →
Из этого канала
- #6154с мюоном пока чот непонятное, оно вообще не сходится
с мюоном пока чот непонятное, оно вообще не сходится
- #6155magmaadamw еще тестить буду но оно сходится, вопрос в скорости и до чего…
magmaadamw еще тестить буду но оно сходится, вопрос в скорости и до чего опустится
- #6156https://github.com/vukrosic/muon-llm-research
https://github.com/vukrosic/muon-llm-research
- #6152ну и магмаадамв надо на сходимость вообще посмотреть
ну и магмаадамв надо на сходимость вообще посмотреть
- #6151сначала с обычным мюоном разберусь, потом его тоже добавлю)
сначала с обычным мюоном разберусь, потом его тоже добавлю)