А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от автомата, постредактирование от авторов статьи! :)
А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от…
Из этого канала
- #3754"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement…
"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement learning Authors: G F Subbotin, D I Sorokin, M R Nurgaliev, A A Granovskiy, I P…
- #3755"Авторы формулируют задачу управления плазмой как частично наблюдаемый…
"Авторы формулируют задачу управления плазмой как частично наблюдаемый марковский процесс принятия решений (POMDP).
- #3756Однако авторы упоминают и о существующих ограничениях. Качество работы…
Однако авторы упоминают и о существующих ограничениях. Качество работы RL-контроллера ограничено разрывом между симуляцией и реальностью, который проявился в…
- #3752Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на…
Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на архитектуре DeepSeekMoE.
- #3748Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B,…
Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B, MoE 13B/80B. Бенчмарки заявлены на уровне o1 конца того года и первого R1.