gonzo-обзоры ML статей@gonzo_ML· 24 246 subs

А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от…

28 июн. 2025 г.5 485 views15 forwardsОткрыть в Telegram →

А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от автомата, постредактирование от авторов статьи! :)

Источник

https://t.me/gonzo_ML/3753

Канал gonzo-обзоры ML статей · опубликовано 28 июн. 2025 г.

Из этого канала

#3754"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement…
"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement learning Authors: G F Subbotin, D I Sorokin, M R Nurgaliev, A A Granovskiy, I P…
#3755"Авторы формулируют задачу управления плазмой как частично наблюдаемый…
"Авторы формулируют задачу управления плазмой как частично наблюдаемый марковский процесс принятия решений (POMDP).
#3756Однако авторы упоминают и о существующих ограничениях. Качество работы…
Однако авторы упоминают и о существующих ограничениях. Качество работы RL-контроллера ограничено разрывом между симуляцией и реальностью, который проявился в…
#3752Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на…
Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на архитектуре DeepSeekMoE.
#3748Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B,…
Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B, MoE 13B/80B. Бенчмарки заявлены на уровне o1 конца того года и первого R1.