Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на архитектуре DeepSeekMoE. Про SSM написал Tri Dao: https://x.com/tri_dao/status/1938643149091692662?t=00YWpRkwl7afwhGHg1L1AQ&s=19
Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на…
Из этого канала
- #3753А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от…
А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от автомата, постредактирование от авторов статьи! :)
- #3754"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement…
"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement learning Authors: G F Subbotin, D I Sorokin, M R Nurgaliev, A A Granovskiy, I P…
- #3755"Авторы формулируют задачу управления плазмой как частично наблюдаемый…
"Авторы формулируют задачу управления плазмой как частично наблюдаемый марковский процесс принятия решений (POMDP).
- #3748Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B,…
Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B, MoE 13B/80B. Бенчмарки заявлены на уровне o1 конца того года и первого R1.
- #3746Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская…
Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская версия тут. И видеоразбор до кучи.