Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B, MoE 13B/80B. Бенчмарки заявлены на уровне o1 конца того года и первого R1. https://x.com/TencentHunyuan/status/1938525874904801490?t=vC6nn9mH3zku4_CnNteiwg&s=19 GitHub: github.com/Tencent-Hunyuan Hugging Face: https://huggingface.co/tencent/Hunyuan-A13B-Instruct Tech report: https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf
Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B,…
Из этого канала
- #3752Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на…
Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на архитектуре DeepSeekMoE.
- #3753А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от…
А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от автомата, постредактирование от авторов статьи! :)
- #3754"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement…
"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement learning Authors: G F Subbotin, D I Sorokin, M R Nurgaliev, A A Granovskiy, I P…
- #3746Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская…
Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская версия тут. И видеоразбор до кучи.
- #3743"На Google I/O connect не анонсировали, но сделали это сейчас -- полный релиз…
"На Google I/O connect не анонсировали, но сделали это сейчас -- полный релиз Gemma 3n, модель на основе матрёшечного трансформера (MatFormer), которая и так…