Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская версия тут. И видеоразбор до кучи.
Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская…
Из этого канала
- #3748Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B,…
Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B, MoE 13B/80B. Бенчмарки заявлены на уровне o1 конца того года и первого R1.
- #3752Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на…
Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на архитектуре DeepSeekMoE.
- #3753А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от…
А сегодня гибридный пост про редкую здесь тему — RL для термояда! Драфт от автомата, постредактирование от авторов статьи! :)
- #3743"На Google I/O connect не анонсировали, но сделали это сейчас -- полный релиз…
"На Google I/O connect не анонсировали, но сделали это сейчас -- полный релиз Gemma 3n, модель на основе матрёшечного трансформера (MatFormer), которая и так…
- #3742Назревает альтернатива дистилляции. Вместо того чтобы обучаться на аутпутах…
Назревает альтернатива дистилляции. Вместо того чтобы обучаться на аутпутах учителей, надо RL-ом обучать учителей давать более полезные объяснения.