"На Google I/O connect не анонсировали, но сделали это сейчас -- полный релиз Gemma 3n, модель на основе матрёшечного трансформера (MatFormer), которая и так маленькая, но можно ещё и практически произвольные размеры из неё ""выжимать"" (между 2B и 4B). С крутыми аудио и картиночными энкодерами. https://goo.gle/45EaFch Результатами на LMArena нынче никого не удивишь, но блин для такого размера это круто."
"На Google I/O connect не анонсировали, но сделали это сейчас -- полный релиз…
Из этого канала
- #3746Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская…
Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская версия тут. И видеоразбор до кучи.
- #3748Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B,…
Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B, MoE 13B/80B. Бенчмарки заявлены на уровне o1 конца того года и первого R1.
- #3752Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на…
Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на архитектуре DeepSeekMoE.
- #3742Назревает альтернатива дистилляции. Вместо того чтобы обучаться на аутпутах…
Назревает альтернатива дистилляции. Вместо того чтобы обучаться на аутпутах учителей, надо RL-ом обучать учителей давать более полезные объяснения.
- #3730🤔 Ограничения и будущие направления Авторы откровенно говорят о текущих…
🤔 Ограничения и будущие направления Авторы откровенно говорят о текущих ограничениях.