Назревает альтернатива дистилляции. Вместо того чтобы обучаться на аутпутах учителей, надо RL-ом обучать учителей давать более полезные объяснения. Снова Sakana! https://t.me/gonzo_ML_podcasts/345
Назревает альтернатива дистилляции. Вместо того чтобы обучаться на аутпутах…
Из этого канала
- #3743"На Google I/O connect не анонсировали, но сделали это сейчас -- полный релиз…
"На Google I/O connect не анонсировали, но сделали это сейчас -- полный релиз Gemma 3n, модель на основе матрёшечного трансформера (MatFormer), которая и так…
- #3746Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская…
Ну и раз такое дело и Gemma 3n, бахнул разбор статьи про MatFormer. Английская версия тут. И видеоразбор до кучи.
- #3748Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B,…
Свежая новость про SSM'ки. Tencent выложил в опенсорс гибридную Hunyuan-A13B, MoE 13B/80B. Бенчмарки заявлены на уровне o1 конца того года и первого R1.
- #3730🤔 Ограничения и будущие направления Авторы откровенно говорят о текущих…
🤔 Ограничения и будущие направления Авторы откровенно говорят о текущих ограничениях.
- #37291. Этап 1: Предобучение экспертов. Эксперты предобучаются на небольшом,…
1. Этап 1: Предобучение экспертов. Эксперты предобучаются на небольшом, специально подобранном датасете `Dexperts` всего из 3000 с небольшим примеров.