Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует. NVIDIA Nemotron 3: Efficient and Open Intelligence __NVIDIA (250+ contributors)__ Статья: https://arxiv.org/abs/2512.20856 Код: https://github.com/NVIDIA-NeMo/RL Модель: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3 (пока только Nano c тех.репортом, Super и Ultra обещают в ближайшие месяцы) Ревью: https://arxiviq.substack.com/p/nvidia-nemotron-3-efficient-and-open # TL;DR ЧТО сделали: Представили семейство моделей Nemotron 3 (Nano, Super, Ultra) на базе гибридной архитектуры Mamba-Transformer Mixture-of-Experts (MoE). Главные фишки: LatentMoE (роутинг со сжатием для экономии канала), нативное обучение в NVFP4 для крупных моделей и одновременное RL-обучение в нескольких средах. ПОЧЕМУ это важно: Это стратегический поворот от плотных (dense) гибридов к разреженным MoE ради скорости. Благодаря константному состоянию Mamba и аппаратно-эффективному LatentMoE модели держат контекст в 1M токенов и значительно обгоняют трансформеры по пропускной способности, а NVFP4 задаёт новый стандарт стабильности для обучения с низкой точностью. Подробнее: https://t.me/gonzo_ML_podcasts/1861
Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует.…
Из этого канала
- #4478Объединённый автоэнкодер придумали. Объенкодер. Странно, конечно, что раньше до…
Объединённый автоэнкодер придумали. Объенкодер. Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл.
- #4485"System 3 предлагают. Не за горами и System 4. Sophia: A Persistent Agent…
"System 3 предлагают. Не за горами и System 4. Sophia: A Persistent Agent Framework of Artificial Life Mingyang Sun, Feng Hong, Weinan Zhang Статья:…
- #4490Мои любимые гиперсети. Hypernetworks That Evolve Themselves Joachim Winther…
Мои любимые гиперсети. Hypernetworks That Evolve Themselves Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin…
- #4472Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на…
Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях.
- #4471Дело говорит. https://x.com/karpathy/status/2004607146781278521?s=20
Дело говорит. https://x.com/karpathy/status/2004607146781278521?s=20