Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует.… — @gonzo_ML

Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует. NVIDIA Nemotron 3: Efficient and Open Intelligence __NVIDIA (250+ contributors)__ Статья: https://arxiv.org/abs/2512.20856 Код: https://github.com/NVIDIA-NeMo/RL Модель: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3 (пока только Nano c тех.репортом, Super и Ultra обещают в ближайшие месяцы) Ревью: https://arxiviq.substack.com/p/nvidia-nemotron-3-efficient-and-open # TL;DR ЧТО сделали: Представили семейство моделей Nemotron 3 (Nano, Super, Ultra) на базе гибридной архитектуры Mamba-Transformer Mixture-of-Experts (MoE). Главные фишки: LatentMoE (роутинг со сжатием для экономии канала), нативное обучение в NVFP4 для крупных моделей и одновременное RL-обучение в нескольких средах. ПОЧЕМУ это важно: Это стратегический поворот от плотных (dense) гибридов к разреженным MoE ради скорости. Благодаря константному состоянию Mamba и аппаратно-эффективному LatentMoE модели держат контекст в 1M токенов и значительно обгоняют трансформеры по пропускной способности, а NVFP4 задаёт новый стандарт стабильности для обучения с низкой точностью. Подробнее: https://t.me/gonzo_ML_podcasts/1861

Из этого канала