Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer и Gemma 3n? А теперь работа от Нвидии про SSM-гибрид с длинным контекстом для ризонинга. Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs __Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov__ Статья: https://arxiv.org/abs/2511.16664 Модель: https://huggingface.co/nvidia/Nemotron-Elastic-12B Ревью: https://arxiviq.substack.com/p/nemotron-elastic-towards-efficient # TL;DR ЧТО сделали? Авторы представляют Nemotron Elastic — фреймворк для обучения одной «родительской» LLM (12B), внутри весов которой живут полноценные, высокопроизводительные «дочерние» подсети (9B и 6B). Объединяя State Space Models (Mamba) с Attention в гибридной архитектуре, они используют пайплайн на базе curriculum learning и дифференцируемый роутер для одновременной оптимизации нескольких размеров моделей под задачи на рассуждение. ЗАЧЕМ это нужно? Обучение семейств моделей (например, 8B, 70B, 405B) обычно требует независимых и безумно дорогих запусков для каждого размера. Nemotron Elastic сокращает расход токенов более чем в 360 раз по сравнению с обучением с нуля и в 7 раз по сравнению с SOTA методами сжатия вроде Minitron-SSM (https://arxiv.org/abs/2504.11409). Кроме того, решается проблема сохранения способностей к рассуждению на длинном контексте в сжатых моделях, что позволяет деплоить формат «много-в-одном» (many-in-one), где один слепок памяти обслуживает динамические требования по латентности. Подробнее: https://t.me/gonzo_ML_podcasts/1441
Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer…
Из этого канала
- #4266Эволюция residual connections — не держим единый residual стрим, потому что там…
Эволюция residual connections — не держим единый residual стрим, потому что там накапливается шум, а разбиваем каналы входного сигнала на группы и постепенно…
- #4269Извинити )) [А Васе Ложкину отдельный респект]
Извинити )) [А Васе Ложкину отдельный респект]
- #4271Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards.…
Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей.
- #4262Ну вы поняли...
Ну вы поняли...
- #4261Прикольная работа про AI агентов-исследователей. Очень жизненная, на людей всё…
Прикольная работа про AI агентов-исследователей. Очень жизненная, на людей всё то же вполне переносится.