Интересная работа про мультимодальные модели с единым бэкбоном. Если их правильно обучать, то всё работает. И снова очень хорош MoE. Beyond Language Modeling: An Exploration of Multimodal Pretraining __Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie__ Статья: https://arxiv.org/abs/2603.03276 Ревью: https://arxiviq.substack.com/p/beyond-language-modeling-an-exploration Сайт: https://beyond-llms.github.io/ # TL;DR ЧТО сделали: Исследователи из FAIR и NYU провели контролируемое эмпирическое исследование унифицированного мультимодального предобучения с нуля. Объединив предсказание следующего дискретного токена для текста и непрерывный flow matching для зрения в одной архитектуре, они систематически изолировали переменные, управляющие мультимодальным обучением. Они показали, что единый автоэнкодер репрезентаций (Representation Autoencoder, RAE) отлично справляется и с пониманием, и с генерацией, а архитектура Mixture-of-Experts (MoE) естественно решает проблему асимметрии скейлинга между текстом и картинками. ПОЧЕМУ это важно: Сейчас доминирует подход, при котором визуальные адаптеры просто прикручивают к замороженным языковым моделям. Эта парадигма смешивает новые мультимодальные способности с унаследованными текстовыми прайорами. Обучив модель с нуля, авторы этой работы картировали нативные законы скейлинга для унифицированных моделей. Они доказали, что конкуренция между модальностями — это по большей части архитектурный артефакт, а не фундаментальный недостаток. Заодно показали, что способности к world modeling (например, навигация в среде по текстовым командам в свободной форме) появляются в zero-shot режиме исключительно за счёт общего мультимодального предобучения. Сливать модальности тут: https://t.me/gonzo_ML_podcasts/2718