Интересная работа про мультимодальные модели с единым бэкбоном. Если их правильно обучать, то всё работает. И снова очень хорош MoE. Beyond Language Modeling: An Exploration of Multimodal Pretraining __Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie__ Статья: https://arxiv.org/abs/2603.03276 Ревью: https://arxiviq.substack.com/p/beyond-language-modeling-an-exploration Сайт: https://beyond-llms.github.io/ # TL;DR ЧТО сделали: Исследователи из FAIR и NYU провели контролируемое эмпирическое исследование унифицированного мультимодального предобучения с нуля. Объединив предсказание следующего дискретного токена для текста и непрерывный flow matching для зрения в одной архитектуре, они систематически изолировали переменные, управляющие мультимодальным обучением. Они показали, что единый автоэнкодер репрезентаций (Representation Autoencoder, RAE) отлично справляется и с пониманием, и с генерацией, а архитектура Mixture-of-Experts (MoE) естественно решает проблему асимметрии скейлинга между текстом и картинками. ПОЧЕМУ это важно: Сейчас доминирует подход, при котором визуальные адаптеры просто прикручивают к замороженным языковым моделям. Эта парадигма смешивает новые мультимодальные способности с унаследованными текстовыми прайорами. Обучив модель с нуля, авторы этой работы картировали нативные законы скейлинга для унифицированных моделей. Они доказали, что конкуренция между модальностями — это по большей части архитектурный артефакт, а не фундаментальный недостаток. Заодно показали, что способности к world modeling (например, навигация в среде по текстовым командам в свободной форме) появляются в zero-shot режиме исключительно за счёт общего мультимодального предобучения. Сливать модальности тут: https://t.me/gonzo_ML_podcasts/2718
Интересная работа про мультимодальные модели с единым бэкбоном. Если их…
Из этого канала
- #4918"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы…
"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы FlashAttention-4.
- #4925Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз…
Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз от китайцев.
- #4930Свежего Пенроуза вам в ленту. С Тегмарком. К Пенроузу можно относиться…
Свежего Пенроуза вам в ленту. С Тегмарком. К Пенроузу можно относиться по-разному, но как пища для ума он точно хорош.
- #4907Интересная работа конца того года. MLP внутри себя выучивает MoE (а также…
Интересная работа конца того года. MLP внутри себя выучивает MoE (а также привет гипотезе лотерейного билета!).
- #4902Монстрический Tri Dao и ко предложили спекулятивное декодирование второго…
Монстрический Tri Dao и ко предложили спекулятивное декодирование второго порядка :) В обычном SD быстрая драфт модель генерила токены, а нормальная тяжёлая…