Очередная новая JEPA, теперь vision-language. VL-JEPA: Joint Embedding… — @gonzo_ML

Очередная новая JEPA, теперь vision-language. VL-JEPA: Joint Embedding Predictive Architecture for Vision-language Delong Chen, Mustafa Shukor, Théo Moutakanni, Willy Chung, Jade Yu, Tejaswi Kasarla, Allen Bolourchi, Yann LeCun, Pascale Fung Статья: https://arxiv.org/abs/2512.10942 Ревью: https://arxiviq.substack.com/p/vl-jepa-joint-embedding-predictive # TL;DR ЧТО сделали: Представили VL-JEPA — неавторегрессионную визуально-языковую модель, которая предсказывает непрерывные текстовые эмбеддинги вместо дискретных токенов. Используя архитектуру Joint Embedding Predictive Architecture (JEPA), модель выравнивает визуальные входы и текстовые запросы непосредственно в латентном пространстве представлений. Текстовый декодер вызывается только в тот момент, когда строго необходим читаемый вывод. ПОЧЕМУ это важно: Архитектура развязывает семантическое рассуждение и синтаксическую генерацию. Это позволяет сократить количество операций декодирования в 2.85 раза в задачах потокового видео за счет механизма «селективного декодирования». В контролируемых условиях модель обходит стандартные токен-генерирующие VLM сопоставимого размера. Теоретически работа подтверждает переход к подходу «World Model» Яна ЛеКуна в мультимодальном домене, доказывая, что обучение (supervision) в абстрактном пространстве эмбеддингов более эффективно по данным (sample-efficient), чем реконструкция в пространстве пикселей. Подробнее: https://t.me/gonzo_ML_podcasts/1785

Из этого канала