Очередная новая JEPA, теперь vision-language. VL-JEPA: Joint Embedding Predictive Architecture for Vision-language Delong Chen, Mustafa Shukor, Théo Moutakanni, Willy Chung, Jade Yu, Tejaswi Kasarla, Allen Bolourchi, Yann LeCun, Pascale Fung Статья: https://arxiv.org/abs/2512.10942 Ревью: https://arxiviq.substack.com/p/vl-jepa-joint-embedding-predictive # TL;DR ЧТО сделали: Представили VL-JEPA — неавторегрессионную визуально-языковую модель, которая предсказывает непрерывные текстовые эмбеддинги вместо дискретных токенов. Используя архитектуру Joint Embedding Predictive Architecture (JEPA), модель выравнивает визуальные входы и текстовые запросы непосредственно в латентном пространстве представлений. Текстовый декодер вызывается только в тот момент, когда строго необходим читаемый вывод. ПОЧЕМУ это важно: Архитектура развязывает семантическое рассуждение и синтаксическую генерацию. Это позволяет сократить количество операций декодирования в 2.85 раза в задачах потокового видео за счет механизма «селективного декодирования». В контролируемых условиях модель обходит стандартные токен-генерирующие VLM сопоставимого размера. Теоретически работа подтверждает переход к подходу «World Model» Яна ЛеКуна в мультимодальном домене, доказывая, что обучение (supervision) в абстрактном пространстве эмбеддингов более эффективно по данным (sample-efficient), чем реконструкция в пространстве пикселей. Подробнее: https://t.me/gonzo_ML_podcasts/1785
Очередная новая JEPA, теперь vision-language. VL-JEPA: Joint Embedding…
Из этого канала
- #4430Предлагаю ребрендинг – не АИ слоп, а эко-текст и не бездушная АИ-картинка - а…
Предлагаю ребрендинг – не АИ слоп, а эко-текст и не бездушная АИ-картинка - а эко-графика Потому что текст из LLM и генеративные АИ-картинки оставляют намного…
- #44322025 LLM Year in Review by Andrej Karpathy…
2025 LLM Year in Review by Andrej Karpathy https://karpathy.bearblog.dev/year-in-review-2025/
- #4433"В последние полгода происходит тотальная джепизация планеты. Вот свежая NEPA.…
"В последние полгода происходит тотальная джепизация планеты. Вот свежая NEPA. Next-Embedding Prediction Makes Strong Vision Learners Sihan Xu, Ziqiao Ma,…
- #4425Новый стартап Лекуна и Лебруна…
Новый стартап Лекуна и Лебруна https://techcrunch.com/2025/12/19/yann-lecun-confirms-his-new-world-model-startup-reportedly-seeks-5b-valuation/
- #4424Впрочем комикс тоже держите
Впрочем комикс тоже держите