Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на минорное различие в версии, разница в качестве колоссальная. По классике дип лёнинга, правильный лосс и его применение многое решают! V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning __Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes__ Статья: https://arxiv.org/abs/2603.14482 Код и модели: https://github.com/facebookresearch/vjepa2 Ревью: https://arxiviq.substack.com/p/v-jepa-21-unlocking-dense-features # TL;DR ЧТО сделали: Авторы из FAIR представляют V-JEPA 2.1 — семейство vision-моделей на базе self-supervised learning, которое изящно объединяет репрезентации картинок и видео. Они расширили целевую функцию Joint-Embedding Predictive Architecture (JEPA), чтобы супервизия шла не только по замаскированным, но и по видимым токенам контекста (через лосс, взвешенный по расстоянию). Эту супервизию применили иерархически к промежуточным слоям энкодера, что заставило модель выучивать одновременно пространственно плотные (dense) и согласованные во времени фичи. ПОЧЕМУ это важно: Исторически в self-supervised vision моделях был жёсткий трейдофф. Модели для картинок отлично схватывают локальную геометрию (глубину, сегментацию), а видео-модели — глобальную динамику и движение. V-JEPA 2.1 решает эту проблему. Получается единый энкодер, выдающий SOTA результаты как на плотных статических задачах (монокулярная оценка глубины), так и на предиктивных видео-задачах (робототехника, предсказание коротких действий). Это критически важный шаг к надёжным world models для embodied AI. Для практиков: Теперь можно использовать одно замороженное пространство репрезентаций для оценки монокулярной глубины высокого разрешения, трекинга объектов во времени и предсказания кинематики. Это кардинально упрощает разработку пайплайнов для робототехники. Выделять фичи тут: https://t.me/gonzo_ML_podcasts/2846
Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на…
Из этого канала
- #5004Long live RNN! M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable…
Long live RNN! M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao…
- #5011Для разнообразия что-нибудь воскресное и не про ML. Вы первые, кто это видит :)…
Для разнообразия что-нибудь воскресное и не про ML. Вы первые, кто это видит :) Завтра новая неделя, и для тех, кому после тяжёлого трудового дня хочется всех…
- #5013Чтение на неделю: https://www.robonaissance.com/t/language-is-poison
Чтение на неделю: https://www.robonaissance.com/t/language-is-poison
- #4999Вчера не нашёл подходящей картинки, а сегодня нашёл. R.I.P.
Вчера не нашёл подходящей картинки, а сегодня нашёл. R.I.P.
- #4998Пост про RL для ризонинг моделей https://aweers.de/blog/2026/rl-for-llms/
Пост про RL для ризонинг моделей https://aweers.de/blog/2026/rl-for-llms/