Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на минорное различие в версии, разница в качестве колоссальная. По классике дип лёнинга, правильный лосс и его применение многое решают! V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning __Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes__ Статья: https://arxiv.org/abs/2603.14482 Код и модели: https://github.com/facebookresearch/vjepa2 Ревью: https://arxiviq.substack.com/p/v-jepa-21-unlocking-dense-features # TL;DR ЧТО сделали: Авторы из FAIR представляют V-JEPA 2.1 — семейство vision-моделей на базе self-supervised learning, которое изящно объединяет репрезентации картинок и видео. Они расширили целевую функцию Joint-Embedding Predictive Architecture (JEPA), чтобы супервизия шла не только по замаскированным, но и по видимым токенам контекста (через лосс, взвешенный по расстоянию). Эту супервизию применили иерархически к промежуточным слоям энкодера, что заставило модель выучивать одновременно пространственно плотные (dense) и согласованные во времени фичи. ПОЧЕМУ это важно: Исторически в self-supervised vision моделях был жёсткий трейдофф. Модели для картинок отлично схватывают локальную геометрию (глубину, сегментацию), а видео-модели — глобальную динамику и движение. V-JEPA 2.1 решает эту проблему. Получается единый энкодер, выдающий SOTA результаты как на плотных статических задачах (монокулярная оценка глубины), так и на предиктивных видео-задачах (робототехника, предсказание коротких действий). Это критически важный шаг к надёжным world models для embodied AI. Для практиков: Теперь можно использовать одно замороженное пространство репрезентаций для оценки монокулярной глубины высокого разрешения, трекинга объектов во времени и предсказания кинематики. Это кардинально упрощает разработку пайплайнов для робототехники. Выделять фичи тут: https://t.me/gonzo_ML_podcasts/2846