V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and… — @gonzo_ML

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning __Mahmoud Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas__ Статья: https://arxiv.org/abs/2506.09985 Пост: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ Код: https://github.com/facebookresearch/vjepa2 Давно надо написать про V-JEPA 2, новую версию V-JEPA, варианта JEPA (https://t.me/gonzo_ML/3501), работающего с видео. Напомню, что это self-supervised подход к построению модели мира на основе видео (в случае V-JEPA). В текущей статье модель отскейлили и обучили на видео реального мира (миллион часов интернет видео), заалайнили с LLM’кой для понимания языка, и дообучили на неразмеченных взаимодействиях робота с миром (62 часа видео). В основе V-JEPA 2 лежит поэтапная процедура обучения, которая сначала строит общую модель мира на основе наблюдений, а затем дорабатывает её для планирования, обусловленного действиями. 🌐 Этап 1: Self-supervised предобучение на большом датасете из веба На первом этапе основное внимание уделяется выучиванию надёжного визуального представления мира. Философия JEPA в том, что модели должны учиться, предсказывая недостающую информацию в абстрактном латентном пространстве представлений, а не восстанавливая каждый пиксель (как, например, делают автоэнкодеры). Предсказывая в абстрактном пространстве признаков, JEPA учится выявлять высокоуровневые, предсказуемые концепции (например, будущее положение объекта), игнорируя при этом непредсказуемые, «шумные» детали на уровне пикселей (например, точную текстуру травы или блики света на поверхности). Это делает выученные представления более надёжными и эффективными для последующих задач, таких как планирование, поскольку модель не обременена необходимостью генерировать фотореалистичные детали. По мысли Лекуна, это ключевой шаг к моделям, обладающим своего рода здравым смыслом о том, как устроен мир. Модель состоит из энкодера Vision Transformer (ViT, https://t.me/gonzo_ML/434) E_θ и следующего за ним предиктора P_ϕ (ViT-s, поменьше, 22M). Во время обучения на вход модели подаётся видеоклип с маскированными частями. Задача предиктора — заполнить (латентные) представления замаскированных частей. Минимизируется L1 лосс разницы между предсказанными представлениями для замаскированных токенов и их реальными энкодингами через энкодер (EMA от обучаемого энкодера). В процессе используются позиционные энкодинги 3D-RoPE (время, высота, ширина) и видео разбивается на последовательность tubelets 2 × 16 × 16 (T × H × W). Авторы выделили четыре ключевых ингредиента скейлинга: 1. Масштабирование данных: Датасет для предобучения VideoMix22M (VM22M) объединяет несколько общедоступных источников с видео и картинками (SSv2, Kinetics, HowTo100M, ImageNet) с отобранной версией YT-Temporal-1B, общим объёмом более 1 миллиона часов видео. В терминах количества видео увеличили с 2 миллионов до 22. 2. Масштабирование модели: Архитектура энкодера была увеличена с 300 млн (ViT-L) до более чем 1 млрд параметров (ViT-g). 3. Более длительное обучение: Процесс обучения был значительно продлён с 90 тыс до 252 тыс итераций. Используется warmup-constant-decay learning rate schedule. 4. Эффективное обучение с прогрессивным разрешением: Для снижения вычислительных затрат при обучении на длинных видео высокого разрешения авторы использовали прогрессивную стратегию. Обучение начинается с коротких видео низкого разрешения (16 кадров 256×256) во время warmup и constant фаз, и длина с разрешением увеличиваются (до 64 кадров 384×384) только на заключительном этапе (decay фаза), что позволило сократить время использования GPU в 8.4 раза.

Из этого канала