Модель протестировали на понимание (в смысле understanding) через классификацию на основе проб, то есть обучая классификаторы поверх эмбеддингов разных энкодеров и сравнивая результаты. Обучались четырёхслойные сети поверх замороженных энкодеров. Были задачи про appearance understanding, когда можно классифицировать по одному кадру, а были и motion understanding, где нужно учитывать несколько кадров. Сравнивались с бейзлайнами в виде DINOv2 with registers (вроде как текущая self-supervised картиночная SoTA), SigLIP2 и Perception Encoder (эти SoTA на контрастном предобучении). Также сравнили с видео энкодерами V-JEPA и InternVideo2. V-JEPA 2 ViT-g очень хороша на motion understanding и в среднем у неё лучший результат по шести задачам. В предсказании (Probe-based Action Anticipation) на бенчмарке Epic-Kitchens-100 надо предсказать следующее действие по видео приготовления еды на кухне. Всего существует 3,568 уникальных меток действий, каждое включает именную и глагольную категории, 300 и 97 соответственно. Надо предсказать существительное, глагол и действие. Проба обучалась поверх замороженных энкодера и предиктора (он предсказывал будущий замаскированный кадр). В пробу отправлялся конкатенированный выход энкодера и предиктора. Модель побила предыдущую SoTA, получив 39.7 recall-at-5 для действий — улучшение на 44% по сравнению с предыдущей сотой. В ответах на вопросы по видео обучили мультимодальную LLM (MLLM) в стиле LLaVA с V-JEPA 2 в качестве видео-энкодера и LLM Qwen2-7B-Instruct. По сравнению с другими картиночными энкодерами (те же DINOv2, SigLIP2, PE) V-JEPA 2 лучше. Эксперимент по скейлингу показывает, что с ростом размера модели результат улучшается (и с размороженным энкодером он ещё лучше). А если ещё и данных добавить, то модель даёт новую SoTA в классе моделей до 8B параметров с результатом, например, 84.0 на Perception Test (здесь уже в качестве LLM Llama 3.1 8B). Это особенно примечательно, поскольку визуальный энкодер изначально был предобучен без каких-либо языковых данных. У модели при этом есть свои проблемы. Производительность модели чувствительна к положению камеры, поскольку она неявно выводит координаты действий из визуального входа. Планирование на очень длинных горизонтах остаётся сложной задачей из-за накопления ошибки при авторегрессионных предсказаниях. Наконец, система в настоящее время полагается на цели в виде изображений, в то время как инструкции на естественном языке были бы более удобны для многих приложений. В будущем авторы планируют сфокусироваться на задачах, требующих предсказания в будущее вплоть до 16 секунд с помощью иерархических моделей, добавить постановку целей на естественном языке, ну и отскейлить далее 1B параметров, например, до 20B. Интересные результаты в целом, особенно для self-supervised. Любопытно, если бы в эту модель вбухали столько же данных и компьюта, как в топовые LLM, какой результат был бы. Вижу, что подход JEPA всё чаще используется в разных задачах (недавно вот было для временных рядов https://t.me/gonzo_ML_podcasts/513), хороший знак.