Цель этого этапа -- научить энкодер общему зрительному пониманию, поэтому качество оценивают на задачах про движение и классификацию. Для этого замораживают энкодер и поверх него обучают 4-слойную сетку для классификации. Показано, что каждый из ингредиентов добавляет качества, оно последовательно вырастает с 84.2% до 88.2% (рис. 3). Теперь мы имеем энкодер, способный делать предсказания относительно пропущенных частей видео. Но он никак не учитывает каузальные эффекты действий, которые может делать агент. 🤖 Этап 2: Дообучение с учётом действий После предобучения энкодер V-JEPA 2 замораживается. Затем обучается новый предиктор, обусловленный действием, — V-JEPA 2-AC (action-conditioned). Для этого используется небольшой датасет (менее 62 часов) неразмеченных траекторий робота из набора данных Droid (https://arxiv.org/abs/2403.12945). Эта модель учится предсказывать представление следующего кадра видео, основываясь на проприоцепции и действии робота (настольный робот-рука Franka Emika Panda, https://robodk.com/robot/Franka/Emika-Panda). Чтобы улучшить способность делать многошаговые предсказания, V-JEPA 2-AC обучается с комбинированной функцией потерь, которая включает как стандартный одношаговый лосс с teacher-forcing (но одновременно для T=15 позиций), так и многошаговый лосс на основе роллаутов (для T=2). Последний помогает модели уменьшить накопление ошибки со временем. Разница в том, что при роллауте, хоть там T и короче, промежуточные результаты не оцениваются, а передаются снова на вход предиктору, так чтобы он учился предсказывать на несколько шагов вперёд (хоть и всего на два). Лоссы замешаны с одинаковыми весами. Предиктор в этом случае является 24-слойным трансформером с 300M параметров. Имея обученный предиктор, V-JEPA 2-AC можно использовать для планирования в цикле управления с прогнозирующей моделью (MPC). Получив текущее наблюдение x_k и целевое изображение x_g, система планирует, находя последовательность действий длины T, которая минимизирует L1-расстояние между воображаемым будущим состоянием (что напредсказывали) и целевым состоянием в выученном пространстве представлений (картинка пропущенная через энкодер). Это L1-расстояние названо здесь энергетической функцией, обусловленной целью. Энергетическая функция оптимизируется с помощью метода кросс-энтропии, находя таким образом траекторию действий, минимизирующую эту функцию. Авторы показывают, что получаемый ландшафт энергии является гладким и локально выпуклым, что способствует эффективному планированию. 📊 Эксперименты V-JEPA 2 была оценена на разнообразном наборе задач, и показала себя неплохо как универсальная модель мира. В Zero-shot планировании действий робота (Franka Emika Panda с хваталкой от RobotiQ из лаб, не входивших в обучающий датасет) зрительные входные данные поступали от некалиброванной RGB камеры низкого разрешения. Сэмплируемые выходные действия ограничивались определённым радиусом. Модель успешно выполняла задачи движения руки в определённую позицию (single-goal reaching) и хватательных манипуляций (grasp и pick-and-place) с новыми объектами, например, достигнув в среднем 80% успеха при поднятии и перемещении чашки по сравнению с 15% у video-language-action модели Octo (https://arxiv.org/abs/2405.12213). Всё без сбора данных с роботов и без каких-либо специфичных для задачи вознаграждений. По сравнению с бейзлайнами, V-JEPA 2-AC не только более успешна, но и значительно быстрее в планировании: 16 секунд на действие против 4 минут у модели Cosmos (https://arxiv.org/abs/2501.03575) на основе генерации видео. Оба бейзлайна были дополнительно зафайнтюнены. Примеры показывают способность модели выполнять многошаговые планы в загромождённых средах и демонстрируют базовое интуитивное понимание физики, например, постоянства объекта (нужно, чтобы держать его не отпуская во время перемещения) — про интуитивную физику была предыдущая работа на базе V-JEPA (https://t.me/gonzo_ML/3501).