На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов. Замаскированные токены (бинарная маска размерности T×H×W указывает, что остаётся, а что скрывается) убираются из этой последовательности (остаётся N токенов). Для всех входных токенов энкодером генерируются репрезентации. Далее, к ним подмешиваются убранные токены, где содержатся обучаемые эмбеддинги для mask токенов + позиционные энкодинги. Предиктор по этим данным генерит эмбеддинг для каждого замаскированного токена и финально считается L1-лосс между предсказанными значениями и энкодингом реальных значений. Энкодер для y — это EMA от энкодера для x. Всё обучается в режиме self-supervised learning. После этого обученные энкодер и предиктор могут использоваться для изучения понимания мира моделью. При обработке видео модель кодирует то, что успела пронаблюдать, и предсказывает будущие кадры. Записывается ошибка предсказания относительно реальных кадров. Здесь можно играться с тем, сколько предыдущих кадров (память) используется для такого предсказания и какова частота кадров (гладкость движений). В текущей работе V-JEPA предобучают на смеси датасетов VideoMix2M, куда входят Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (1.2M видео по 6.5 минут в среднем -- 15 лет видеопотока). Энкодерами являются ViT (https://t.me/gonzo_ML/434), принимают на вход 3 секунды в виде 16 кадров (5.33 fps) в разрешении 224x224. Пробовали модели ViT-B/L/H. Предиктор тоже ViT-подобный, с 12 блоками и размерностью 384. Способности к интуитивной физике оцениваются на IntPhys, GRASP и InfLevel-lab. Эта комбинация даёт проверить постоянство объекта, непрерывность, константность формы и цвета, гравитацию, опору, твёрдость, инерцию и столкновения. V-JEPA сравнивают с другими видео моделями из двух классов: 1) модели предсказания видео в пиксельном пространстве (VideoMAEv2) 2) мультимодальные LLM, MLLM (Qwen2-VL-7B, Gemini 1.5 Pro). Также сравнивают с необученными моделями (компоненты JEPA с рандомной инициализацией). Перформанс оценивается на попарной классификации, где надо определить невозможное видео в паре. Считался “сюрприз” модели (по сути L1) и по его значению решалось, какое из видео невозможное. V-JEPA стабильно аутперформит необученную модель на всех трёх датасетах. То есть предсказание в обучаемом пространстве достаточно для выработки понимания интуитивной физики. Всё это получено безо всяких предопределённых абстракций и без знания бенчмарков на этапе предобучения или вообще разработки самого метода. VideoMAEv2, Qwen2-VL-7B и Gemini 1.5 Pro дают результат не сильно превосходящий случайно инициализированную сеть. Это не значит, что они в принципе не способны такое выучить, но по крайней мере показывает, что задача сложна даже для фронтирных моделей (интересно, какие результаты дадут модели весны 2025-го). Посмотрели результаты по отдельным способностям. Для этого взяли V-JEPA с не самым большим ViT-L и обучили на HowTo100M. Дальше сделали статтест (two-sample one-tailed Welch’s t-test) для оценки относительно необученных моделей. Много где статистически значимая разница, но не везде. Например, константность цвета, твёрдость, столкновение и (на одном из датасетов) гравитация статистически незначимы. Зато постоянство объекта, непрерывность, константность формы, опора и инерция работают. Есть какое-то сравнение с людьми с Mechanical Turk на приватном тестсете IntPhys, тут использовали ViT-H и предобучали на VideoMix2M. У V-JEPA перформанс такой же или выше. Я правда не понял, почему он у людей ниже и что это за люди и задачи, надо лезть в датасеты и статьи (https://pubmed.ncbi.nlm.nih.gov/34038357/). Также показали, что там, где надо не сравнивать похожие видео, а оценивать уникальные, лучше работает не усреднение сюрприза по всем кадрам, а максимальный сюрприз. Вроде как это устраняет вклад сложности сцены. Сделали абляции и изучили вклад обучающих данных, размер модели, задачи предсказания в предобучении.
На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера…
Из этого канала
- #3503Наличие разных датасетов с фокусом на различные активности ожидаемо влияет.…
Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы…
- #3513"[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model…
"[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model Продолжение продакшн движухи про гибриды Трансформер-SSM…
- #3521Неужели??? Для 1 апреля запоздалая шутка. На пару лет.…
Неужели??? Для 1 апреля запоздалая шутка. На пару лет. https://openai.com/open-model-feedback/ We’re planning to release our first open language model since…
- #3501Intuitive physics understanding emerges from self-supervised pretraining on…
Intuitive physics understanding emerges from self-supervised pretraining on natural videos Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes,…
- #3498Что классно в свежей картиночной генерации, это работа с текстом. Она наконец…
Что классно в свежей картиночной генерации, это работа с текстом. Она наконец стала отличной.