Intuitive physics understanding emerges from self-supervised pretraining on natural videos __Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun__ Статья: https://arxiv.org/abs/2502.11831 Код: https://github.com/facebookresearch/jepa-intuitive-physics Развитие темы про JEPA, world models и выучивание интуитивной физики из видео. Интуитивная физика — довольно важный аспект нашей жизни и мышления. Мы ожидаем определённого поведения от объектов — что они не исчезают внезапно, не проходят через препятствия и не меняют произвольно цвета и формы. Подобные способности задокументированы не только у детёнышей человека, но и у приматов, морских млеков, врановых и так далее. Многие AI системы, превосходящие человеческий уровень в языковых или математических задачах, беспомощны в задачах, с которыми справится кошка, иллюстрируя парадокс Моравека. Люди делали разные подходы к снаряду. Есть структурированные модели с вручную закодированными правилами про репрезентации разных объектов и их отношений. Есть пиксельные генеративные модели, занимающиеся реконструкцией будущих сенсорных входов по прошлым. Текущая работа исследует третий класс моделей, являющихся срединным путём между первыми двумя — собственно Лекуновскую JEPA, Joint Embedding Predictive Architectures (https://openreview.net/pdf?id=BZ5a1r-kVsf). JEPA мы так и не разобрали, но в двух словах её идея в том, что предсказание надо делать не в пиксельном или ещё каком финальном пространстве, а в выученных внутренних абстрактных репрезентациях. В этом она близка к структурированным моделям. Но в отличие от них, ничего не кодируется, всё выучивается. В JEPA входные данные __x__ (например, пиксели изображения) кодируются энкодером во внутреннюю репрезентацию __Enc(x)__, далее предиктор делает предсказание репрезентации будущего входа __y__, возможно учитывая какую-то латентную переменную __z__, влияющую на предсказание (например, выбранное действие какого-то объекта в случае видео), и этот результат сравнивается с реальной репрезентацией следующего входа, __Enc(y)__. Это, кстати, довольно сильно перекликается с другими моделями, например BYOL (https://t.me/gonzo_ML/562), там наличие отдельного предиктора тоже было очень важным для предотвращения коллапса. Энкодеры для __x__ и __y__ могут быть и разными. Преимущество в том, что не надо предсказывать каждую деталь выходного объекта __y__ (с точностью до пикселя), ибо на этом уровне может быть очень много вариантов, разница между которыми не так важна. JEPA не генеративная модель, она не может легко предсказывать __y__ из __x__. У JEPA есть несколько развитий: Hierarchical JEPA (H-JEPA, тоже из оригинальной статьи), Image-based JEPA (I-JEPA, https://arxiv.org/abs/2301.08243), Video-JEPA (V-JEPA, https://arxiv.org/abs/2404.08471) и её свежий вариант Video JEPA with Variance-Covariance Regularization (VJ-VCR, https://arxiv.org/abs/2412.10925) — помните VICReg (https://t.me/gonzo_ML/590)? В текущей работа исследуется V-JEPA, расширение модели на работу с видео и предсказание замаскированных частей кадров. В такой модели можно проверять выучивание интуитивной физики через фреймворк __violation-of-expectation__, получая меру несоответствия между предсказанием и реальным видео через измерение полученного “сюрприза”. Так же оценивают это и у живых существ (например, они дольше задерживают взгляд на неожиданных исходах). V-JEPA точно так же как и обычная JEPA включает в себя энкодер и предиктор, оба нейросетевые. Энкодер строит репрезентацию видео, предиктор предсказывает репрезентацию искусственно замаскированной части видео.
Intuitive physics understanding emerges from self-supervised pretraining on…
Из этого канала
- #3502На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера…
На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов.
- #3503Наличие разных датасетов с фокусом на различные активности ожидаемо влияет.…
Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы…
- #3513"[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model…
"[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model Продолжение продакшн движухи про гибриды Трансформер-SSM…
- #3498Что классно в свежей картиночной генерации, это работа с текстом. Она наконец…
Что классно в свежей картиночной генерации, это работа с текстом. Она наконец стала отличной.
- #3497Не про ML, но вдруг у вас есть сейчас возможность наблюдать, а вы не знали. Не…
Не про ML, но вдруг у вас есть сейчас возможность наблюдать, а вы не знали. Не забывайте про защиту глаз! P.S.