Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы выучивается слабовато. Большая модель в целом перформит получше, но не сказать, что разница особенно большая. С имеющимися доверительными интервалами её может и нет вообще. По задачам предобучения пробовали три варианта. * Block Masking маскирует конкретный кусок картинки в каждом кадре * Causal Block Masking в дополнение к куску картинки также маскирует последние 25% видео * Random Masking маскирует случайные пиксели на каждом кадре. Разница в итоге не очень большая. На классификации видео переход к Random Masking понижает качество на 20 пунктов, но на IntPhys всего на 5. А Causal Block Masking работает похуже, чем просто Block Masking, хотя вроде бы напрямую должен помогать предсказанию (что нужно для интуитивной физики). Это интересно, получается для интуитивной физики специально подобранная objective не особо то и нужна. Не все свойства из интуитивной физике нормально выучиваются, но может это ещё и проблема датасетов. Возможно также, что для интеракций между объектами нужны более высокоуровневые репрезентации и H-JEPA может помочь. Возможно также что агенту нужно самому интерактивно взаимодействовать с миром, чтобы выучить интеракции, ибо текущий сеттинг ставит JEPA скорее в роль наблюдателя без ручек и ножек. Интересно, кто-то уже встроил JEPA во что-то типа Dreamer (про одну из вариаций писали тут https://t.me/gonzo_ML/1791). В любом случае круто. Заодно и JEPA наконец немного разобрали :)
Наличие разных датасетов с фокусом на различные активности ожидаемо влияет.…
Из этого канала
- #3513"[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model…
"[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model Продолжение продакшн движухи про гибриды Трансформер-SSM…
- #3521Неужели??? Для 1 апреля запоздалая шутка. На пару лет.…
Неужели??? Для 1 апреля запоздалая шутка. На пару лет. https://openai.com/open-model-feedback/ We’re planning to release our first open language model since…
- #3522Свежая Кембриджская лекция Хассабиса…
Свежая Кембриджская лекция Хассабиса https://youtu.be/hHooQmmzG4k?si=9Kb7B6gVTnIoh3yp
- #3502На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера…
На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов.
- #3501Intuitive physics understanding emerges from self-supervised pretraining on…
Intuitive physics understanding emerges from self-supervised pretraining on natural videos Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes,…