Наличие разных датасетов с фокусом на различные активности ожидаемо влияет.… — @gonzo_ML

Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы выучивается слабовато. Большая модель в целом перформит получше, но не сказать, что разница особенно большая. С имеющимися доверительными интервалами её может и нет вообще. По задачам предобучения пробовали три варианта. * Block Masking маскирует конкретный кусок картинки в каждом кадре * Causal Block Masking в дополнение к куску картинки также маскирует последние 25% видео * Random Masking маскирует случайные пиксели на каждом кадре. Разница в итоге не очень большая. На классификации видео переход к Random Masking понижает качество на 20 пунктов, но на IntPhys всего на 5. А Causal Block Masking работает похуже, чем просто Block Masking, хотя вроде бы напрямую должен помогать предсказанию (что нужно для интуитивной физики). Это интересно, получается для интуитивной физики специально подобранная objective не особо то и нужна. Не все свойства из интуитивной физике нормально выучиваются, но может это ещё и проблема датасетов. Возможно также, что для интеракций между объектами нужны более высокоуровневые репрезентации и H-JEPA может помочь. Возможно также что агенту нужно самому интерактивно взаимодействовать с миром, чтобы выучить интеракции, ибо текущий сеттинг ставит JEPA скорее в роль наблюдателя без ручек и ножек. Интересно, кто-то уже встроил JEPA во что-то типа Dreamer (про одну из вариаций писали тут https://t.me/gonzo_ML/1791). В любом случае круто. Заодно и JEPA наконец немного разобрали :)

Из этого канала