На LeJEPA построили модель мира LeWM. LeWorldModel: Stable End-to-End… — @gonzo_ML

На LeJEPA построили модель мира LeWM. LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels __Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero__ Paper: https://arxiv.org/abs/2603.19312 Review: https://arxiviq.substack.com/p/leworldmodel-stable-end-to-end-joint Code: https://github.com/lucas-maes/le-wm Model: https://drive.google.com/drive/folders/1r31os0d4-rR0mdHc7OlY_e5nh3XT4r4e Website: https://le-wm.github.io # TL;DR ЧТО сделали: Авторы представляют LeWorldModel (LeWM) — end-to-end архитектуру JEPA, которая выучивает модель мира напрямую из сырых пикселей. Метод решает известную проблему коллапса репрезентаций с помощью лаконичного лосса (функции потерь) из двух слагаемых: стандартной среднеквадратичной ошибки для предсказания во времени и легко масштабируемой регуляризации, принуждающей латентные эмбеддинги распределяться по изотропному гауссиану. ПОЧЕМУ это важно: Подход избавляет от хрупких архитектурных эвристик — таких как stop-gradients, экспоненциальные скользящие средние или многокомпонентные лоссы, — которые обычно нужны для стабилизации моделей мира в парадигме self-supervised learning. Сводя всю регуляризацию к одному гиперпараметру, фреймворк добивается стабильного обучения на одном GPU за несколько часов. Полученная модель способна планировать до 48 раз быстрее альтернатив на базе фундаментальных моделей, демонстрируя при этом zero-shot понимание интуитивной физики. Для практиков: Для инженеров и исследователей, создающих масштабируемых агентов для робототехники или систем планирования, статья доказывает: стабильные модели мира не обязательно требуют предобученных визуальных энкодеров или сложной балансировки оптимизатора. Заставив распределения эмбеддингов математически соответствовать гауссовской топологии, модели могут органично выучивать структурированные, полезные для действий репрезентации прямо из офлайн-данных. Это снижает порог по вычислительным ресурсам для задач на физическое рассуждение. Моделировать мир тут: https://t.me/gonzo_ML_podcasts/2895

Из этого канала