Новая работа с Лекуном и джепой. Теперь для Latent Action Models Learning… — @gonzo_ML

Новая работа с Лекуном и джепой. Теперь для Latent Action Models Learning Latent Action World Models In The Wild __Quentin Garrido, Tushar Nagarajan, Basile Terver, Nicolas Ballas, Yann LeCun, Michael Rabbat__ Статья: https://arxiv.org/abs/2601.05230 Ревью: https://arxiviq.substack.com/p/learning-latent-action-world-models # TL;DR ЧТО сделали: Исследователи успешно обучили модели скрытых действий (Latent Action Models, LAMs) на огромном массиве неразмеченного видео in-the-wild (YouTube-Temporal-1B). Главный инсайт — непрерывные (continuous) латентные пространства с грамотной регуляризацией (разреженность или шум) работают значительно лучше, чем популярная ранее векторная квантизация (VQ), использовавшаяся в моделях вроде Genie (https://arxiv.org/abs/2402.15391). ПОЧЕМУ это важно: Работа устраняет зависимость от гигантских размеченных датасетов или узких симуляций. Авторы показали, что можно обучить легкий «контроллер», который переводит реальные действия робота в латентные действия, выученные моделью исключительно по роликам с YouTube. Это позволяет планировать задачи для реальных роботов (DROID, RECON) с качеством, сравнимым с обучением на ground-truth данных, фактически превращая интернет в бесконечный источник знаний о физике для робототехники. Подробнее: https://t.me/gonzo_ML_podcasts/2168

Из этого канала