Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира. On Training in Imagination __Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel__ Paper: https://arxiv.org/abs/2605.06732v2 Review: https://arxiviq.substack.com/p/on-training-in-imagination # TL;DR ЧТО сделали: Авторы предлагают теоретический и эмпирический фреймворк, который разделяет ошибку возврата в model-based RL на независимые компоненты динамики и реворда. Применяя степенные законы скейлинга к этим источникам ошибок, они выводят аналитическое (closed-form) решение для оптимального распределения фиксированного бюджета данных между сбором транзишенов среды и разметкой ревордов. ПОЧЕМУ это важно: В современных парадигмах вроде RLHF и робототехники разметка ревордов обходится значительно дороже, чем сбор сырых переходов между состояниями среды. Эта работа заменяет эвристический подбор гиперпараметров математически строгой стратегией сбора данных. Она доказывает, что разное поведение скейлинга для моделей динамики и реворда требует фундаментально асимметричного распределения бюджета. Для практиков: Модели ревордов выучиваются намного быстрее, чем модели динамики. Следовательно, пайплайны сбора данных должны делать сильный упор на транзишены, а не на разметку ревордов. Анализ также показывает: при фиксированном бюджете закупка больших объёмов дешёвых, зашумлённых лейблов математически выгоднее покупки небольшой партии дорогих высококачественных лейблов, при условии, что шум имеет нулевое матожидание. Считать деньги здесь: https://t.me/gonzo_ML_podcasts/3654
Про разную экономику разметки для реворда и для динамики среды при обучении…
Из этого канала
- #5396Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling:…
Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows Keya Hu, Linlu Qiu, Yiyang Lu,…
- #5402"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один…
"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один единственный нейрон, с другой стороны если грохнуть одну конкретную важную для…
- #5406Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией…
Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией решений.
- #5386Большой обзор про модели мира для роботов. World Model for Robot Learning: A…
Большой обзор про модели мира для роботов. World Model for Robot Learning: A Comprehensive Survey Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong…
- #5385🔬 Метод В оригинальной работе метод был из себя весь такой замечательный, но…
🔬 Метод В оригинальной работе метод был из себя весь такой замечательный, но замерялся на сравнительно простых задачах, без интеграций с эффективными…