Про разную экономику разметки для реворда и для динамики среды при обучении… — @gonzo_ML

Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира. On Training in Imagination __Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel__ Paper: https://arxiv.org/abs/2605.06732v2 Review: https://arxiviq.substack.com/p/on-training-in-imagination # TL;DR ЧТО сделали: Авторы предлагают теоретический и эмпирический фреймворк, который разделяет ошибку возврата в model-based RL на независимые компоненты динамики и реворда. Применяя степенные законы скейлинга к этим источникам ошибок, они выводят аналитическое (closed-form) решение для оптимального распределения фиксированного бюджета данных между сбором транзишенов среды и разметкой ревордов. ПОЧЕМУ это важно: В современных парадигмах вроде RLHF и робототехники разметка ревордов обходится значительно дороже, чем сбор сырых переходов между состояниями среды. Эта работа заменяет эвристический подбор гиперпараметров математически строгой стратегией сбора данных. Она доказывает, что разное поведение скейлинга для моделей динамики и реворда требует фундаментально асимметричного распределения бюджета. Для практиков: Модели ревордов выучиваются намного быстрее, чем модели динамики. Следовательно, пайплайны сбора данных должны делать сильный упор на транзишены, а не на разметку ревордов. Анализ также показывает: при фиксированном бюджете закупка больших объёмов дешёвых, зашумлённых лейблов математически выгоднее покупки небольшой партии дорогих высококачественных лейблов, при условии, что шум имеет нулевое матожидание. Считать деньги здесь: https://t.me/gonzo_ML_podcasts/3654

Из этого канала