Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а так же он в принципе один из тех кто сильно продвинул область оффлайн рл (точнее model-free offline rl), когда она еще называлась батч рл теперь, полагаю, ему надоело перебирать гиперпараметры под каждый бенчмарк чтобы vydrochit’ сота перформанс на каждом в отдельности, а захотелось отскейлить это дело созданием метода, который может выступать на около-сота уровне с фиксированным набором гиперпараметров для каждого бенчмарка но если не хочется vydrachivat’ гиперпараметры → стоит vydrochit’ многие аспекты в пайплайне, как уже примерно делал первый автор улучшения TD3-BC → TD7 по state-action репрезентациям только здесь пошло еще дальше: авторы добиваются такой генерализации (относительно перебора гиперпараметров) на model-free методе при помощи внедрения model-based идей (и не только) для получения cупер-пупер крутых репрезентаций а именно - состояния переводятся в латентное пространство (что проприоцепция, что пиксельные обсервейшны) при помощи энкодера + так же есть энкодер под состояния и действия одновременно (те самые state-action репрезентации) - эти энкодеры обновляются в model-based стиле “анроллом динамики”: надо по горизонту восстанавливать награду, следующее латентное состояние и флаг терминальности (булево значение, которое показывает, закончился ли эпизод) - при том последние 2 явления обучаются классически в мсе стиле, а награда восстанавливается по бинам при помощи twohot трансформации (она так же используется в дримере для предсказания реварда, да и в последнее время все чаще фигурирует как вид обучения критика через классификацию а не регрессию) - критик же обучается через мульти-степ сумму наград по заранее выбранному горизонту - а политика после всего этого оптимизируется в более-менее классическом стиле (разве что за нестандартный прием имхо можно посчитать гамбел софтмакс для дискретных действий) - и это все в конце полируется тем, что семплы подаются на вход во время обучения при помощи буффера LAP, который выставляет приоритет при семплировании в соответствии с ошибкой критика (в терминологии рл это называется Temporal Difference error, TD error) ну и вроде по экспериментам вырисовывается что-то интересное - хоть и не везде выбивается сота, но метод ощутимо находится на высоком уровне. и это все при том, что гиперпараметры не перебирались в отличие от других методов, хотя конечно остается вопрос точно ли авторы ничего не перебирали хотя бы чуть-чуть, или же как именно они решили выставить неизменяемую конфигурацию гиперов (например момент с exploration noise, значение которого они позаимствовали из предыдущих работ по d4rl, но не по атари) а вообще в целом результаты довольно классные - еще бы такая концепция повторялась бы, если и обучать в мультитаск/мета стиле (ведь название статьи тоже на это может намекать в плане general-purpose RL), так еще и model-based это типа world models так что хайп бррррррр 👀LINK
Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото…
Из этого канала
- #993ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.…
ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio. Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и…
- #994третий апдейт по Open R1 https://huggingface.co/blog/open-r1/update-3 Чем…
третий апдейт по Open R1 https://huggingface.co/blog/open-r1/update-3 Чем занимались Созданием CodeForces-CoTs: датасетом, содержащим почти 100 тысяч…
- #995"Тренили OlympicCoder со следующими параметрами: Базовая модель: Qwen2.5 Coder…
"Тренили OlympicCoder со следующими параметрами: Базовая модель: Qwen2.5 Coder Instruct 7B and 32B количество эпох: 10 батч сайз: 128 Learning rate: 4e-5…
- #987Там походу на редите засветились 4090 96гб Нада 😱…
Там походу на редите засветились 4090 96гб Нада 😱 https://www.reddit.com/r/LocalLLaMA/s/gHde13Isqx
- #986Учим модельки решать интегралы через декомпозицию задач и обучение на более…
Учим модельки решать интегралы через декомпозицию задач и обучение на более простых вариантах. С RLем конечно же.