Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а так же он в принципе один из тех кто сильно продвинул область оффлайн рл (точнее model-free offline rl), когда она еще называлась батч рл теперь, полагаю, ему надоело перебирать гиперпараметры под каждый бенчмарк чтобы vydrochit’ сота перформанс на каждом в отдельности, а захотелось отскейлить это дело созданием метода, который может выступать на около-сота уровне с фиксированным набором гиперпараметров для каждого бенчмарка но если не хочется vydrachivat’ гиперпараметры → стоит vydrochit’ многие аспекты в пайплайне, как уже примерно делал первый автор улучшения TD3-BC → TD7 по state-action репрезентациям только здесь пошло еще дальше: авторы добиваются такой генерализации (относительно перебора гиперпараметров) на model-free методе при помощи внедрения model-based идей (и не только) для получения cупер-пупер крутых репрезентаций а именно - состояния переводятся в латентное пространство (что проприоцепция, что пиксельные обсервейшны) при помощи энкодера + так же есть энкодер под состояния и действия одновременно (те самые state-action репрезентации) - эти энкодеры обновляются в model-based стиле “анроллом динамики”: надо по горизонту восстанавливать награду, следующее латентное состояние и флаг терминальности (булево значение, которое показывает, закончился ли эпизод) - при том последние 2 явления обучаются классически в мсе стиле, а награда восстанавливается по бинам при помощи twohot трансформации (она так же используется в дримере для предсказания реварда, да и в последнее время все чаще фигурирует как вид обучения критика через классификацию а не регрессию) - критик же обучается через мульти-степ сумму наград по заранее выбранному горизонту - а политика после всего этого оптимизируется в более-менее классическом стиле (разве что за нестандартный прием имхо можно посчитать гамбел софтмакс для дискретных действий) - и это все в конце полируется тем, что семплы подаются на вход во время обучения при помощи буффера LAP, который выставляет приоритет при семплировании в соответствии с ошибкой критика (в терминологии рл это называется Temporal Difference error, TD error) ну и вроде по экспериментам вырисовывается что-то интересное - хоть и не везде выбивается сота, но метод ощутимо находится на высоком уровне. и это все при том, что гиперпараметры не перебирались в отличие от других методов, хотя конечно остается вопрос точно ли авторы ничего не перебирали хотя бы чуть-чуть, или же как именно они решили выставить неизменяемую конфигурацию гиперов (например момент с exploration noise, значение которого они позаимствовали из предыдущих работ по d4rl, но не по атари) а вообще в целом результаты довольно классные - еще бы такая концепция повторялась бы, если и обучать в мультитаск/мета стиле (ведь название статьи тоже на это может намекать в плане general-purpose RL), так еще и model-based это типа world models так что хайп бррррррр 👀LINK