"Следующая статья с NeurIPS 2025 Best Paper Award. Сделали глубокий RL и это… — @gonzo_ML

"Следующая статья с NeurIPS 2025 Best Paper Award. Сделали глубокий RL и это помогло. 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzciński, Benjamin Eysenbach Статья: https://openreview.net/forum?id=s0JVsx3bx1 Код: https://wang-kevin3290.github.io/scaling-crl/ Ревью: https://arxiviq.substack.com/p/neurips-2025-1000-layer-networks # TL;DR ЧТО сделали: Авторы успешно масштабировали политики обучения с подкреплением (RL) со стандартных 2–5 слоёв до 1000+ слоёв. Для этого использовали самообучение (Self-Supervised Learning), а конкретно Contrastive RL, в сочетании с современным архитектурным ""обвесом"": Residual connections, LayerNorm и активациями Swish. ПОЧЕМУ это важно: Работа разрушает догму о том, что RL не выигрывает от глубины сетей. В то время как стандартные алгоритмы вроде SAC (https://arxiv.org/abs/1801.01290) деградируют или выходят на плато при углублении, Contrastive RL позволяет производительности расти вместе с глубиной (прирост в 20x–50x). Это даёт агентам возможность решать задачи с длинным горизонтом и развивать эмерджентные навыки локомоции без сложного инжиниринга наград. Подробнее: https://t.me/gonzo_ML_podcasts/1488"

Из этого канала