"Следующая статья с NeurIPS 2025 Best Paper Award. Сделали глубокий RL и это помогло. 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzciński, Benjamin Eysenbach Статья: https://openreview.net/forum?id=s0JVsx3bx1 Код: https://wang-kevin3290.github.io/scaling-crl/ Ревью: https://arxiviq.substack.com/p/neurips-2025-1000-layer-networks # TL;DR ЧТО сделали: Авторы успешно масштабировали политики обучения с подкреплением (RL) со стандартных 2–5 слоёв до 1000+ слоёв. Для этого использовали самообучение (Self-Supervised Learning), а конкретно Contrastive RL, в сочетании с современным архитектурным ""обвесом"": Residual connections, LayerNorm и активациями Swish. ПОЧЕМУ это важно: Работа разрушает догму о том, что RL не выигрывает от глубины сетей. В то время как стандартные алгоритмы вроде SAC (https://arxiv.org/abs/1801.01290) деградируют или выходят на плато при углублении, Contrastive RL позволяет производительности расти вместе с глубиной (прирост в 20x–50x). Это даёт агентам возможность решать задачи с длинным горизонтом и развивать эмерджентные навыки локомоции без сложного инжиниринга наград. Подробнее: https://t.me/gonzo_ML_podcasts/1488"
"Следующая статья с NeurIPS 2025 Best Paper Award. Сделали глубокий RL и это…
Из этого канала
- #4278Интересный результат про скейлинг по размеру батча
Интересный результат про скейлинг по размеру батча
- #4279Крепитесь! Скоро наиграюсь 😁
Крепитесь! Скоро наиграюсь 😁
- #4280Красивое про размер транзистора…
Красивое про размер транзистора https://www.reddit.com/r/AICompanions/s/xrCXEf66qd
- #4274"Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award.…
"Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award. Теперь про архитектуры.
- #4271Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards.…
Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей.