Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз… — @gonzo_ML

Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз от китайцев. Другие недавние были тут: KernelEvolve, VibeTensor (этот был на более высоком уровне абстракции). CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation __Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou__ Статья: https://arxiv.org/abs/2602.24286 Код: https://cuda-agent.github.io/ Ревью: https://arxiviq.substack.com/p/cuda-agent-large-scale-agentic-rl # TL;DR ЧТО сделали: Исследователи из ByteDance и Университета Цинхуа представили фреймворк на базе обучения с подкреплением, который учит LLM-агента автономно писать, профилировать и оптимизировать низкоуровневые CUDA-ядра. С помощью нового синтетического датасета из более чем 6000 композитных PyTorch-операторов и строго изолированной песочницы для запуска кода, система использует Proximal Policy Optimization (PPO) вместе с хитрыми стратегиями предобучения для стабилизации многошагового агентного обучения. ПОЧЕМУ это важно: Ручная оптимизация GPU-ядер — это невероятно сложный и узкоспециализированный навык, который тормозит быстрое внедрение новых архитектур нейросетей. Авторы доказали, что агентная RL-система может стабильно находить кастомные паттерны доступа к памяти и специфичные для железа слияния операторов (operator fusions). Работа успешно обходит статические эвристики компиляторов вроде `torch.compile` и превосходит универсальные frontier-модели, открывая путь к полностью автоматизированному аппаратному перформанс-инжинирингу. Сливать операции тут: https://t.me/gonzo_ML_podcasts/2745

Из этого канала