Очень интересная работа сразу по множеству параметров. Во-первых, очередной пример AI for Systems, где автомат находит решения лучше человека (в данном случае лучше по крайней мере равно быстрее, не жертвуя корректностью). Во-вторых, сам юскейс агента интересен — ему надо работать с железом, про которое не знает базовая LLM, но это решается подачей агенту хорошей документации. Если вместо написания оптимизированных библиотек (cuBLAS, MIOpen) под каждый чих, мы будем приоритезировать исчерпывающую машиночитаемую документацию, то это интересный сдвиг сам по себе. И документация наконец станет объектом первого класса, и может наконец экосистема CUDA пошатнётся. В-третьих, это ещё и интересная инфа про альтернативное железо. И про ускоритель MTIA интересно, и про то, что Triton перебил по количеству CUDA-ядра по крайней мере в одной экосистеме. Наверняка и у Гугла тоже CUDA ядра не на первом месте, а какой-нибудь Pallas. Классный кейс, короче. KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta __Gang Liao, Carole-Jean Wu, Gaoxiang Liu, Hongsen Qin, Ying Wang, Yavuz Yetim, Jia Jiunn Ang, Xiayu Yu, Yihan He, Feng Shi, Zewei Jiang, Chunli Fu, Ruichao Xiao, Dianshi Li, Alicia Golden, Michael Kuchnik, Samuel Hsia, Zhou Fang, Abdul Zainul-Abedin, Ketan Singh, Sean Zhang, Noah Weller, Zach Marine, Wyatt Cook, Hongtao Yu, Wenyuan Chi, Barney Huang__ Статья: https://arxiv.org/abs/2512.23236 Ревью: https://arxiviq.substack.com/p/kernelevolve-scaling-agentic-kernel # TL;DR ЧТО сделали: Исследователи из Meta представили KernelEvolve — фреймворк, который использует LLM и поиск по графу для автоматической генерации высокопроизводительных ядер на языке Triton (https://triton-lang.org/). Система применяет RAG (retrieval-augmented generation), чтобы подтягивать спецификации железа (NVIDIA, AMD и кастомные чипы MTIA от Meta), что позволяет оптимизировать как вычислительно тяжелые операции, так и задачи препроцессинга данных. ПОЧЕМУ это важно: Это стратегический сдвиг в AI-инфраструктуре, отвязывающий архитектуру модели от ограничений железа. Система достигла 100% корректности на бенчмарке KernelBench (https://arxiv.org/abs/2502.10517) и показала ускорение до 17× относительно PyTorch в продакшене. Это доказывает, что агенты способны справиться с комбинаторным взрывом операторов и типов ускорителей, что критически важно для внедрения проприетарного кремния (MTIA), для которого у публичных LLM нет обучающих данных. Подробнее: https://t.me/gonzo_ML_podcasts/1993