Новые ядра и формат упаковки для неструктурированной разреженности от Sakana + NVIDIA. Sparser, Faster, Lighter Transformer Language Models __Edoardo Cetin, Stefano Peluchetti, Emilio Castillo, Akira Naruse, Mana Murakami, Llion Jones__ Статья: https://arxiv.org/abs/2603.23198 Код: https://github.com/SakanaAI/sparser-faster-llms Ревью: https://arxiviq.substack.com/p/sparser-faster-lighter-transformer # TL;DR ЧТО сделали: Авторы представили аппаратно-ориентированный фреймворк, который ускоряет LLM за счет использования неструктурированной разреженности активаций. Они разработали новый формат упаковки в памяти (TwELL), динамические гибридные представления для этапа обучения и набор кастомных CUDA-ядер, которые бесшовно объединяют материализацию разреженных данных с вычислениями. ПОЧЕМУ это важно: Исследование решает фундаментальный боттлнек современных ИИ-систем: парадокс, при котором теоретически более дешевые умножения разреженных матриц на GPU работают медленнее плотных из-за неоптимальных паттернов доступа к памяти. Подход доказывает, что 99% неструктурированную разреженность можно конвертировать в >20% реального ускорения (wall-clock speedup) без перекройки архитектуры. Для практиков: Фреймворк позволяет использовать стандартную L₁-регуляризацию для создания разреженности и легко интегрируется как drop-in replacement слой ускорения для существующих моделей. На выходе получаем снижение пикового потребления памяти до 28% и расхода энергии на 17% без потерь в качестве. Разреживать тут: https://t.me/gonzo_ML_podcasts/3562