Новые ядра и формат упаковки для неструктурированной разреженности от Sakana + NVIDIA. Sparser, Faster, Lighter Transformer Language Models __Edoardo Cetin, Stefano Peluchetti, Emilio Castillo, Akira Naruse, Mana Murakami, Llion Jones__ Статья: https://arxiv.org/abs/2603.23198 Код: https://github.com/SakanaAI/sparser-faster-llms Ревью: https://arxiviq.substack.com/p/sparser-faster-lighter-transformer # TL;DR ЧТО сделали: Авторы представили аппаратно-ориентированный фреймворк, который ускоряет LLM за счет использования неструктурированной разреженности активаций. Они разработали новый формат упаковки в памяти (TwELL), динамические гибридные представления для этапа обучения и набор кастомных CUDA-ядер, которые бесшовно объединяют материализацию разреженных данных с вычислениями. ПОЧЕМУ это важно: Исследование решает фундаментальный боттлнек современных ИИ-систем: парадокс, при котором теоретически более дешевые умножения разреженных матриц на GPU работают медленнее плотных из-за неоптимальных паттернов доступа к памяти. Подход доказывает, что 99% неструктурированную разреженность можно конвертировать в >20% реального ускорения (wall-clock speedup) без перекройки архитектуры. Для практиков: Фреймворк позволяет использовать стандартную L₁-регуляризацию для создания разреженности и легко интегрируется как drop-in replacement слой ускорения для существующих моделей. На выходе получаем снижение пикового потребления памяти до 28% и расхода энергии на 17% без потерь в качестве. Разреживать тут: https://t.me/gonzo_ML_podcasts/3562
Новые ядра и формат упаковки для неструктурированной разреженности от Sakana +…
Из этого канала
- #5348"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что…
"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово…
- #5353Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute…
Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute Optimal Tokenization Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike…
- #5357И снова про рекурсии :) Пользуясь случаем, поздравляю Лёшу Досовицкого и всю…
И снова про рекурсии :) Пользуясь случаем, поздравляю Лёшу Досовицкого и всю команду. Ещё и Питера Норвига привлекли! https://www.recursive.com/
- #5337"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep…
"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep Learning Elon Litman, Gabe Guo Статья: https://arxiv.org/abs/2605.01172v1 Ревью:…
- #53352) test-time scaling из коробки — часто можно погонять рекурсию поглубже для…
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата.