Красивая история про квантизацию. Как сделать INT4, который нормально работает на текущем железе. И вообще это большая тема про то как делать не просто теоретически эффективные алгоритмы, а такие, которые хорошо работают на практике. Что вообще не одно и то же. Хотите научиться в этом разбираться — читайте все работы с Tri Dao в соавторах. SAW-INT4: System-AWare 4-Bit KV-Cache Quantization for Real-World LLM Serving __Jinda Jia, Jisen Li, Zhongzhu Zhou, Jung Hwan Heo, Jue Wang, Tri Dao, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu, Tianyi Zhang, Xiaoxia Wu__ Paper: https://arxiv.org/abs/2604.19157 Code: https://github.com/togethercomputer/saw-int4 Review: https://arxiviq.substack.com/p/saw-int4-system-aware-4-bit-kv-cache # TL;DR ЧТО сделали: Представляют SAW-INT4 — фреймворк для потокенной 4-битной квантизации KV-кэша на основе блочно-диагонального вращения Адамара (Block-Diagonal Hadamard Rotation, BDR). Метод реализован как слитое (fused) CUDA-ядро, полностью совместимое с современными страничными структурами памяти (paged-memory layouts). Это позволяет достичь почти lossless 4-битного сжатия без падения пропускной способности, типичного для сложных техник квантизации. ПОЧЕМУ это важно: В продакшене при работе с длинным контекстом (миллионы токенов) пропускная способность памяти и её объём становятся жёстким ограничителем для масштабирования. Эта работа показывает, что алгоритмические успехи в сжатии теряют смысл, если они нарушают аппаратные ограничения — например, ломают coalesced доступ к памяти или непрерывный батчинг. Ставя системную совместимость выше теоретической репрезентативной ёмкости, исследователи дают рецепт для двукратного увеличения вместимости одновременного инференса. Для практиков: Управление KV-кэшем остаётся инфраструктурной болью при деплое LLM. Хотя многие стратегии сжатия показывают впечатляющую точность офлайн, их нерегулярный паттерн доступа к памяти уничтожает пропускную способность железа. Статья доказывает, что легковесная статическая математическая ротация компенсирует деградацию точности наивной INT4-квантизации и добавляет ровно ноль задержек. Эффективное сжатие KV-кэша — это в первую очередь задача системного кодизайна. Квантовать тут: https://t.me/gonzo_ML_podcasts/3418
Красивая история про квантизацию. Как сделать INT4, который нормально работает…
Из этого канала
- #5289Ещё в тему про Universal Transformer (https://t.me/gonzoML/5270). Здесь…
Ещё в тему про Universal Transformer (https://t.me/gonzoML/5270). Здесь улучшили способности UT через матричные residual connections (mHC от дипсика, про…
- #5294"Больше моделей мира за пределами красивых картинок! Agentic World Modeling:…
"Больше моделей мира за пределами красивых картинок! Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond Meng Chu, Xuan Billy Zhang, Kevin…
- #5300"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic…
"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic Sharpness Gap Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis Статья:…
- #5279Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь…
Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь асинхронная версия! Можно не блокироваться на поломанных воркеров в большом обучении,…
- #5278"""Кладбище домашних животных"", Стивен Кинк"
"""Кладбище домашних животных"", Стивен Кинк"