Красивая история про квантизацию. Как сделать INT4, который нормально работает на текущем железе. И вообще это большая тема про то как делать не просто теоретически эффективные алгоритмы, а такие, которые хорошо работают на практике. Что вообще не одно и то же. Хотите научиться в этом разбираться — читайте все работы с Tri Dao в соавторах. SAW-INT4: System-AWare 4-Bit KV-Cache Quantization for Real-World LLM Serving __Jinda Jia, Jisen Li, Zhongzhu Zhou, Jung Hwan Heo, Jue Wang, Tri Dao, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu, Tianyi Zhang, Xiaoxia Wu__ Paper: https://arxiv.org/abs/2604.19157 Code: https://github.com/togethercomputer/saw-int4 Review: https://arxiviq.substack.com/p/saw-int4-system-aware-4-bit-kv-cache # TL;DR ЧТО сделали: Представляют SAW-INT4 — фреймворк для потокенной 4-битной квантизации KV-кэша на основе блочно-диагонального вращения Адамара (Block-Diagonal Hadamard Rotation, BDR). Метод реализован как слитое (fused) CUDA-ядро, полностью совместимое с современными страничными структурами памяти (paged-memory layouts). Это позволяет достичь почти lossless 4-битного сжатия без падения пропускной способности, типичного для сложных техник квантизации. ПОЧЕМУ это важно: В продакшене при работе с длинным контекстом (миллионы токенов) пропускная способность памяти и её объём становятся жёстким ограничителем для масштабирования. Эта работа показывает, что алгоритмические успехи в сжатии теряют смысл, если они нарушают аппаратные ограничения — например, ломают coalesced доступ к памяти или непрерывный батчинг. Ставя системную совместимость выше теоретической репрезентативной ёмкости, исследователи дают рецепт для двукратного увеличения вместимости одновременного инференса. Для практиков: Управление KV-кэшем остаётся инфраструктурной болью при деплое LLM. Хотя многие стратегии сжатия показывают впечатляющую точность офлайн, их нерегулярный паттерн доступа к памяти уничтожает пропускную способность железа. Статья доказывает, что легковесная статическая математическая ротация компенсирует деградацию точности наивной INT4-квантизации и добавляет ровно ноль задержек. Эффективное сжатие KV-кэша — это в первую очередь задача системного кодизайна. Квантовать тут: https://t.me/gonzo_ML_podcasts/3418