🔬 Метод В оригинальной работе метод был из себя весь такой замечательный, но… — @gonzo_ML

🔬 Метод В оригинальной работе метод был из себя весь такой замечательный, но замерялся на сравнительно простых задачах, без интеграций с эффективными фреймворками инференса. Здесь же решили замерить скорость в работы в vLLM интеграции на широком наборе задач, включая ризонинг. Рассматривают следующие конфигурации: 👉 bf16 бейзлайн 👉 fp8 👉 TQ k8v4 (6-7 бит на значение) 👉 TQ 4bit-nc 👉 TQ k3v4-nc 👉 TQ 3bit-nc 🧪 Эксперименты Качество замеряют на Llama-3.3-70B-Instruct, Qwen3-30B-A3B-Instruct-2507, Minimax-2.7. На long-context retrieval (MRCR) bf16/fp8/2 более высокобитных TurboQuant дают примерно одинаковое качество. Более агрессивные TurboQuant квантизации заметно просаживают. На ризонинге fp8/k8v4 сохраняют 98% качества, TQ 4bit-nc 96%, а более агрессивные квантизации уже сильно хуже. В плане экономии памяти fp8 экономит вдвое по сравнению с bf16, TQ k8v4 2.3-2.4 раза, TQ 4bit-nc - 3.1 - 3.4 раза, TQ 3bit-nc до 4-х раз. На Llama fp8 дает почти двухкратное ускорение инференса, но почти без разницы для Qwen3 MoE. TQ замедляет на 20-40% инференс на Llama, и на 40-60% на Qwen3. Throughput у FP8/BF16 примерно одинаковый, TQ уменьшает его до 66-80% в зависимости от модели и конфигурации квантизации. 💡 Выводы 📌 FP8 все еще остается хорошим бейзлайном по соотношению качество / экономия. 📌 TurboQuant k8v4 не дает существенной экономии против FP8, но замедляет инференс. 📌 TurboQuant 4bit-nc неплох как баланс между сжатием / качеством, если скорость не критична. 📌 Более агрессивные квантизации бесполезны. Итого, TurboQuant не то чтобы особо практически полезная шняга.

Из этого канала