🔬 Метод В оригинальной работе метод был из себя весь такой замечательный, но замерялся на сравнительно простых задачах, без интеграций с эффективными фреймворками инференса. Здесь же решили замерить скорость в работы в vLLM интеграции на широком наборе задач, включая ризонинг. Рассматривают следующие конфигурации: 👉 bf16 бейзлайн 👉 fp8 👉 TQ k8v4 (6-7 бит на значение) 👉 TQ 4bit-nc 👉 TQ k3v4-nc 👉 TQ 3bit-nc 🧪 Эксперименты Качество замеряют на Llama-3.3-70B-Instruct, Qwen3-30B-A3B-Instruct-2507, Minimax-2.7. На long-context retrieval (MRCR) bf16/fp8/2 более высокобитных TurboQuant дают примерно одинаковое качество. Более агрессивные TurboQuant квантизации заметно просаживают. На ризонинге fp8/k8v4 сохраняют 98% качества, TQ 4bit-nc 96%, а более агрессивные квантизации уже сильно хуже. В плане экономии памяти fp8 экономит вдвое по сравнению с bf16, TQ k8v4 2.3-2.4 раза, TQ 4bit-nc - 3.1 - 3.4 раза, TQ 3bit-nc до 4-х раз. На Llama fp8 дает почти двухкратное ускорение инференса, но почти без разницы для Qwen3 MoE. TQ замедляет на 20-40% инференс на Llama, и на 40-60% на Qwen3. Throughput у FP8/BF16 примерно одинаковый, TQ уменьшает его до 66-80% в зависимости от модели и конфигурации квантизации. 💡 Выводы 📌 FP8 все еще остается хорошим бейзлайном по соотношению качество / экономия. 📌 TurboQuant k8v4 не дает существенной экономии против FP8, но замедляет инференс. 📌 TurboQuant 4bit-nc неплох как баланс между сжатием / качеством, если скорость не критична. 📌 Более агрессивные квантизации бесполезны. Итого, TurboQuant не то чтобы особо практически полезная шняга.
🔬 Метод В оригинальной работе метод был из себя весь такой замечательный, но…
Из этого канала
- #5386Большой обзор про модели мира для роботов. World Model for Robot Learning: A…
Большой обзор про модели мира для роботов. World Model for Robot Learning: A Comprehensive Survey Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong…
- #5393Про разную экономику разметки для реворда и для динамики среды при обучении…
Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира.
- #5396Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling:…
Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows Keya Hu, Linlu Qiu, Yiyang Lu,…
- #5384A First Comprehensive Study of TurboQuant: Accuracy and Performance [Блог]…
A First Comprehensive Study of TurboQuant: Accuracy and Performance [Блог] Казалось бы, уже стоило бы забить на этот несчастный TurboQuant, но кому-то он все…
- #5383В дополнение
В дополнение