В блоге vLLM подробно протестили TurboQuant Пару месяцев назад нашумел пейпер годовой давности от гугла про метод квантизации kv кэша, который даже немного обвалил акции компаний производителей оперативки. Ну и тут алгоритм решили нормально так протестить — взяли 3 разные архитектуры моделей, прогнали по бенчам и замерили производительность. Результаты вышли интересные. Оказалось что по качеству k8v4 и 4bit-nc варианты TurboQuant вполне неплохо себя ведут — почти не теряют поинтов на бенчах, при этом занимая на 15-35% меньше места чем fp8 кэш. Но как только дело доходит до трёхбитной квантизации, результаты начинают сильно проседать, особенно на бенчах требующих понимания длинного контекста. А вот по производительности результаты не очень весёлые для TurboQuant. Размер KV кэша, по сравнению с fp8, хоть и падает, но даётся крайне большой ценой — постоянная деквантизация дропает пропускную способность от 10% аж до 70%, в зависимости от сценария. Так что это метод который применим при локальном инференсе, но на серверах про него можно забыть. __Поздравляю всех кто купил акции производителей памяти по скидке__ Блогпост @ai_newz
В блоге vLLM подробно протестили TurboQuant Пару месяцев назад нашумел пейпер…
Из этого канала
- #4576😮 Создатели OpenClaw используют токенов на 1,3 миллиона долларов в месяц…
😮 Создатели OpenClaw используют токенов на 1,3 миллиона долларов в месяц Одновременно у команды из 3-6 разработчиков запущена сотня агентов, которые ревьювят…
- #4577Ты понимаешь, что заанлочил новый уровень безумия на линкедин, когда рекрутеры…
Ты понимаешь, что заанлочил новый уровень безумия на линкедин, когда рекрутеры начинают оставлять тебе голосовухи в лс.
- #4578Как зарабатывать на миниапках в телеграме? Три разных человека. Три разных…
Как зарабатывать на миниапках в телеграме? Три разных человека. Три разных проекта. Один и тот же подход.
- #4573Higgsfield Supercomputer – long-running агент для контент-продакшна Higgsfield…
Higgsfield Supercomputer – long-running агент для контент-продакшна Higgsfield анонсировали Supercomputer – managed long-running агента по типу OpenClaw/Hermes…
- #4572JavaScript рантайм Bun, который в конце прошлого года купили Anthropic,…
JavaScript рантайм Bun, который в конце прошлого года купили Anthropic, переписали с языка Zig на Rust.