Исключительный повод написать про квантизацию (сжатие) моделей Про квантизации я обычно не пишу, т.к. в бизнес задачах их практически не используют [1]. Но Google Gemma-3-27B стала исключением. Это сама по себе хорошая модель, которая еще и внезапно неплохо умеет в reasoning c SO CoT. Она весит 55GB и при загрузке в GPU в bf16 формате потребует ~ 60GB VRAM для текстовых задач. Это значит, что она влазит в одну H100 80GB. Народ, естественно, начал перепаковывать эту модель в всякие хитрые квантизации, чтобы запускать на карточках поменьше. А потом Google сделали ход конем и выпустили официальный google/gemma-3-27b-it-qat-q4_0-gguf. Эта квантизация условно использует не два байта на один параметр, а в четыре раза меньше (~4 бита на параметр), что транслируется в ~3x экономии памяти. Фишка и отличие здесь в том, что Google использовали __Quantisation Aware Training__ (QAT), которая позволяет пожать модель без особой потери качества. Если раньше у меня были большие надежды на версии qwen-2.5 для умных локальных систем, то сейчас еще больше нравится Gemma-3 (27B и 12B). У них выхлоп на размер сильно больше, думать умеют, поддержка языков заявлена хорошая, а теперь еще и появилось больше способов запускать на разном железе. Возможности для стартапов с локальными моделями прямо подскочили! Ваш, @llm_under_hood 🤗 [1] Квантизации могут экономить память GPU-шек за счет сжатия параметров , но при этом негативно влиять на точность и скорость ответов. Чем сильнее и хитрее пожали, тем больше эффект. И при этом еще и требуется, чтобы такую хитрую квантизацию нормально поддерживал софт и были люди с опытом. bf16 за квантизацию можно не считать, да и fp8 тоже (если он делается при помощи QAT и запускается нативно на GPU последних поколений)
Исключительный повод написать про квантизацию (сжатие) моделей Про квантизации…
Из этого канала
- #553Google: Agent2Agent Protocol (A2A) Google захотела сделать свой MCP протокол,…
Google: Agent2Agent Protocol (A2A) Google захотела сделать свой MCP протокол, только с крупными компаниями. Готово. Назвали его A2A (Agent2Agent).
- #554Cекретная Quasar Alpha модель довольно неплоха. Погадаем, кто это? У модели 8…
Cекретная Quasar Alpha модель довольно неплоха. Погадаем, кто это? У модели 8 место в моем бенчмарке на текущий момент.
- #555Нас не волнует то, чего мы не знаем. LLM тоже На фотографии - McArthur Wheeler,…
Нас не волнует то, чего мы не знаем. LLM тоже На фотографии - McArthur Wheeler, который в 1995 году ограбил два банка. Он это делал даже без маски, т.к.
- #551LLM Benchmarks - прогресс у Google За месяц накопились новые бенчмарки. Поэтому…
LLM Benchmarks - прогресс у Google За месяц накопились новые бенчмарки. Поэтому вот сразу пачка обновлений.
- #550А как решалось AI+Coding упражнение про парсер? (см описание тут) Да все просто…
А как решалось AI+Coding упражнение про парсер? (см описание тут) Да все просто и быстро. Самое главное - думать как опытный и ленивый специалист.