TurboQuant: новый стандарт эффективности ИИ благодаря экстремальному сжатию Google Research представляет набор алгоритмов квантования, которые сокращают потребление памяти кэша ключ-значение больших языковых моделей минимум в 6 раз и обеспечивают ускорение до 8 раз — без потери точности. Читать статью