Google перепридумали квантование: их алгоритм TurboQuant может стать новым стандартом эффективности LLM В современных моделях проблема памяти не только в числе параметров, но и в том, что модель постоянно таскает за собой огромное количество векторов – в KV-cache для длинного контекста и в индексах vector search для RAG. Именно они тормозят модель и делают инференс дорогим. Можно квантовать векторы (то есть уменьшать битность вычислений), но тогда модель теряет в качестве. Google придумали, как сжимать умнее: не просто округлить числа погрубее, а сделать это так, чтобы модель почти не замечала потери точности. Для практики это означает три вещи: 1. Длинный контекст становится дешевле 2. Инференс на том же железе ускоряется 3. Vector search по огромным базам становится компактнее и быстрее Технически метод TurboQuant состоит из двух слоев. PolarQuant сначала преобразует вектор через случайное вращение так, чтобы его можно было эффективно сжать с минимальными служебными затратами – именно за счет этого происходит основное сжатие без потери смысла. Затем QJL (Quantized Johnson-Lindenstrauss) добавляет сверхдешевую коррекцию ошибки, кодируя остаток всего одним дополнительным битом на компоненту. Это помогает еще точнее восстановить attention score с минимальной нагрузкой на вычисления. В экспериментах TurboQuant показывает лучший баланс между искажением скалярного произведения, recall и размером KV-cache – его удалось квантануть аж до 3 бит без дообучения и без компромисса по точности. В статье подчеркивается, что значения близки к теоретическим нижним границам, то есть это почти оптимум. Очень сильная инфрастуктурная работа. Google, как всегда, молодцы. research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
Google перепридумали квантование: их алгоритм TurboQuant может стать новым…
Из этого канала
- #8923🚀Yandex B2B Tech выделит компаниям 500 млн рублей на разработку ИИ-агентов Если…
🚀Yandex B2B Tech выделит компаниям 500 млн рублей на разработку ИИ-агентов Если вы планируете внедрить ИИ в свои решения, есть шанс упростить и ускорить…
- #8924Breaking: наконец-то выяснилось, чем вдохновлялся Ян Лекун, придумывая название…
Breaking: наконец-то выяснилось, чем вдохновлялся Ян Лекун, придумывая название для модели JEPA
- #8925"OpenAI закончила претрейн своей следующей модели, а еще в стартапе появился…
"OpenAI закончила претрейн своей следующей модели, а еще в стартапе появился отдел AGI Deployment The Information получили доступ к нескольким внутренним…
- #8919Роботы начнут думать быстрее: исследователи из Центрального университета…
Роботы начнут думать быстрее: исследователи из Центрального университета использовали квантовый процессор для ускорения движений робо-руки в 30 раз Российские…
- #8918Почему OpenAI закрывает SORA Вчера вечером OpenAI объявили, что прощаются с…
Почему OpenAI закрывает SORA Вчера вечером OpenAI объявили, что прощаются с SORA. На самом деле, решение было не то чтобы ожидаемым, но лежало на поверхности.