"Parallel Scaling Law Обычно LLM масштабируют либо через параметры (Dense,… — @ai_newz

"Parallel Scaling Law Обычно LLM масштабируют либо через параметры (Dense, MoE), либо через время инференса (CoT). PARSCALE предлагает третий, ""параллельный"" путь. Это нечто среднее: умеренное время инференса и умеренное потребление памяти. Суть метода в том, чтобы масштабировать параллельные вычисления, выполняемые моделью, при этом сохраняя количество ее основных параметров практически неизменным. Работает PARSCALE через механизм обучаемых префиксов. Берём один входной запрос и создаём из него P разных версий, добавляя к каждой свой уникальный префикс. Эти префиксы - не просто текст, а специальные обучаемые векторы (примерно 48 токенов), которые встраиваются в каждый слой внимания модели. Они работают как ""линзы"", заставляя модель смотреть на один и тот же запрос под разными углами. Все P версий запроса обрабатываются параллельно через одну и ту же модель, но из-за разных префиксов получаются разные ответы. Эти ответы затем взвешенно смешиваются с помощью небольшой нейросети, которая учится определять, насколько хорошо ответ с каждого потока подходит для каждого токена. P параллельных потоков с разными префиксами дают такой же прирост качества, как увеличение размера модели в log(P) раз. То есть 8 потоков ≈ модель в 3 раза больше, но без реального роста числа параметров. Главное преимущество PARSCALE — его эффективность в локальном инференсе. При локальном инференсе основной ботлнек — в загрузке данных из памяти на чип, так что батчинг запросов практически не влияет на задержку. Для модели размером 1.6 млрд параметров, использование PARSCALE с P=8 требует до 22 раз меньше дополнительной оперативной памяти и обеспечивает до 6 раз меньший дополнительный прирост задержки по сравнению с масштабированием параметров до аналогичного уровня качества (при batch size = 1). Особенно хорошо PARSCALE проявляется на генерации кода и математике. Кроме того, это применимо к любой архитектуре, данным и задачам. Для снижения затрат на обучение авторы предлагают использовать PARSCALE лишь на посттрейн стадии. Это работает и с уже существующими моделями путем их дообучения с PARSCALE, причем даже с замороженными весами основной модели, обучая только компоненты PARSCALE (PEFT-подход). Тема интересная, у облачного и локального инференса разные ботлнеки, так что архитектуры тоже должны отличаться. Всё для того чтобы локальные модели были быстрее и дешевле. Пейпер Код с моделями @ai_newz"

Из этого канала