"Parallel Scaling Law Обычно LLM масштабируют либо через параметры (Dense, MoE), либо через время инференса (CoT). PARSCALE предлагает третий, ""параллельный"" путь. Это нечто среднее: умеренное время инференса и умеренное потребление памяти. Суть метода в том, чтобы масштабировать параллельные вычисления, выполняемые моделью, при этом сохраняя количество ее основных параметров практически неизменным. Работает PARSCALE через механизм обучаемых префиксов. Берём один входной запрос и создаём из него P разных версий, добавляя к каждой свой уникальный префикс. Эти префиксы - не просто текст, а специальные обучаемые векторы (примерно 48 токенов), которые встраиваются в каждый слой внимания модели. Они работают как ""линзы"", заставляя модель смотреть на один и тот же запрос под разными углами. Все P версий запроса обрабатываются параллельно через одну и ту же модель, но из-за разных префиксов получаются разные ответы. Эти ответы затем взвешенно смешиваются с помощью небольшой нейросети, которая учится определять, насколько хорошо ответ с каждого потока подходит для каждого токена. P параллельных потоков с разными префиксами дают такой же прирост качества, как увеличение размера модели в log(P) раз. То есть 8 потоков ≈ модель в 3 раза больше, но без реального роста числа параметров. Главное преимущество PARSCALE — его эффективность в локальном инференсе. При локальном инференсе основной ботлнек — в загрузке данных из памяти на чип, так что батчинг запросов практически не влияет на задержку. Для модели размером 1.6 млрд параметров, использование PARSCALE с P=8 требует до 22 раз меньше дополнительной оперативной памяти и обеспечивает до 6 раз меньший дополнительный прирост задержки по сравнению с масштабированием параметров до аналогичного уровня качества (при batch size = 1). Особенно хорошо PARSCALE проявляется на генерации кода и математике. Кроме того, это применимо к любой архитектуре, данным и задачам. Для снижения затрат на обучение авторы предлагают использовать PARSCALE лишь на посттрейн стадии. Это работает и с уже существующими моделями путем их дообучения с PARSCALE, причем даже с замороженными весами основной модели, обучая только компоненты PARSCALE (PEFT-подход). Тема интересная, у облачного и локального инференса разные ботлнеки, так что архитектуры тоже должны отличаться. Всё для того чтобы локальные модели были быстрее и дешевле. Пейпер Код с моделями @ai_newz"
"Parallel Scaling Law Обычно LLM масштабируют либо через параметры (Dense,…
Из этого канала
- #3928Нейродайджест за неделю (#70) Юбилейный и неделя Google Google I/O - Дайджест…
Нейродайджест за неделю (#70) Юбилейный и неделя Google Google I/O - Дайджест по презентации — собрал все фишки с пояснениями, что как работает.
- #3929NVIDIA готовит новые GPU для Китая Судя по утечкам, речь идёт о GPU с рабочим…
NVIDIA готовит новые GPU для Китая Судя по утечкам, речь идёт о GPU с рабочим названием B40/6000D: та же архитектура Blackwell, но урезанное число SM и с…
- #3930Стенфордский курс по внутреннему устройству LLM CS336, Language Modeling from…
Стенфордский курс по внутреннему устройству LLM CS336, Language Modeling from Scratch, показывает, как сделать полноценную LLM с нуля: от сбора и очистки…
- #3925Anthropic только что релизнули Claude 4 Sonnet и Opus Модели концентрируются на…
Anthropic только что релизнули Claude 4 Sonnet и Opus Модели концентрируются на кодинге и агентах — там они SOTA, в остальных бенчах всё более спорно.
- #3923Devstral 24B — лучшая открытая агентная модель для кодинга Mistral AI и All…
Devstral 24B — лучшая открытая агентная модель для кодинга Mistral AI и All Hands AI представили Devstral — специализированную LLM для реальных задач в…