Ещё в тему про Universal Transformer (https://t.me/gonzo_ML/5270). Здесь улучшили способности UT через матричные residual connections (mHC от дипсика, про который недавно писали https://t.me/gonzo_ML/4497). Мне кажется это дуальная история к добавлению памяти, они в целом на одно и то же работают. Hyperloop Transformers __Abbas Zeitoun, Lucas Torroba-Hennigen, Yoon Kim__ Статья: https://arxiv.org/abs/2604.21254 Ревью: https://arxiviq.substack.com/p/hyperloop-transformers # TL;DR ЧТО сделали: Авторы представили Hyperloop Transformer — новую parameter-efficient архитектуру языковой модели. Она комбинирует стратегию шаринга параметров в средних слоях (middle-cycle) с гиперсвязями (manifold-constrained hyper-connections, mHC), которые применяются строго на границах циклов. Это расширяет стандартный одномерный residual stream в параллельный матричный поток, позволяя переиспользуемым слоям более гибко адаптироваться к разной глубине. ПОЧЕМУ это важно: Развёртывание мощных LLM на edge-устройствах (например, смартфонах с 8–16 ГБ оперативки) упирается именно в память, а не только в вычисления. Исторически модели с шарингом весов (looped-архитектуры) проигрывали по перплексии обычным моделям той же глубины. Эта работа закрывает разрыв: грамотно спроектированный матричный residual stream позволяет модели с вдвое меньшим числом параметров обходить свой обычный аналог, сохраняя при этом устойчивость к 4-битной посттренировочной квантизации. Для практиков: Архитектура позволяет уместить мощную модель в жёсткие лимиты памяти (8–16 ГБ) без сильной деградации качества. Модель отлично держит INT4 квантизацию и быстро сходится к правильным логитам внутри циклов, что открывает путь к быстрому инференсу с early-exit на локальных устройствах. Гиперлуп здесь: https://t.me/gonzo_ML_podcasts/3427
Ещё в тему про Universal Transformer (https://t.me/gonzoML/5270). Здесь…
Из этого канала
- #5294"Больше моделей мира за пределами красивых картинок! Agentic World Modeling:…
"Больше моделей мира за пределами красивых картинок! Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond Meng Chu, Xuan Billy Zhang, Kevin…
- #5300"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic…
"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic Sharpness Gap Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis Статья:…
- #5303И снова Universal/Looped Transformers. На этот раз для генерации изображений.…
И снова Universal/Looped Transformers. На этот раз для генерации изображений. Один из главных selling point, что модель целиком вмещается в кеш ускорителя, не…
- #5284Красивая история про квантизацию. Как сделать INT4, который нормально работает…
Красивая история про квантизацию. Как сделать INT4, который нормально работает на текущем железе.
- #5279Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь…
Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь асинхронная версия! Можно не блокироваться на поломанных воркеров в большом обучении,…