Ещё в тему про Universal Transformer (https://t.me/gonzo_ML/5270). Здесь улучшили способности UT через матричные residual connections (mHC от дипсика, про который недавно писали https://t.me/gonzo_ML/4497). Мне кажется это дуальная история к добавлению памяти, они в целом на одно и то же работают. Hyperloop Transformers __Abbas Zeitoun, Lucas Torroba-Hennigen, Yoon Kim__ Статья: https://arxiv.org/abs/2604.21254 Ревью: https://arxiviq.substack.com/p/hyperloop-transformers # TL;DR ЧТО сделали: Авторы представили Hyperloop Transformer — новую parameter-efficient архитектуру языковой модели. Она комбинирует стратегию шаринга параметров в средних слоях (middle-cycle) с гиперсвязями (manifold-constrained hyper-connections, mHC), которые применяются строго на границах циклов. Это расширяет стандартный одномерный residual stream в параллельный матричный поток, позволяя переиспользуемым слоям более гибко адаптироваться к разной глубине. ПОЧЕМУ это важно: Развёртывание мощных LLM на edge-устройствах (например, смартфонах с 8–16 ГБ оперативки) упирается именно в память, а не только в вычисления. Исторически модели с шарингом весов (looped-архитектуры) проигрывали по перплексии обычным моделям той же глубины. Эта работа закрывает разрыв: грамотно спроектированный матричный residual stream позволяет модели с вдвое меньшим числом параметров обходить свой обычный аналог, сохраняя при этом устойчивость к 4-битной посттренировочной квантизации. Для практиков: Архитектура позволяет уместить мощную модель в жёсткие лимиты памяти (8–16 ГБ) без сильной деградации качества. Модель отлично держит INT4 квантизацию и быстро сходится к правильным логитам внутри циклов, что открывает путь к быстрому инференсу с early-exit на локальных устройствах. Гиперлуп здесь: https://t.me/gonzo_ML_podcasts/3427