Красивая история. UT с последовательным применением линейного внимания… — @gonzo_ML

Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную сложность. LT2: Linear-Time Looped Transformers __Chunyuan Deng, Yizhe Zhang, Rui-jie Zhu, Yuanyuan Xu, Jiarui Liu, T. S. Eugene Ng, and Hanjie Chen__ Paper: https://arxiv.org/abs/2605.20670 Code: https://github.com/chili-lab/LT2 Model: https://huggingface.co/chili-lab/Ouro-hybrid-1.4B Review: https://arxiviq.substack.com/p/lt2-linear-time-looped-transformers # TL;DR ЧТО сделали: Авторы представили архитектуру LT2 (Linear-Time Looped Transformers) — семейство рекурсивных моделей, в которых ресурсоёмкое квадратичное внимание заменено на субквадратичные, линейные или разреженные механизмы смешивания токенов. Также они предложили гибридный подход, сочетающий разные типы внимания по глубине и шагам цикла, и разработали многоэтапную стратегию дистилляции для переноса весов из предобученных полносвязных зацикленных трансформеров. ПОЧЕМУ это важно: Хотя зацикленные трансформеры отлично экономят параметры за счёт повторного использования слоёв, стандартный softmax attention заставляет объём вычислений при обучении и размер KV-cache расти квадратично от длины контекста. LT2 устраняет это узкое место. Исследователи доказали, что зацикливание качественно обогащает субквадратичные миксеры — оно расширяет комбинаторное рецептивное поле разреженного внимания и повышает ранг состояния линейного внимания. Это позволяет запускать мощные рассуждающие модели на длинных контекстах с минимальным потреблением памяти. Для практиков: Разработанный метод дистилляции даёт готовый рецепт превращения тяжёлой зацикленной модели с полным вниманием в лёгкую субквадратичную версию. Это сокращает объём памяти под KV-cache и ускоряет инференс в 5–6 раз без потери качества работы с длинным контекстом. Линейно зацикливать здесь: https://t.me/gonzo_ML_podcasts/3714

Из этого канала