И снова Universal/Looped Transformers. На этот раз для генерации изображений. Один из главных selling point, что модель целиком вмещается в кеш ускорителя, не надо перекачивать постоянно веса из обычной памяти. ELT: Elastic Looped Transformers for Visual Generation __Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati__ Paper: https://arxiv.org/abs/2604.09168 Review: https://arxiviq.substack.com/p/elt-elastic-looped-transformers-for Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представили Elastic Looped Transformers (ELT) — рекуррентную архитектуру для генерации изображений, которая крайне экономно расходует параметры. Модель итеративно применяет один и тот же блок трансформерных слоёв с общими весами и обучается с помощью нового алгоритма Intra-Loop Self Distillation (ILSD). Это позволяет динамически менять вычислительный бюджет (количество циклов) прямо на инференсе без переобучения. ПОЧЕМУ это важно: Подход отвязывает количество параметров генеративной модели от её вычислительной глубины. ELT умещается целиком в быстрой накристальной памяти (SRAM) ускорителя, обходя «стену памяти» — медленную передачу данных из HBM. Метод выдаёт качество картинки на уровне SOTA, при этом используя в 4 раза меньше параметров. Это даёт удобный рычаг управления вычислениями на инференсе: от слабых edge-устройств до мощных облачных серверов. Для практиков: Для инженеров, масштабирующих архитектуры визуальной генерации, простое добавление новых трансформерных слоёв даёт убывающую отдачу из-за жёстких бутылочных горлышек при передаче данных. Статья показывает, что рекурсивная глубина архитектуры, если её грамотно регуляризовать для раннего выхода (early exit) через дистилляцию, даёт ту же репрезентативную силу, что и огромные feedforward-сети. В итоге получается модель, которая может динамически прерывать внутренние итерации на инференсе, предоставляя инженерам непрерывный Парето-фронт между задержкой и качеством из одного прогона обучения. Эластично генерировать тут: https://t.me/gonzo_ML_podcasts/3462
И снова Universal/Looped Transformers. На этот раз для генерации изображений.…
Из этого канала
- #5309Готовлю обновление своей статьи, получил интересную картинку, подтверждающую,…
Готовлю обновление своей статьи, получил интересную картинку, подтверждающую, что UT с памятью обменивает размер памяти на количество итераций.
- #5310Попалась свежая интересная репа, собирающая всё про UT/Looped Models…
Попалась свежая интересная репа, собирающая всё про UT/Looped Models https://github.com/huskydoge/Awesome-Loop-Models
- #5311"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM…
"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах.
- #5300"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic…
"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic Sharpness Gap Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis Статья:…
- #5294"Больше моделей мира за пределами красивых картинок! Agentic World Modeling:…
"Больше моделей мира за пределами красивых картинок! Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond Meng Chu, Xuan Billy Zhang, Kevin…