И снова Universal/Looped Transformers. На этот раз для генерации изображений.… — @gonzo_ML

И снова Universal/Looped Transformers. На этот раз для генерации изображений. Один из главных selling point, что модель целиком вмещается в кеш ускорителя, не надо перекачивать постоянно веса из обычной памяти. ELT: Elastic Looped Transformers for Visual Generation __Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati__ Paper: https://arxiv.org/abs/2604.09168 Review: https://arxiviq.substack.com/p/elt-elastic-looped-transformers-for Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представили Elastic Looped Transformers (ELT) — рекуррентную архитектуру для генерации изображений, которая крайне экономно расходует параметры. Модель итеративно применяет один и тот же блок трансформерных слоёв с общими весами и обучается с помощью нового алгоритма Intra-Loop Self Distillation (ILSD). Это позволяет динамически менять вычислительный бюджет (количество циклов) прямо на инференсе без переобучения. ПОЧЕМУ это важно: Подход отвязывает количество параметров генеративной модели от её вычислительной глубины. ELT умещается целиком в быстрой накристальной памяти (SRAM) ускорителя, обходя «стену памяти» — медленную передачу данных из HBM. Метод выдаёт качество картинки на уровне SOTA, при этом используя в 4 раза меньше параметров. Это даёт удобный рычаг управления вычислениями на инференсе: от слабых edge-устройств до мощных облачных серверов. Для практиков: Для инженеров, масштабирующих архитектуры визуальной генерации, простое добавление новых трансформерных слоёв даёт убывающую отдачу из-за жёстких бутылочных горлышек при передаче данных. Статья показывает, что рекурсивная глубина архитектуры, если её грамотно регуляризовать для раннего выхода (early exit) через дистилляцию, даёт ту же репрезентативную силу, что и огромные feedforward-сети. В итоге получается модель, которая может динамически прерывать внутренние итерации на инференсе, предоставляя инженерам непрерывный Парето-фронт между задержкой и качеством из одного прогона обучения. Эластично генерировать тут: https://t.me/gonzo_ML_podcasts/3462

Из этого канала