Любопытная работа про генерацию компактных латентов из многомерных картиночных эмбеддингов. One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation __Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu__ Статья: https://arxiv.org/abs/2512.07829 Ревью: https://arxiviq.substack.com/p/one-layer-is-enough-adapting-pretrained # TL;DR ЧТО сделали: Представили FAE (Feature Auto-Encoder) — фреймворк, сжимающий тяжелые репрезентации из замороженных визуальных моделей (вроде DINOv2 или SigLIP) в компактные латенты для генеративных моделей. Главная фишка: энкодер состоит всего из одного слоя self-attention и линейной проекции, а уникальная стратегия «двойного декодера» восстанавливает сначала фичи, и лишь потом — пиксели. ПОЧЕМУ это важно: Это элегантно решает проблему несовпадения размерностей между фичами «для понимания» (высокоразмерные, избыточные) и «генеративными» латентами (компактные), не требуя костылей в виде сложных лоссов выравнивания. Диффузионные модели с FAE сходятся в 7–13 раз быстрее бейзлайнов и выдают SOTA FID (1.29 на ImageNet 256). Работа доказывает, что для моста между дискриминативными и генеративными парадигмами достаточно минимальной адаптации. Подробнее: https://t.me/gonzo_ML_podcasts/2013