Ещё вам работ про геометрию! Диффузионки на эмбеддингах DINO работают не очень,… — @gonzo_ML

Ещё вам работ про геометрию! Диффузионки на эмбеддингах DINO работают не очень, в недавней работе про RAE предлагали для этого расширять DiT. Но оказалось, что дело в неевклидовой геометрии и надо сделать правильные лоссы и двигаться по геодезическим, чтобы не уходить с многообразия. В каком-то смысле перекликающаяся работа была не так давно про FAE (https://t.me/gonzo_ML_podcasts/2013), но там не в самом пространстве DINO работали, а учились его сжимать так, чтобы DiT с ним хорошо работал. Теперь научились пространство не сжимать, а сам DiT при этом не расширять (как в RAE). Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders __Amandeep Kumar, Vishal M. Patel__ Статья: https://arxiv.org/abs/2602.10099 Код: https://github.com/amandpkr/RJF Ревью: https://arxiviq.substack.com/p/learning-on-the-manifold-unlocking # TL;DR ЧТО сделали: Предложили метод Riemannian Flow Matching with Jacobi Regularization (RJF). Он позволяет обучать стандартные диффузионные трансформеры (DiT) напрямую в пространстве признаков предобученных энкодеров (DINOv2, SigLIP). Суть метода в замене евклидовой линейной интерполяции на геодезические пути на гиперсфере (`S^{d-1}`) и взвешивании лосса с учётом кривизны пространства. ПОЧЕМУ это важно: Работа опровергает гипотезу о «бутылочном горлышке ёмкости» (capacity bottleneck), выдвинутую в недавней статье про RAE (https://arxiv.org/abs/2510.11690). Ранее считалось, что DiT не справляются с высокоразмерными латентами без колоссального увеличения ширины модели (width scaling). Авторы доказывают: проблема не в размере модели, а в геометрии. Учёт топологии многообразия позволяет обычному DiT-B (131M параметров) выдавать SOTA-уровень (FID 3.37 на ImageNet-256), обходя куда более тяжеловесные бейзлайны. Читать тут: https://t.me/gonzo_ML_podcasts/2458

Из этого канала