Ещё вам работ про геометрию! Диффузионки на эмбеддингах DINO работают не очень, в недавней работе про RAE предлагали для этого расширять DiT. Но оказалось, что дело в неевклидовой геометрии и надо сделать правильные лоссы и двигаться по геодезическим, чтобы не уходить с многообразия. В каком-то смысле перекликающаяся работа была не так давно про FAE (https://t.me/gonzo_ML_podcasts/2013), но там не в самом пространстве DINO работали, а учились его сжимать так, чтобы DiT с ним хорошо работал. Теперь научились пространство не сжимать, а сам DiT при этом не расширять (как в RAE). Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders __Amandeep Kumar, Vishal M. Patel__ Статья: https://arxiv.org/abs/2602.10099 Код: https://github.com/amandpkr/RJF Ревью: https://arxiviq.substack.com/p/learning-on-the-manifold-unlocking # TL;DR ЧТО сделали: Предложили метод Riemannian Flow Matching with Jacobi Regularization (RJF). Он позволяет обучать стандартные диффузионные трансформеры (DiT) напрямую в пространстве признаков предобученных энкодеров (DINOv2, SigLIP). Суть метода в замене евклидовой линейной интерполяции на геодезические пути на гиперсфере (`S^{d-1}`) и взвешивании лосса с учётом кривизны пространства. ПОЧЕМУ это важно: Работа опровергает гипотезу о «бутылочном горлышке ёмкости» (capacity bottleneck), выдвинутую в недавней статье про RAE (https://arxiv.org/abs/2510.11690). Ранее считалось, что DiT не справляются с высокоразмерными латентами без колоссального увеличения ширины модели (width scaling). Авторы доказывают: проблема не в размере модели, а в геометрии. Учёт топологии многообразия позволяет обычному DiT-B (131M параметров) выдавать SOTA-уровень (FID 3.37 на ImageNet-256), обходя куда более тяжеловесные бейзлайны. Читать тут: https://t.me/gonzo_ML_podcasts/2458
Ещё вам работ про геометрию! Диффузионки на эмбеддингах DINO работают не очень,…
Из этого канала
- #4793Вчера приехал Claude Sonnet 4.6…
Вчера приехал Claude Sonnet 4.6 (https://www.anthropic.com/news/claude-sonnet-4-6), сегодня выехала Gemini 3.1 Pro…
- #4796Ещё вам всякой прекрасной геометрии в ленту. На этот раз для быстрой генерации…
Ещё вам всякой прекрасной геометрии в ленту. На этот раз для быстрой генерации в дискретных модальностях.
- #4800Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought…
Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought Gestalt, LLM-JEPA, ...
- #4788Отдельное прекрасное
Отдельное прекрасное
- #4785Прикольная работа от Антропика про то, как реализован счёт внутри моделей. Они…
Прикольная работа от Антропика про то, как реализован счёт внутри моделей. Они уже публиковали это осенью в Transformer Circuits, теперь оформили в статью.