Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to… — @gonzo_ML

Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to train your latents __Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans__ Paper: https://arxiv.org/abs/2602.17270 Ревью: https://arxiviq.substack.com/p/unified-latents-ul-how-to-train-your Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представляют Unified Latents (UL) — фреймворк для совместного обучения детерминированного энкодера изображений, диффузионного прайора (prior) и диффузионного декодера. Явно связывая фиксированный шум, добавляемый в латентное пространство, с максимальной точностью априорной диффузионной модели, они заменяют ручные штрафы на базе KL-дивергенции (как в стандартных автоэнкодерах) на взвешенную функцию потерь MSE по уровням шума. Это даёт точную, математически ограниченную оценку информации в латентах. ПОЧЕМУ это важно: Метод решает фундаментальную проблему компромисса между плотностью информации в латентах и сложностью генеративного моделирования. Предоставляя явные гиперпараметры для настройки «битрейта» латентного пространства, UL устанавливает новый рубеж Парето для эффективности предобучения. Метод выдаёт мощные метрики генерации на ImageNet-512 (FID 1.4) и достигает SOTA на Kinetics-600 (FVD 1.3), требуя при этом меньше вычислительных затрат (FLOPs) на обучение, чем бейзлайны на латентной диффузии. Это закладывает принципиальную основу для вывода законов масштабирования в обучении репрезентаций. Диффундировать тут: https://t.me/gonzo_ML_podcasts/2516

Из этого канала