Объединённый автоэнкодер придумали. Объенкодер. Странно, конечно, что раньше до… — @gonzo_ML

Объединённый автоэнкодер придумали. Объенкодер. Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал??? The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding __Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu__ Статья: https://arxiv.org/abs/2512.19693 Код: https://github.com/WeichenFan/UAE Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing # TL;DR ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои. ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов. Подробнее: https://t.me/gonzo_ML_podcasts/1874

Из этого канала