Объединённый автоэнкодер придумали. Объенкодер. Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал??? The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding __Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu__ Статья: https://arxiv.org/abs/2512.19693 Код: https://github.com/WeichenFan/UAE Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing # TL;DR ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои. ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов. Подробнее: https://t.me/gonzo_ML_podcasts/1874
Объединённый автоэнкодер придумали. Объенкодер. Странно, конечно, что раньше до…
Из этого канала
- #4485"System 3 предлагают. Не за горами и System 4. Sophia: A Persistent Agent…
"System 3 предлагают. Не за горами и System 4. Sophia: A Persistent Agent Framework of Artificial Life Mingyang Sun, Feng Hong, Weinan Zhang Статья:…
- #4490Мои любимые гиперсети. Hypernetworks That Evolve Themselves Joachim Winther…
Мои любимые гиперсети. Hypernetworks That Evolve Themselves Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin…
- #4493В продолжение темы про Manus. Если вдруг вы не видели эту свежую новость.…
В продолжение темы про Manus. Если вдруг вы не видели эту свежую новость. https://x.com/alexandrwang/status/2005766469771223106
- #4474Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует.…
Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует. NVIDIA Nemotron 3: Efficient and Open Intelligence NVIDIA (250+ contributors)…
- #4472Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на…
Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях.