Пиксели тоже думают. А мегапиксели... Если серьёзно, то это моя любимая тема про рекуррентный ризонинг, теперь применённая к диффузионным моделям. The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents __Yuwei Sun, Yuxuan Yao, Hui Li, Siyu Zhu__ Paper: https://arxiv.org/abs/2604.25299 Review: https://arxiviq.substack.com/p/the-thinking-pixel-recursive-sparse Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представили фреймворк Recursive Sparse Reasoning (рекурсивные разреженные рассуждения), который встраивает рекурсивные разреженные модули смеси экспертов (MoE) прямо в слои совместного внимания (joint attention) мультимодальных диффузионных архитектур. Этот подход позволяет итеративно уточнять непрерывные визуальные токены на протяжении нескольких внутренних латентных шагов (latent steps) с помощью эффективных по параметрам LoRA-адаптеров. ПОЧЕМУ это важно: Классические text-to-image диффузионные модели используют монолитные однопроходные архитектуры, которым тяжело даются сложные композиционные инструкции (например, подсчёт объектов, пространственные отношения и связывание свойств). Перенос латентных рассуждений на этапе инференса (test-time) — приёма, традиционно применяемого в LLM, — в непрерывное пространство визуальных латентов значительно улучшает соответствие текста и изображения, а также повышает точность генерации без колоссальных вычислительных затрат на масштабирование основной модели. Для практиков: Для исследователей, инженеров и продуктовых команд, создающих передовые мультимодальные системы, эта работа предлагает готовый шаблон для внедрения механизмов рассуждения (reasoning) в генеративные визуальные модели. Использование разреженно-управляемых внутренних циклов размышлений внутри слоёв внимания позволяет динамически исправлять композиционные и семантические несоответствия ещё до генерации пикселей. Это важный шаг от статического прямого распространения (feedforward) к адаптивным генеративным агентам с гибко масштабируемыми вычислениями. Думать вместе с пикселями тут: https://t.me/gonzo_ML_podcasts/3836
Пиксели тоже думают. А мегапиксели... Если серьёзно, то это моя любимая тема…
Из этого канала
- #5472Ещё один свежий заход на то, что надо предсказывать латенты (как и в JEPA), а…
Ещё один свежий заход на то, что надо предсказывать латенты (как и в JEPA), а не финальные представления. Тогда ещё и выборочная сложность сильно лучше.
- #5475"Новости рекуррентного ризонинга. Теперь нейросимвольный подход с добавлением…
"Новости рекуррентного ризонинга. Теперь нейросимвольный подход с добавлением решёток (Дима Игнатов будет счастлив!).
- #5479Про важность обвязки (харнеса) и прогрессирующую экстернализацию у LLM агентов.…
Про важность обвязки (харнеса) и прогрессирующую экстернализацию у LLM агентов. Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols…
- #5464У агентов всё как у людей, кто громче и самоувереннее кричит, того мнение и…
У агентов всё как у людей, кто громче и самоувереннее кричит, того мнение и слушают 😿 Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?…
- #5456Наш любимый Michael Levin написал любопытную статью (он на редкость…
Наш любимый Michael Levin написал любопытную статью (он на редкость продуктивен, пишет много).