Пиксели тоже думают. А мегапиксели... Если серьёзно, то это моя любимая тема… — @gonzo_ML

Пиксели тоже думают. А мегапиксели... Если серьёзно, то это моя любимая тема про рекуррентный ризонинг, теперь применённая к диффузионным моделям. The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents __Yuwei Sun, Yuxuan Yao, Hui Li, Siyu Zhu__ Paper: https://arxiv.org/abs/2604.25299 Review: https://arxiviq.substack.com/p/the-thinking-pixel-recursive-sparse Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представили фреймворк Recursive Sparse Reasoning (рекурсивные разреженные рассуждения), который встраивает рекурсивные разреженные модули смеси экспертов (MoE) прямо в слои совместного внимания (joint attention) мультимодальных диффузионных архитектур. Этот подход позволяет итеративно уточнять непрерывные визуальные токены на протяжении нескольких внутренних латентных шагов (latent steps) с помощью эффективных по параметрам LoRA-адаптеров. ПОЧЕМУ это важно: Классические text-to-image диффузионные модели используют монолитные однопроходные архитектуры, которым тяжело даются сложные композиционные инструкции (например, подсчёт объектов, пространственные отношения и связывание свойств). Перенос латентных рассуждений на этапе инференса (test-time) — приёма, традиционно применяемого в LLM, — в непрерывное пространство визуальных латентов значительно улучшает соответствие текста и изображения, а также повышает точность генерации без колоссальных вычислительных затрат на масштабирование основной модели. Для практиков: Для исследователей, инженеров и продуктовых команд, создающих передовые мультимодальные системы, эта работа предлагает готовый шаблон для внедрения механизмов рассуждения (reasoning) в генеративные визуальные модели. Использование разреженно-управляемых внутренних циклов размышлений внутри слоёв внимания позволяет динамически исправлять композиционные и семантические несоответствия ещё до генерации пикселей. Это важный шаг от статического прямого распространения (feedforward) к адаптивным генеративным агентам с гибко масштабируемыми вычислениями. Думать вместе с пикселями тут: https://t.me/gonzo_ML_podcasts/3836

Из этого канала