DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models… — @seeallochnaya

DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models (блог) Прикольная статья, показывающая новую (хотя думаю схожие работы были) парадигму: применение модели генерации изображений для решения визуальных пазлов. Сейчас когда вы работаете в Gemini App, то модель смотрит на всю картинку целиком, затем размышляет текстом и выдаёт текстовый ответ (слева сверху на первой картинке). ChatGPT, начиная с моделей о-серии, научились пользоваться инструментом вырезания части картинки: они могут отдать в Python команду «обрежь и приблизь верхний правый угол», посмотреть на него, подумать текстом и выдать текстовый же ответ (справа сверху на первой картинке) В случае DiffThinker (нижняя половина первой картинки) применяется Qwen-Image-Edit, который прямо на самой картинке генерирует решение в виде пути / точек / перестановки кусочков изображения. Перебор решений происходит в латентном пространстве (то есть после того, как VAE Encoder сжал изображение в некоторый набор векторов, которые всё ещё хранят смысл и детали изображения, но занимают меньше места в памяти), после чего Decoder расшифровывает латент решения обратно. К сожалению, подход не полностью end-2-end: во-первых, результат со сгенерированной картинки парсит отдельный код, не модель, и во-вторых, нет никаких рассуждений — единственный текст, который есть в трансформере, это специальный для каждой задачи промпт. Это разочаровывает, зато учится быстро: 3 часа на 8 H200. Надеюсь, авторам или другим талантливым людям дадут бюджет побольше, чтобы могли полноценно замкнуть цикл. Чтоб модель представила несколько решений, потом сама порассуждала над ними текстом, затем допилила один ответ и могла его вербализовать и/или выдать картинку. Ещё авторы дообучают модель на каждую задачу, поэтому не получается проверить, как работает на по-настоящему новых задачах (тут просто меняют размер поля). Вторая картинка — примеры задач и их решений DiffThinker-ом: поиск пути в лабиринте, соединение точек, судоку и восстановление изображения по кусочкам. Третья картинка — как выглядят решения на промежуточных шагах. Видно, что модель исследует несколько вариантов в параллель, но затем стирает неправильные пути и оставляет только верный. Четвертая картинка — пример объединения этого подхода и модели-критика на основе Gemini 3 Flash: диффузия генерирует 3-5 разных вариантов решения, а Gemini выбирает, какой из них является результатом. Пятая картинка — метрики, где видно, насколько лучше моделей даже с сильным Perception работает подход DiffThinker.

Из этого канала