DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models (блог) Прикольная статья, показывающая новую (хотя думаю схожие работы были) парадигму: применение модели генерации изображений для решения визуальных пазлов. Сейчас когда вы работаете в Gemini App, то модель смотрит на всю картинку целиком, затем размышляет текстом и выдаёт текстовый ответ (слева сверху на первой картинке). ChatGPT, начиная с моделей о-серии, научились пользоваться инструментом вырезания части картинки: они могут отдать в Python команду «обрежь и приблизь верхний правый угол», посмотреть на него, подумать текстом и выдать текстовый же ответ (справа сверху на первой картинке) В случае DiffThinker (нижняя половина первой картинки) применяется Qwen-Image-Edit, который прямо на самой картинке генерирует решение в виде пути / точек / перестановки кусочков изображения. Перебор решений происходит в латентном пространстве (то есть после того, как VAE Encoder сжал изображение в некоторый набор векторов, которые всё ещё хранят смысл и детали изображения, но занимают меньше места в памяти), после чего Decoder расшифровывает латент решения обратно. К сожалению, подход не полностью end-2-end: во-первых, результат со сгенерированной картинки парсит отдельный код, не модель, и во-вторых, нет никаких рассуждений — единственный текст, который есть в трансформере, это специальный для каждой задачи промпт. Это разочаровывает, зато учится быстро: 3 часа на 8 H200. Надеюсь, авторам или другим талантливым людям дадут бюджет побольше, чтобы могли полноценно замкнуть цикл. Чтоб модель представила несколько решений, потом сама порассуждала над ними текстом, затем допилила один ответ и могла его вербализовать и/или выдать картинку. Ещё авторы дообучают модель на каждую задачу, поэтому не получается проверить, как работает на по-настоящему новых задачах (тут просто меняют размер поля). Вторая картинка — примеры задач и их решений DiffThinker-ом: поиск пути в лабиринте, соединение точек, судоку и восстановление изображения по кусочкам. Третья картинка — как выглядят решения на промежуточных шагах. Видно, что модель исследует несколько вариантов в параллель, но затем стирает неправильные пути и оставляет только верный. Четвертая картинка — пример объединения этого подхода и модели-критика на основе Gemini 3 Flash: диффузия генерирует 3-5 разных вариантов решения, а Gemini выбирает, какой из них является результатом. Пятая картинка — метрики, где видно, насколько лучше моделей даже с сильным Perception работает подход DiffThinker.
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models…
Из этого канала
- #3254ВОСЕМЬ советов от создателя Claude Code, чтобы перестать вайбкодить в Новом…
ВОСЕМЬ советов от создателя Claude Code, чтобы перестать вайбкодить в Новом году и стать 10x инженером: 1) Запускать 5 терминалов в параллель + 5-10 вкладок на…
- #3258Почтим память легенды — StackOverflow почти всё. За декабрь на ресурсе было…
Почтим память легенды — StackOverflow почти всё. За декабрь на ресурсе было размещено 3710 вопросов, в прошлом январе 22.5 тыс — почти в 10 раз меньше пика…
- #3259Наткнулся на твит от создателя Django Simon Willison: — У меня стойкое…
Наткнулся на твит от создателя Django Simon Willison: — У меня стойкое ощущение, что ноябрьские версии GPT-5.2 и Opus 4.5 стали переломным моментом.
- #3248Первая новостная заметка от TheInformation в новом году: OpenAI наращивает…
Первая новостная заметка от TheInformation в новом году: OpenAI наращивает усилия по разработке аудио-моделей в преддверии выпуска новых девайсов.
- #3247Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как…
Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как было у ByteDance, и в чём собственно идея HyperConnection.