Наткнулся на интересный проект: PiT. Суть: даём модельке на вход пару визуальных кусочков — например, прическу, крыло и лапу, — а она достраивает из этого полноценного персонажа или предмет. Без текста, без описаний, только визуальные фрагменты. Вместо того чтобы объяснять словами, как ты это видишь, — просто показываешь, а модель понимает контекст и домысливает недостающее. Работает на улучшенном пространстве IP-Adapter+, а сверху можно накинуть LoRA, чтобы менять стили, фоны и сцену. Примеры, подробности и демки тут. Исходников пока нет, но скоро обещают выкатить