Техрепорт FLUX.1 Kontext — как FLUX работает с референсами Репорт не новый, но вот только сейчас дошли руки про него написать. За основу взяли привычную архитектуру FLUX.1, которую со второй версией практически не изменили (если не считать добавление огромного Мистраля 24B как текстового энкодера). Модель дообучают с той же rectified-flow loss на парах результат | референс+текст. Каждый референсный кадр превращают в визуальные токены, ставят их перед целевыми, а 3D RoPE эмбеддинги (привет видео моделям) сдвигают на фиксированный шаг, который отделяет контекст от результата. Попытка сшивать каналы вместо токенов работала хуже, поэтому от неё отказались. Плюс такого механизма — референсов может быть несколько и они неплохо скейлятся. FLUX.1 Kontext поддерживал лишь один референс, а FLUX.2 поддерживает уже до 10. Но умельцы и во времена Kontext находили способ засовывать несколько референсов — просто склеивали несколько картинок в одну. Что победит — такой механизм перекликающийся с видеомоделями или просто засовывание изображений в контекст как у Nano Banana/GPT-Image, ещё не очевидно. Nano Banana Pro хоть и лучше по качеству, но вопрос сколько из этой разницы идёт от архитектуры, а сколько просто из громадного скейла Gemini 3 Pro. Ну и ведь всегда могут появится ещё и новые варианты работы с референсами. Техрепорт @ai_newz