Техрепорт FLUX.1 Kontext — как FLUX работает с референсами Репорт не новый, но вот только сейчас дошли руки про него написать. За основу взяли привычную архитектуру FLUX.1, которую со второй версией практически не изменили (если не считать добавление огромного Мистраля 24B как текстового энкодера). Модель дообучают с той же rectified-flow loss на парах результат | референс+текст. Каждый референсный кадр превращают в визуальные токены, ставят их перед целевыми, а 3D RoPE эмбеддинги (привет видео моделям) сдвигают на фиксированный шаг, который отделяет контекст от результата. Попытка сшивать каналы вместо токенов работала хуже, поэтому от неё отказались. Плюс такого механизма — референсов может быть несколько и они неплохо скейлятся. FLUX.1 Kontext поддерживал лишь один референс, а FLUX.2 поддерживает уже до 10. Но умельцы и во времена Kontext находили способ засовывать несколько референсов — просто склеивали несколько картинок в одну. Что победит — такой механизм перекликающийся с видеомоделями или просто засовывание изображений в контекст как у Nano Banana/GPT-Image, ещё не очевидно. Nano Banana Pro хоть и лучше по качеству, но вопрос сколько из этой разницы идёт от архитектуры, а сколько просто из громадного скейла Gemini 3 Pro. Ну и ведь всегда могут появится ещё и новые варианты работы с референсами. Техрепорт @ai_newz
Техрепорт FLUX.1 Kontext — как FLUX работает с референсами Репорт не новый, но…
Из этого канала
- #4280Новый видеогенератор (или новая версия старого) На Artificial Analysis…
Новый видеогенератор (или новая версия старого) На Artificial Analysis Leaderboard в разделе Text-to-Video появился новый загадочный генератор Whisper Thunder…
- #4289Интересная диаграмма из свежего репорта SemiAnalysis Показывает насколько…
Интересная диаграмма из свежего репорта SemiAnalysis Показывает насколько дешевле свежие TPU v7 Ironwood для Google по сравнению с GB300.
- #4290"Нейродайджест за неделю (#96) LLM - Claude Opus 4.5 — Anthropic выпустили…
"Нейродайджест за неделю (#96) LLM - Claude Opus 4.5 — Anthropic выпустили новую SOTA-модель для кодинга, которая обходит всех конкурентов.
- #4278Пока Google всё ещё раскатывает свои AI-фишки для шоппинга вроде Virtual…
Пока Google всё ещё раскатывает свои AI-фишки для шоппинга вроде Virtual Try-On, Яндекс выкатил свой ответ — агента в приложении Маркета (работает только в…
- #4277Илья дал большое интервью: https://www.youtube.com/watch?v=aR20FWCCjAs Вот…
Илья дал большое интервью: https://www.youtube.com/watch?v=aR20FWCCjAs Вот главное: – Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах:…