HiDream-I1 (17B) - новая txt2img SOTA Пора бы уже привыкнуть, что нонейм команда из Китая нагибает западные СОТА. HiDream заняла второе место (уже слетела на третье) сразу после GPT 4o на Image Arena. И веса в опенсорсе! Они взяли VAE от самого удачного открытого Flux и намешали поверх кашу из MoE — двух MMDiT-блоков в одиночном и двойном потоках, туда же насыпали разных энкодеров и декодеров. Аж два клипа: OpenCLIP ViT-bigG и OpenAI CLIP ViT-L, и чисто текстовые: T5-XXL и Llama-3.1-8B-Instruct (что довольно необычно). Никаких данных о том, как это работает, нет, но по всей видимости более продвинутый механизм обработки промпта дает нехилый буст в плане понимания и следования инструкций — и, как следствие, эстетики картинки, в том числе на этапе тренировки. Есть всего 3 версии одной и той же модели, и они отличаются только количеством шагов. Видимо дистиллировали под разный бюджет на инференсе. Модель на 17B параметров, поэтому она очень медленная и требовательная (62GB VRAM), но это поправимо со временем. Интересно, что моделька распространяется под лицензией MIT, но вот T5-XXL и Llama-3.1-8B-Instruct — нет. Неловко вышло, однако :) __Кидайте свои генерации в комменты.__ Демо, говорят там пожатая модель Гитхаб Обнимающее лицо @ai_newz