HiDream-I1 (17B) - новая txt2img SOTA Пора бы уже привыкнуть, что нонейм команда из Китая нагибает западные СОТА. HiDream заняла второе место (уже слетела на третье) сразу после GPT 4o на Image Arena. И веса в опенсорсе! Они взяли VAE от самого удачного открытого Flux и намешали поверх кашу из MoE — двух MMDiT-блоков в одиночном и двойном потоках, туда же насыпали разных энкодеров и декодеров. Аж два клипа: OpenCLIP ViT-bigG и OpenAI CLIP ViT-L, и чисто текстовые: T5-XXL и Llama-3.1-8B-Instruct (что довольно необычно). Никаких данных о том, как это работает, нет, но по всей видимости более продвинутый механизм обработки промпта дает нехилый буст в плане понимания и следования инструкций — и, как следствие, эстетики картинки, в том числе на этапе тренировки. Есть всего 3 версии одной и той же модели, и они отличаются только количеством шагов. Видимо дистиллировали под разный бюджет на инференсе. Модель на 17B параметров, поэтому она очень медленная и требовательная (62GB VRAM), но это поправимо со временем. Интересно, что моделька распространяется под лицензией MIT, но вот T5-XXL и Llama-3.1-8B-Instruct — нет. Неловко вышло, однако :) __Кидайте свои генерации в комменты.__ Демо, говорят там пожатая модель Гитхаб Обнимающее лицо @ai_newz
HiDream-I1 (17B) - новая txt2img SOTA Пора бы уже привыкнуть, что нонейм…
Из этого канала
- #3823"Mechanistic permutability: Match across layers В современных нейронках одна из…
"Mechanistic permutability: Match across layers В современных нейронках одна из ключевых проблем интерпретируемости — полисемантичность, когда отдельные…
- #3824Для Grok 3 вышло API Дают доступ к двум моделям — Grok 3 и Grok 3 Mini.…
Для Grok 3 вышло API Дают доступ к двум моделям — Grok 3 и Grok 3 Mini. Контекст — 131к для обеих моделей.
- #3825🔥🔥🔥 Бесплатно VEO 2 - бесплатно для всех! Звучит как скам, но нет) Гугл…
🔥🔥🔥 Бесплатно VEO 2 - бесплатно для всех! Звучит как скам, но нет) Гугл внезапно расщедрился и дал доступ всем желающим.
- #3817TPU v7 — Ironwood Google показали новое поколение TPU, на одном уровне с…
TPU v7 — Ironwood Google показали новое поколение TPU, на одном уровне с Blackwell. В новом поколении 4.6 Dense петафлопса на чип — чуть больше чем в B200.
- #3814Почему опенсорс – это круто? Наткнулся на такой тред в X – некоторые люди не…
Почему опенсорс – это круто? Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин).