LanDiff – гибридный видеогенератор из LLM и Диффузии Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат. Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации. Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают. Черрипики выше — судите сами. Помните, что это всего 5B параметров. Project page Пейпер @ai_newz
LanDiff – гибридный видеогенератор из LLM и Диффузии Китайцы не спят, а…
Из этого канала
- #3740RIP Photoshop (нет) Потестил я мультимодальную Gemini Flash 2.0 (Image…
RIP Photoshop (нет) Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental.
- #3749Нейродайджест за неделю (#60) 🎉 Юбилейный выпуск! LLM - Анонсы OpenAI –…
Нейродайджест за неделю (#60) 🎉 Юбилейный выпуск! LLM - Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- #3751Трекинг-костюм больше не нужен Зацените, что может Move AI Gen 2. Трекает…
Трекинг-костюм больше не нужен Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз.
- #3732Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro. Вышел…
Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro. Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro…
- #3730"🔥Gemma 3 - новый лидер (второе место) в опен-сорсе Перфоманс: - Топ2 среди…
"🔥Gemma 3 - новый лидер (второе место) в опен-сорсе Перфоманс: - Топ2 среди опенсорса в human preference evaluations на LLM арене, то есть, генерит тексты,…