ПРОЕКТ: МоЧА __Да, первого апреля только такие новости, но это настоящая...__ (__Пощу с небольшим опозданием__) Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете. Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают. Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии: сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка. Генерация, конечно же не онлайн. Пейпер Project page @ai_newz