LingBot-World — опенсорс-убийца Genie 3 Китайцы в очередной раз поражают своей плодовитостью, спустя всего пару дней после релиза от Google, выпустили в опенсорс полный аналог Genie 3 на базе Wan 2.2. Модель генерит интерактивные видео (миры), сохраняя консистентность мира на протяжении всей генерации, и управляться в реальном времени (720p 16fps) с задержкой <1 секунды. Причем симуляция может длиться аж до 10-ти минут. Под капотом MoE-архитектура из двух high и low noise 14B-экспертов (суммарно 28B), но в каждый момент времени активен только один. Тренировка проходила в три этапа: сначала взяли предобученный Wan 2.2, потом дотренировали на длинных видео с контролем действий, и в конце дистиллировали в быструю авторегрессионную диффузию для риалтайма (правда на домашнем железе такую игрушку поднять не выйдет). Техрепорт довольно подробный, стоит почитать. Ждем демо на Spaces. Project page GitHub Веса Paper @ai_newz