Hunyuan GameCraft — нейронный игровой движок от Tencent Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели. Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю. Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды. Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии. __А длинный путь мы прошли с ____GAN Theft Auto__ Сайт проекта Пейпер @ai_newz
Hunyuan GameCraft — нейронный игровой движок от Tencent Выглядит на голову выше…
Из этого канала
- #3988Gemini CLI — официальный агент для Gemini от Google Использовать можно…
Gemini CLI — официальный агент для Gemini от Google Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к…
- #3989Теперь Claude Artifacts могут вызывать API Claude Это делает их заметно…
Теперь Claude Artifacts могут вызывать API Claude Это делает их заметно полезнее — теперь можно создавать полноценные интерактивные инструменты прямо в чате, а…
- #3990Black Forest Labs выложили веса FLUX.1 Kontext [dev] Она, конечно, заметно…
Black Forest Labs выложили веса FLUX.1 Kontext [dev] Она, конечно, заметно слабее чем pro и max, но всё ещё часто обходит нативную генерацию изображений в…
- #3985HKU NLP выкатили POLARIS - рецепт для выжимания максимума из маленьких моделей…
HKU NLP выкатили POLARIS - рецепт для выжимания максимума из маленьких моделей через RL.
- #3983Нейродайджест за неделю (#74) Неделя YC AI Startup School - Выступление Сэма…
Нейродайджест за неделю (#74) Неделя YC AI Startup School - Выступление Сэма Альтмана — прямое включение с места событий! - Про AGI и мнения — были…