Там NVIDIA выкатила Lyra 2.0. У современных генеративных видеонейронок память… — @NeuralShit

Там NVIDIA выкатила Lyra 2.0. У современных генеративных видеонейронок память примерно как у хлебушка. Стоит виртуальной камере отвернуться, а потом вернуть взгляд назад как модель начинает заново галлюцинировать то, что уже видела. Плюс по дороге копятся артефакты: плывут цвета, форма объектов и вообще вся сцена потихоньку едет в жопу. Инженеры из NVIDIA говорят, что решили эту проблему. Решение оказалось простым как дверь от сарая: к нейронке прикрутили 3D-кэш. Для каждого сгенеренного кадра система хранит глубину, параметры камеры и облако точек. Когда надо посмотреть назад, модель не изобретает мир с нуля, а достает из кэша старые кадры и связанную с ними мету и использует эту геометрию как костыль для навигации при генерации. Это помогает не теряться при резких сменах ракурса и возвратах в уже виденные места. Еще одна фича: во время обучения специально подсовывают модели её же слегка испорченные предсказания, чтобы она училась исправлять собственный мусор, а не наращивать его кадр за кадром. На выходе получается уже не просто красивый тикток-видос, а сцена, которую можно реконструировать в 3D Gaussian Splatting, потом сунуть в интерактивный просмотрщик, VR или даже в симулятор для обучения роботов. Короче, 3D-моделлерам и левел-дизайнерам пока рано идти на рынок торговать луком, но задуматься об этом стоит. тут больше примеров, статья, модельки и все остальное.

Из этого канала