Корейские исследователи из KAIST выкатили EgoX — нейронку, которая берет одно обычное видео со стороны (от третьего лица) и перегоняет его в вид из глаз (от первого лица). Звучит как магия, потому что при смене ракурса нейронке нужно додумать кучу деталей, которых не было в кадре, и не сломать геометрию. Кратко о том, как это работает под капотом: 1) Видео поднимается в 3D (облако точек) и рендерится черновой вариант «из глаз». 2) Этот черновик и исходное видео скармливаются видео-диффузионной модели (за основу взяли свежую Wan 2.1). 3) Чтобы нейронке сильно не плавило мозги и она не галлюцинировала, прикрутили хитрый механизм внимания, который следит, чтобы 3D-геометрия совпадала с нарисованными пикселями. На выходе должна получаться стабильная картинка без желе и артефактов.. Ждем, когда опубликуют код и умеющие люди прикрутят это к VR, чтобы пересматривать ~~любимое порно~~, любимые фильмы с полным погружением. Статья тут