"В последние полгода происходит тотальная джепизация планеты. Вот свежая NEPA. Next-Embedding Prediction Makes Strong Vision Learners __Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu__ Статья: https://arxiv.org/abs/2512.16922 Код: https://github.com/sihanxu/nepa Модель: https://sihanxu.github.io/nepa Сайт: https://sihanxu.github.io/nepa Ревью: https://arxiviq.substack.com/p/next-embedding-prediction-makes-strong # TL;DR ЧТО сделали: Авторы представили NEPA (Next-Embedding Predictive Autoregression) — фреймворк для self-supervised обучения визуальных трансформеров (ViT). Идея заключается в предсказании эмбеддинга *следующего* патча изображения при условии знания предыдущих. В отличие от стандартных генеративных подходов, NEPA работает полностью в непрерывном латентном пространстве, не используя дискретные токенизаторы (как в VQ-VAE) или попиксельную реконструкцию (как в MAE). ПОЧЕМУ это важно: Этот подход фактически унифицирует цели обучения визуальных и языковых моделей. NEPA доказывает, что чистый objective ""предсказания следующего токена"" отлично работает на непрерывных визуальных репрезентациях без костылей вроде momentum encoders или майнинга негативных пар для контрастивного обучения. Это масштабируемая и простая парадигма, которая достигает SOTA результатов (85.3% Top-1 на ImageNet-1K с ViT-L), показывая, что каузального моделирования достаточно для выучивания надежной визуальной семантики. Подробнее: https://t.me/gonzo_ML_podcasts/1797"