Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна… — @gonzo_ML

Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна от Цукерберга, Лекун с соавтором выпустил работу про обновлённую JEPA под названием LeJEPA. Модель переосмыслили с точки зрения математики, что позволило сильно упростить архитектуру — никаких больше предикторов, проекторов и разных хаков для устойчивого обучения. Результаты интересные! Кто любит много математики в работе, тому тоже понравится :) LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics __Randall Balestriero, Yann LeCun __Paper: https://arxiv.org/abs/2511.08544 Code: https://github.com/rbalestr-lab/lejepa # TL;DR 💡 Что сделали? В статье представлен LeJEPA — новый фреймворк для self-supervised learning (SSL), который заменяет хрупкие эвристики существующих предиктивных архитектур с совместным эмбеддингом (JEPA) строгой теоретической базой. Сначала авторы доказывают, что изотропное гауссовское распределение является единственным оптимальным распределением для эмбеддингов модели, минимизирующим риск предсказания в худшем случае на downstream-задачах. Чтобы обеспечить это свойство, они вводят новую и отлично масштабируемую целевую функцию — регуляризацию SIGReg (Sketched Isotropic Gaussian Regularization). Она использует случайные одномерные проекции и сопоставление характеристических функций для наложения ограничений на многомерное пространство эмбеддингов с линейной сложностью по времени и памяти. Итоговая целевая функция LeJEPA объединяет стандартный лосс предсказания JEPA с SIGReg, что создаёт простой и устойчивый к коллапсу представлений пайплайн обучения, устраняя необходимость в stop-gradients, сетях «учитель-ученик» и других специальных «костылях». 🤔 Почему это важно? LeJEPA знаменует собой важный шаг в развитии SSL, переводя область от набора частных R&D-решений и эвристик к разработке систем с доказуемо оптимальным дизайном. Его ключевые нововведения дают три основных преимущества: 1. Надёжность и простота: Фреймворк обеспечивает исключительную стабильность обучения для самых разных архитектур и масштабов с одним-единственным гиперпараметром для настройки компромисса, делая предобучение foundation-моделей более надёжным и доступным. 2. Информативный сигнал для обучения: Впервые в JEPA-архитектурах лосс при обучении сильно коррелирует (до 99%) с качеством на downstream-задачах. Это даёт надёжный сигнал для выбора модели, не требующий размеченных данных. 3. Новая парадигма предобучения: LeJEPA показывает, что основанный на строгих принципах SSL на небольших специализированных датасетах может значительно превосходить трансферное обучение от огромных, универсально обученных frontier-моделей вроде DINOv2/v3. Это возвращает доменно-специфичному SSL статус жизнеспособной и мощной стратегии. Подробнее: https://t.me/gonzo_ML_podcasts/1358

Из этого канала