Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких сложностей джеп, который даёт репрезентации того же качества, что и джепы и не хуже традиционных подходов, и требует до 16x меньше данных, чем классика. И снова геометрический подход. Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA __Hai Huang, Yann LeCun, Randall Balestriero__ Статья: https://arxiv.org/abs/2602.22617 Код: https://github.com/galilai-group/llm-jepa#stp Ревью: https://arxiviq.substack.com/p/semantic-tube-prediction-beating # TL;DR ЧТО сделали: Авторы предлагают Semantic Tube Prediction (STP) — вспомогательную целевую функцию (objective) для self-supervised learning, которая заставляет скрытые состояния (hidden states) LLM двигаться по плавным, локально линейным траекториям (геодезическим линиям) во время обучения. Ограничивая эволюцию скрытых состояний узкой «трубой» вокруг этих линий, STP отделяет истинный семантический сигнал от статистического шума, при этом не требуя ручной аугментации данных, характерной для предыдущих архитектур типа JEPA. ПОЧЕМУ это важно: Этот подход радикально улучшает соотношение сигнал/шум (SNR) при обновлении весов. В результате LLM достигает точности стандартного файнтюнинга на всём датасете, используя в 16 раз меньше данных. Бросая вызов строгим ограничениям эффективности данных, обусловленным традиционными степенными законами скейлинга, работа показывает, что геометрически обоснованные априорные предположения могут легко обходить прямолинейное наращивание объёмов данных. Трубы тут: https://t.me/gonzo_ML_podcasts/2625