Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких сложностей джеп, который даёт репрезентации того же качества, что и джепы и не хуже традиционных подходов, и требует до 16x меньше данных, чем классика. И снова геометрический подход. Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA __Hai Huang, Yann LeCun, Randall Balestriero__ Статья: https://arxiv.org/abs/2602.22617 Код: https://github.com/galilai-group/llm-jepa#stp Ревью: https://arxiviq.substack.com/p/semantic-tube-prediction-beating # TL;DR ЧТО сделали: Авторы предлагают Semantic Tube Prediction (STP) — вспомогательную целевую функцию (objective) для self-supervised learning, которая заставляет скрытые состояния (hidden states) LLM двигаться по плавным, локально линейным траекториям (геодезическим линиям) во время обучения. Ограничивая эволюцию скрытых состояний узкой «трубой» вокруг этих линий, STP отделяет истинный семантический сигнал от статистического шума, при этом не требуя ручной аугментации данных, характерной для предыдущих архитектур типа JEPA. ПОЧЕМУ это важно: Этот подход радикально улучшает соотношение сигнал/шум (SNR) при обновлении весов. В результате LLM достигает точности стандартного файнтюнинга на всём датасете, используя в 16 раз меньше данных. Бросая вызов строгим ограничениям эффективности данных, обусловленным традиционными степенными законами скейлинга, работа показывает, что геометрически обоснованные априорные предположения могут легко обходить прямолинейное наращивание объёмов данных. Трубы тут: https://t.me/gonzo_ML_podcasts/2625
Это какая-то очень интересная история, если я правильно её понял. Авторы…
Из этого канала
- #4877Базу подвели под появление разных красивых структур в репрезентациях, выученных…
Базу подвели под появление разных красивых структур в репрезентациях, выученных на текстах.
- #4881Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating…
Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents? Thibaud…
- #4885Любопытная работа про память RNN и подобных линейных моделей. Memory Caching:…
Любопытная работа про память RNN и подобных линейных моделей. Memory Caching: RNNs with Growing Memory Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam…
- #4868"Прикольная работа про то, как ллмки играют в Цивилизацию 5. Спасибо Саше…
"Прикольная работа про то, как ллмки играют в Цивилизацию 5. Спасибо Саше Гамбаряну за ссылку! Vox Deorum: A Hybrid LLM Architecture for 4X / Grand Strategy…
- #4863Интересная 100+ страничная работа про экономику AGI. Один из больших выводов —…
Интересная 100+ страничная работа про экономику AGI. Один из больших выводов — в эпоху дешёвой генерации узким местом становится человеческая валидация.