Ещё один свежий заход на то, что надо предсказывать латенты (как и в JEPA), а… — @gonzo_ML

Ещё один свежий заход на то, что надо предсказывать латенты (как и в JEPA), а не финальные представления. Тогда ещё и выборочная сложность сильно лучше. Learn from your own latents and not from tokens: A sample-complexity theory __Daniel J. Korchinski, Alessandro Favero, Matthieu Wyart__ Paper: https://arxiv.org/abs/2605.27734v1 Review: https://arxiviq.substack.com/p/learn-from-your-own-latents-and-not Code: N/A Model: N/A # TL;DR Что сделали: Представили математическую теорию, показывающую, что если обучать нейросети предсказывать собственные скрытые представления (латенты — внутренние абстрактные описания данных, которые модель строит сама), а не исходные токены (кусочки слов или пиксели), это резко снижает выборочную сложность. Выборочная сложность (sample complexity) — это объём данных, который требуется модели для успешного обучения. Авторы доказали, что популярные алгоритмы вроде data2vec выполняют этот иерархический поиск автоматически, делая сложные многослойные архитектуры избыточными. Почему это важно: Современным генеративным моделям требуются триллионы слов или миллиарды картинок, чтобы освоить базовую грамматику и устройство мира — на порядки больше, чем человеческому ребёнку. Объяснив математически, почему предсказание собственных абстракций решает эту проблему, авторы дают готовый ориентир для создания мощного ИИ на гораздо меньших массивах данных. Предсказывать латенты тут: https://t.me/gonzo_ML_podcasts/3849

Из этого канала