"Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст. Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models __Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li__ Статья: https://arxiv.org/abs/2511.23319 Код: https://github.com/ant-research/long-context-modeling Ревью: https://arxiviq.substack.com/p/every-token-counts-generalizing-16m # TL;DR ЧТО сделали: Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16 миллионов токенов. Главная фишка — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как ""экспертов"", доступных для извлечения. Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск. ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность `O(N^2)`, а линейные альтернативы вроде Mamba (https://t.me/gonzo_ML/2148) часто слишком агрессивно сжимают состояние, теряя детали далёких токенов. HSA-UltraLong показывает, что если сделать процесс извлечения контекста дифференцируемым и обучаемым end-to-end, можно получить память с произвольным доступом (random access) на миллионы токенов без квадратичной стоимости полного внимания или деградации точности, свойственной эвристическим методам. Подробнее: https://t.me/gonzo_ML_podcasts/1574"
"Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный…
Из этого канала
- #4321Если вы любите такие темы, как Universal Artificial Intelligence, Algorithmic…
Если вы любите такие темы, как Universal Artificial Intelligence, Algorithmic Information Theory, AIXI, или следите за работами Marcus Hutter и Blaise Agüera y…
- #4324Две картинки на выбор, какая вам лучше?
Две картинки на выбор, какая вам лучше?
- #4327А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про…
А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про трансформер) выпустил новую штуку.
- #4317Обещанный Лавкрафт
Обещанный Лавкрафт
- #4315Интересная работа, требует более вдумчивого чтения, чем просто саммари. On the…
Интересная работа, требует более вдумчивого чтения, чем просто саммари. On the Fundamental Limits of LLMs at Scale Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan…