"Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст. Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models __Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li__ Статья: https://arxiv.org/abs/2511.23319 Код: https://github.com/ant-research/long-context-modeling Ревью: https://arxiviq.substack.com/p/every-token-counts-generalizing-16m # TL;DR ЧТО сделали: Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16 миллионов токенов. Главная фишка — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как ""экспертов"", доступных для извлечения. Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск. ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность `O(N^2)`, а линейные альтернативы вроде Mamba (https://t.me/gonzo_ML/2148) часто слишком агрессивно сжимают состояние, теряя детали далёких токенов. HSA-UltraLong показывает, что если сделать процесс извлечения контекста дифференцируемым и обучаемым end-to-end, можно получить память с произвольным доступом (random access) на миллионы токенов без квадратичной стоимости полного внимания или деградации точности, свойственной эвристическим методам. Подробнее: https://t.me/gonzo_ML_podcasts/1574"