Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep __Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti__ Paper: https://arxiv.org/abs/2605.26099 Review: https://arxiviq.substack.com/p/language-models-need-sleep Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представили LLM Sleep — фреймворк для обучения и инференса гибридных архитектур (внимание + SSM). Метод периодически запускает `N` офлайн-проходов рекуррентности по активному контексту. Это позволяет консолидировать информацию в блоках SSM (structured state-space model), работающих как быстрая память, непосредственно перед тем, как очистить KV-кэш механизма внимания. ПОЧЕМУ это важно: Стандартные гибридные архитектуры не способны выполнять глубокие рассуждения по контексту, который уже вытеснен из активного внимания, независимо от их номинальной ёмкости. Перенося вычислительно сложные итеративные рассуждения в офлайн-фазу «сна», LLM Sleep разделяет глубину вычислений, необходимую для консолидации памяти, и жёсткие ограничения по задержке (latency) при генерации в реальном времени. Это открывает путь к сложному многошаговому рассуждению (multi-hop reasoning) и пониманию сверхдлинного контекста без роста задержек на инференсе. Для практиков: Если вы работаете с гибридными моделями для сверхдлинных контекстов (например, Samba или Jet-Nemotron) и упираетесь в ограничения качества сложных рассуждений на вытесненном контексте, данный подход позволяет использовать «время простоя» (idle time) системы для уплотнения памяти без модификации инференс-пайплайна реального времени. Спокойной ночи: https://t.me/gonzo_ML_podcasts/3773
Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee,…
Из этого канала
- #5447Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving…
Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving Agent Skills Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu…
- #5452Очень интересная работа. Модели осваивают навыки в определённом порядке и он…
Очень интересная работа. Модели осваивают навыки в определённом порядке и он сохраняется между разными моделями.
- #5456Наш любимый Michael Levin написал любопытную статью (он на редкость…
Наш любимый Michael Levin написал любопытную статью (он на редкость продуктивен, пишет много).
- #5435"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels:…
"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws Xu Ouyang, Deyi Liu,…
- #5428Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2.…
Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention Ali…