Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee,… — @gonzo_ML

Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep __Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti__ Paper: https://arxiv.org/abs/2605.26099 Review: https://arxiviq.substack.com/p/language-models-need-sleep Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представили LLM Sleep — фреймворк для обучения и инференса гибридных архитектур (внимание + SSM). Метод периодически запускает `N` офлайн-проходов рекуррентности по активному контексту. Это позволяет консолидировать информацию в блоках SSM (structured state-space model), работающих как быстрая память, непосредственно перед тем, как очистить KV-кэш механизма внимания. ПОЧЕМУ это важно: Стандартные гибридные архитектуры не способны выполнять глубокие рассуждения по контексту, который уже вытеснен из активного внимания, независимо от их номинальной ёмкости. Перенося вычислительно сложные итеративные рассуждения в офлайн-фазу «сна», LLM Sleep разделяет глубину вычислений, необходимую для консолидации памяти, и жёсткие ограничения по задержке (latency) при генерации в реальном времени. Это открывает путь к сложному многошаговому рассуждению (multi-hop reasoning) и пониманию сверхдлинного контекста без роста задержек на инференсе. Для практиков: Если вы работаете с гибридными моделями для сверхдлинных контекстов (например, Samba или Jet-Nemotron) и упираетесь в ограничения качества сложных рассуждений на вытесненном контексте, данный подход позволяет использовать «время простоя» (idle time) системы для уплотнения памяти без модификации инференс-пайплайна реального времени. Спокойной ночи: https://t.me/gonzo_ML_podcasts/3773

Из этого канала