Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть целиком, а работаем с ним, вызывая код для внешней обработки, и агрегируем результат. Ну map-reduce фактически, только пока особо без распараллеливания. Recursive Language Models __Alex L. Zhang, Tim Kraska, Omar Khattab__ Статья: https://arxiv.org/abs/2512.24601 Ревью: https://arxiviq.substack.com/p/recursive-language-models Код: пока нет # TL;DR ЧТО сделали: Авторы предложили Recursive Language Models (RLMs) — подход, где входные данные не подаются в модель целиком, а хранятся как переменная во внешней среде (Python REPL). Модель пишет код, чтобы инспектировать данные, нарезать их на куски и рекурсивно вызывать копии самой себя для обработки конкретных фрагментов. ПОЧЕМУ это важно: Это лечит «context rot» (деградацию качества на длинном контексте), от которой страдают даже флагманы вроде GPT-5 при высокой плотности информации. Использование кода для управления данными и рекурсии для локальных рассуждений позволяет работать с контекстом в 10М+ токенов (на два порядка выше текущих лимитов), часто снижая стоимость инференса по сравнению с чтением всего контекста сразу. Подробнее: https://t.me/gonzo_ML_podcasts/2076
Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть…
Из этого канала
- #4566Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5…
Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5 (эквивалентно 5-point cyclic convolution) с помощью 5.2 Pro и Opus 4.5.
- #4567В позиционных эмбеддингах сейчас происходит разная движуха — в частности…
В позиционных эмбеддингах сейчас происходит разная движуха — в частности появилось множество работ, пытающихся решить проблемы популярного RoPE.
- #4571"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь…
"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь RoPE++.
- #4558Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов…
Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов (NoPE) уже были, но они выучиваются неидеально, сходимость таких моделей…
- #4555Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий…
Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий с множественными наградами.