Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention __Ali Hatamizadeh, Yejin Choi, Jan Kautz__ Paper: https://arxiv.org/abs/2605.22791 Code: https://github.com/NVlabs/GatedDeltaNet-2 Review: https://arxiviq.substack.com/p/gated-deltanet-2-decoupling-erase Model: N/A # TL;DR ЧТО сделали: Авторы разработали архитектуру Gated DeltaNet-2 — механизм линейного рекуррентного внимания, основанный на обновлённом правиле `Gated Delta Rule-2`. Главная фишка подхода в том, что обновление памяти здесь разделено на два независимых процесса: поканальный гейт стирания (erase gate), действующий по оси ключей (keys), и поканальный гейт записи (write gate), работающий по оси значений (values). Чтобы модель можно было эффективно обучать параллельно, исследователи математически вывели поблочную (chunkwise) форму параллельного обучения, которая интегрирует поканальное затухание в асимметричные одноранговые факторы стирания. Всё это работает на кастомных, высокопараллельных ядрах Triton. ПОЧЕМУ это важно: Эта архитектура решает фундаментальную проблему линейных рекуррентных моделей — жёсткую скалярную связь между стиранием старых ассоциаций и записью новых. Развязав эти операции, Gated DeltaNet-2 сводит к минимуму интерференцию в памяти при фиксированном размере скрытого состояния. В результате модель извлекает информацию из длинного контекста не хуже стандартных трансформеров, но сохраняет линейную сложность вычислений. Для практиков: На масштабе 1.3B параметров при предобучении на 100B токенов датасета FineWeb-Edu модель Gated DeltaNet-2 показывает SOTA-результаты в языковом моделировании, задачах на здравый смысл (commonsense reasoning) и многократном извлечении информации из длинного контекста. При этом скорость обучения на GPU практически не падает с ростом контекста вплоть до 16K токенов. Стирать память здесь: https://t.me/gonzo_ML_podcasts/3748
Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2.…
Из этого канала
- #5435"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels:…
"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws Xu Ouyang, Deyi Liu,…
- #5440Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee,…
Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti Paper: https://arxiv.org/abs/2605.26099…
- #5447Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving…
Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving Agent Skills Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu…
- #5424Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и…
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент.
- #5420Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то,…
Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.