Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention __Ali Hatamizadeh, Yejin Choi, Jan Kautz__ Paper: https://arxiv.org/abs/2605.22791 Code: https://github.com/NVlabs/GatedDeltaNet-2 Review: https://arxiviq.substack.com/p/gated-deltanet-2-decoupling-erase Model: N/A # TL;DR ЧТО сделали: Авторы разработали архитектуру Gated DeltaNet-2 — механизм линейного рекуррентного внимания, основанный на обновлённом правиле `Gated Delta Rule-2`. Главная фишка подхода в том, что обновление памяти здесь разделено на два независимых процесса: поканальный гейт стирания (erase gate), действующий по оси ключей (keys), и поканальный гейт записи (write gate), работающий по оси значений (values). Чтобы модель можно было эффективно обучать параллельно, исследователи математически вывели поблочную (chunkwise) форму параллельного обучения, которая интегрирует поканальное затухание в асимметричные одноранговые факторы стирания. Всё это работает на кастомных, высокопараллельных ядрах Triton. ПОЧЕМУ это важно: Эта архитектура решает фундаментальную проблему линейных рекуррентных моделей — жёсткую скалярную связь между стиранием старых ассоциаций и записью новых. Развязав эти операции, Gated DeltaNet-2 сводит к минимуму интерференцию в памяти при фиксированном размере скрытого состояния. В результате модель извлекает информацию из длинного контекста не хуже стандартных трансформеров, но сохраняет линейную сложность вычислений. Для практиков: На масштабе 1.3B параметров при предобучении на 100B токенов датасета FineWeb-Edu модель Gated DeltaNet-2 показывает SOTA-результаты в языковом моделировании, задачах на здравый смысл (commonsense reasoning) и многократном извлечении информации из длинного контекста. При этом скорость обучения на GPU практически не падает с ростом контекста вплоть до 16K токенов. Стирать память здесь: https://t.me/gonzo_ML_podcasts/3748