Long live RNN! M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable… — @gonzo_ML

Long live RNN! M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling __Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao__ Статья: https://arxiv.org/abs/2603.14360 Ревью: https://arxiviq.substack.com/p/m2-rnn-non-linear-rnns-with-matrix Код: https://github.com/open-lm-engine/lm-engine Модель: https://huggingface.co/collections/open-lm-engine/m2rnn # TL;DR ЧТО сделали: Авторы представили Matrix-to-Matrix RNN (M²RNN) — новую архитектуру нелинейных рекуррентных нейросетей. Она расширяет традиционное скрытое состояние из плотного вектора в матрицу, которая обновляется через внешнее произведение (outer product), и делает это в сочетании с нелинейностью. ПОЧЕМУ это важно: Линейные архитектуры класса structured state-space model и механизмы внимания сильно ограничены в теоретической выразительности, особенно в задачах отслеживания состояний детерминированных конечных автоматов. M²RNN полностью решает проблему выразительности. При этом архитектура обходит серьёзные штрафы к утилизации оборудования, исторически свойственные нелинейным RNN. Получается масштабируемый и выразительный готовый слой (drop-in replacement) для современных гибридных сетей. Для практиков: Главный инсайт для команд предобучения: низкие результаты нелинейных RNN (типа LSTM или GRU) в языковом моделировании были проблемой ёмкости состояния, а не фундаментальным изъяном самой нелинейности. Соединив матричное скрытое состояние с зависящим от входа гейтом забывания (forget gate), M²RNN достигает отличного извлечения фактов на длинном контексте и идеальной обобщающей способности по длине. Если аккуратно вставить хотя бы один слой M²RNN в гибридную архитектуру, можно получить значительное снижение перплексии и рост точности на даунстрим-задачах почти без падения пропускной способности. Изучать матричное состояние тут: https://t.me/gonzo_ML_podcasts/2861

Из этого канала