Long live RNN! M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling __Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao__ Статья: https://arxiv.org/abs/2603.14360 Ревью: https://arxiviq.substack.com/p/m2-rnn-non-linear-rnns-with-matrix Код: https://github.com/open-lm-engine/lm-engine Модель: https://huggingface.co/collections/open-lm-engine/m2rnn # TL;DR ЧТО сделали: Авторы представили Matrix-to-Matrix RNN (M²RNN) — новую архитектуру нелинейных рекуррентных нейросетей. Она расширяет традиционное скрытое состояние из плотного вектора в матрицу, которая обновляется через внешнее произведение (outer product), и делает это в сочетании с нелинейностью. ПОЧЕМУ это важно: Линейные архитектуры класса structured state-space model и механизмы внимания сильно ограничены в теоретической выразительности, особенно в задачах отслеживания состояний детерминированных конечных автоматов. M²RNN полностью решает проблему выразительности. При этом архитектура обходит серьёзные штрафы к утилизации оборудования, исторически свойственные нелинейным RNN. Получается масштабируемый и выразительный готовый слой (drop-in replacement) для современных гибридных сетей. Для практиков: Главный инсайт для команд предобучения: низкие результаты нелинейных RNN (типа LSTM или GRU) в языковом моделировании были проблемой ёмкости состояния, а не фундаментальным изъяном самой нелинейности. Соединив матричное скрытое состояние с зависящим от входа гейтом забывания (forget gate), M²RNN достигает отличного извлечения фактов на длинном контексте и идеальной обобщающей способности по длине. Если аккуратно вставить хотя бы один слой M²RNN в гибридную архитектуру, можно получить значительное снижение перплексии и рост точности на даунстрим-задачах почти без падения пропускной способности. Изучать матричное состояние тут: https://t.me/gonzo_ML_podcasts/2861
Long live RNN! M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable…
Из этого канала
- #5011Для разнообразия что-нибудь воскресное и не про ML. Вы первые, кто это видит :)…
Для разнообразия что-нибудь воскресное и не про ML. Вы первые, кто это видит :) Завтра новая неделя, и для тех, кому после тяжёлого трудового дня хочется всех…
- #5013Чтение на неделю: https://www.robonaissance.com/t/language-is-poison
Чтение на неделю: https://www.robonaissance.com/t/language-is-poison
- #5014Бомбическая работа просто! Не понимаю, почему про неё никто вокруг не говорит,…
Бомбическая работа просто! Не понимаю, почему про неё никто вокруг не говорит, почему-то принесло только в мои личные сети.
- #5000Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на…
Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на минорное различие в версии, разница в качестве колоссальная.
- #4999Вчера не нашёл подходящей картинки, а сегодня нашёл. R.I.P.
Вчера не нашёл подходящей картинки, а сегодня нашёл. R.I.P.