Заменяем тензорный лифтинг на геометрические методы. Очередной заход на замену… — @gonzo_ML

Заменяем тензорный лифтинг на геометрические методы. Очередной заход на замену квадратичного внимания на линейное не-внимание. Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling __Zhang Chong__ Статья: https://arxiv.org/abs/2512.19428 Ревью: https://arxiviq.substack.com/p/attention-is-not-what-you-need Код: отсутствует Модель: отсутствует # TL;DR ЧТО сделали: Автор представил архитектуру Causal Grassmann, заменяющую стандартный механизм self-attention размером `L × L` на слой геометрического смешивания. Вместо вычисления глобальной матрицы весов, модель проецирует скрытые состояния в низкоразмерное пространство, рассматривает пары токенов как 2D-плоскости на многообразии Грассмана и кодирует их взаимодействие через координаты Плюккера. ПОЧЕМУ это важно: Работа ставит под сомнение догму о необходимости мягкого внимания (soft attention) для моделирования последовательностей. Ограничение взаимодействий конечномерным многообразием `Gr(2, r)` позволяет достичь линейной сложности `O(L)` и предлагает путь к математически обоснованной интерпретируемости, уходя от непрозрачного «тензорного лифтинга» (tensor lifting), свойственного трансформерам. Подробнее: https://t.me/gonzo_ML_podcasts/1970

Из этого канала