"И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно… — @gonzo_ML

"И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно объединяющих разные архитектуры под одним зонтиком, позиционки RoPE и ALiBi наконец-то объединили на основе теоретико-группового подхода. Вероятно, мы переходим в более зрелый режим выбора позиционок, не просто хаки и эвристики, а дизайн под задачу. Group Representational Position Encoding __Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao__ Статья: https://arxiv.org/abs/2512.07805 Код: https://github.com/model-architectures/GRAPE Ревью: https://arxiviq.substack.com/p/group-representational-position-encoding # TL;DR ЧТО сделали: Авторы представили GRAPE (Group Representational Position Encoding) — унифицированный фреймворк, который выводит позиционные кодировки из действий групп. Формализуя позиции как элементы группы Ли, действующей на пространстве репрезентаций токенов, GRAPE объединяет два разрозненных семейства: мультипликативные вращения (воспроизводит RoPE через группу `SO(d)`) и аддитивные смещения (воспроизводит ALiBi и Forgetting Transformer через унипотентные действия в `GL(d+k)`). ПОЧЕМУ это важно: Работа переводит дизайн позиционных кодировок из области инженерных эвристик в строгую алгебраическую структуру. Показано, что привычные методы вроде RoPE и ALiBi — это просто частные случаи более широкой формулировки через генераторы. Критически важно, что авторы предложили эффективные формулы матричных экспонент для обучаемых подпространств (допуская некоммутирующие вращения) и доказали, что механизмы ""забывания"" в длинном контексте математически эквивалентны аддитивным действиям группы. Это даёт принципиально новый фундамент для проектирования контекстно-зависимых архитектур следующего поколения. Подробнее: https://t.me/gonzo_ML_podcasts/2103"

Из этого канала