"И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно объединяющих разные архитектуры под одним зонтиком, позиционки RoPE и ALiBi наконец-то объединили на основе теоретико-группового подхода. Вероятно, мы переходим в более зрелый режим выбора позиционок, не просто хаки и эвристики, а дизайн под задачу. Group Representational Position Encoding __Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao__ Статья: https://arxiv.org/abs/2512.07805 Код: https://github.com/model-architectures/GRAPE Ревью: https://arxiviq.substack.com/p/group-representational-position-encoding # TL;DR ЧТО сделали: Авторы представили GRAPE (Group Representational Position Encoding) — унифицированный фреймворк, который выводит позиционные кодировки из действий групп. Формализуя позиции как элементы группы Ли, действующей на пространстве репрезентаций токенов, GRAPE объединяет два разрозненных семейства: мультипликативные вращения (воспроизводит RoPE через группу `SO(d)`) и аддитивные смещения (воспроизводит ALiBi и Forgetting Transformer через унипотентные действия в `GL(d+k)`). ПОЧЕМУ это важно: Работа переводит дизайн позиционных кодировок из области инженерных эвристик в строгую алгебраическую структуру. Показано, что привычные методы вроде RoPE и ALiBi — это просто частные случаи более широкой формулировки через генераторы. Критически важно, что авторы предложили эффективные формулы матричных экспонент для обучаемых подпространств (допуская некоммутирующие вращения) и доказали, что механизмы ""забывания"" в длинном контексте математически эквивалентны аддитивным действиям группы. Это даёт принципиально новый фундамент для проектирования контекстно-зависимых архитектур следующего поколения. Подробнее: https://t.me/gonzo_ML_podcasts/2103"
"И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно…
Из этого канала
- #4579What is Life? Blaise Agüera y Arcas Книга:…
What is Life? Blaise Agüera y Arcas Книга: https://mitpress.mit.edu/9780262554091/what-is-life/ Прочитал книгу “What is Life? Evolution as Computation” от…
- #4580Ранние репликаторы скорее всего были неспособны идеально скопировать всё, и…
Ранние репликаторы скорее всего были неспособны идеально скопировать всё, и копировали лишь небольшие куски кода, вставляя их куда попало.
- #4584Map of the spread of the BovB and L1 retrotransposons across 759 species of…
Map of the spread of the BovB and L1 retrotransposons across 759 species of eukaryotes
- #4571"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь…
"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь RoPE++.
- #4567В позиционных эмбеддингах сейчас происходит разная движуха — в частности…
В позиционных эмбеддингах сейчас происходит разная движуха — в частности появилось множество работ, пытающихся решить проблемы популярного RoPE.