В позиционных эмбеддингах сейчас происходит разная движуха — в частности… — @gonzo_ML

В позиционных эмбеддингах сейчас происходит разная движуха — в частности появилось множество работ, пытающихся решить проблемы популярного RoPE. Недавно писали про DroPE, сегодня про PoPE. Decoupling the “What” and “Where” with Polar Coordinate Positional Embedding __Anand Gopalakrishnan, Robert Csordás, Jürgen Schmidhuber, Michael C. Mozer__ Статья: https://arxiv.org/abs/2509.10534 Ревью: https://arxiviq.substack.com/p/decoupling-the-what-and-where-with # TL;DR ЧТО сделали: Предложили PoPE (Polar Coordinate Position Embedding) — замену ставшему индустриальным стандартом RoPE. Новый метод явно разделяет магнитуду признаков («что») и фазу («где») через формулировку в полярных координатах. В отличие от RoPE, который вращает пары декартовых координат, PoPE трактует каждую размерность как магнитуду и присваивает ей строго зависимую от позиции фазу. Это устраняет математическую интерференцию между контентом и позиционной информацией в механизме внимания. ПОЧЕМУ это важно: Архитектурный сдвиг даёт значительное улучшение в zero-shot экстраполяции длины без сложной интерполяции частот или файнтюнинга (в отличие от методов типа YaRN, https://arxiv.org/abs/2309.00071). Теоретически авторы находят и исправляют «сцепленность» (entanglement) в RoPE, где контент векторов query и key непреднамеренно сдвигал кодирование относительной позиции. Эмпирически это решает специфические алгоритмические задачи (например, арифметику указателей), на которых RoPE полностью проваливается, и улучшает перплексию на стандартных бенчмарках. Подробнее: https://t.me/gonzo_ML_podcasts/2084

Из этого канала