В позиционных эмбеддингах сейчас происходит разная движуха — в частности появилось множество работ, пытающихся решить проблемы популярного RoPE. Недавно писали про DroPE, сегодня про PoPE. Decoupling the “What” and “Where” with Polar Coordinate Positional Embedding __Anand Gopalakrishnan, Robert Csordás, Jürgen Schmidhuber, Michael C. Mozer__ Статья: https://arxiv.org/abs/2509.10534 Ревью: https://arxiviq.substack.com/p/decoupling-the-what-and-where-with # TL;DR ЧТО сделали: Предложили PoPE (Polar Coordinate Position Embedding) — замену ставшему индустриальным стандартом RoPE. Новый метод явно разделяет магнитуду признаков («что») и фазу («где») через формулировку в полярных координатах. В отличие от RoPE, который вращает пары декартовых координат, PoPE трактует каждую размерность как магнитуду и присваивает ей строго зависимую от позиции фазу. Это устраняет математическую интерференцию между контентом и позиционной информацией в механизме внимания. ПОЧЕМУ это важно: Архитектурный сдвиг даёт значительное улучшение в zero-shot экстраполяции длины без сложной интерполяции частот или файнтюнинга (в отличие от методов типа YaRN, https://arxiv.org/abs/2309.00071). Теоретически авторы находят и исправляют «сцепленность» (entanglement) в RoPE, где контент векторов query и key непреднамеренно сдвигал кодирование относительной позиции. Эмпирически это решает специфические алгоритмические задачи (например, арифметику указателей), на которых RoPE полностью проваливается, и улучшает перплексию на стандартных бенчмарках. Подробнее: https://t.me/gonzo_ML_podcasts/2084
В позиционных эмбеддингах сейчас происходит разная движуха — в частности…
Из этого канала
- #4571"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь…
"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь RoPE++.
- #4575"И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно…
"И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно объединяющих разные архитектуры под одним зонтиком, позиционки RoPE и ALiBi наконец-то…
- #4579What is Life? Blaise Agüera y Arcas Книга:…
What is Life? Blaise Agüera y Arcas Книга: https://mitpress.mit.edu/9780262554091/what-is-life/ Прочитал книгу “What is Life? Evolution as Computation” от…
- #4566Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5…
Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5 (эквивалентно 5-point cyclic convolution) с помощью 5.2 Pro и Opus 4.5.
- #4562Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть…
Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть целиком, а работаем с ним, вызывая код для внешней обработки, и агрегируем…