"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь RoPE++. Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs __Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu__ Статья: https://arxiv.org/abs/2512.07525 Код: https://github.com/OpenMOSS/rope_pp Ревью: https://arxiviq.substack.com/p/beyond-real-imaginary-extension-of # TL;DR ЧТО сделали: Авторы предложили RoPE++ — модификацию стандартных Rotary Position Embedding (RoPE). Ключевая идея: перестать выбрасывать мнимую часть комплексного числа при расчёте внимания. Разделив головы внимания на ""реальные"" (локальная семантика) и ""мнимые"" (глобальная позиция), исследователи улучшили работу с длинным контекстом. Бонусом предложили конфигурацию, которая сохраняет качество, но сокращает размер KV-кэша в два раза. ПОЧЕМУ это важно: RoPE — де-факто стандарт в LLM (Llama 3, Qwen 2), но математически он отбрасывает половину позиционной информации (фазу) во время скалярного произведения. RoPE++ доказывает, что эта ""мнимая"" информация ведёт себя как интегральный синус, который, в отличие от косинуса, позволяет модели эффективно работать на длинных дистанциях. Это теоретически обоснованный способ улучшить ризонинг на огромных контекстах без роста числа параметров. __Очень перекликается с более ранней работой про PoPE ____Decoupling the “What” and “Where” with Polar Coordinate Positional Embedding____. Опять Шмидхубера не цитируют!!!__ Подробнее: https://t.me/gonzo_ML_podcasts/2093"
"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь…
Из этого канала
- #4575"И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно…
"И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно объединяющих разные архитектуры под одним зонтиком, позиционки RoPE и ALiBi наконец-то…
- #4579What is Life? Blaise Agüera y Arcas Книга:…
What is Life? Blaise Agüera y Arcas Книга: https://mitpress.mit.edu/9780262554091/what-is-life/ Прочитал книгу “What is Life? Evolution as Computation” от…
- #4580Ранние репликаторы скорее всего были неспособны идеально скопировать всё, и…
Ранние репликаторы скорее всего были неспособны идеально скопировать всё, и копировали лишь небольшие куски кода, вставляя их куда попало.
- #4567В позиционных эмбеддингах сейчас происходит разная движуха — в частности…
В позиционных эмбеддингах сейчас происходит разная движуха — в частности появилось множество работ, пытающихся решить проблемы популярного RoPE.
- #4566Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5…
Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5 (эквивалентно 5-point cyclic convolution) с помощью 5.2 Pro и Opus 4.5.