"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь… — @gonzo_ML

"В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь RoPE++. Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs __Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu__ Статья: https://arxiv.org/abs/2512.07525 Код: https://github.com/OpenMOSS/rope_pp Ревью: https://arxiviq.substack.com/p/beyond-real-imaginary-extension-of # TL;DR ЧТО сделали: Авторы предложили RoPE++ — модификацию стандартных Rotary Position Embedding (RoPE). Ключевая идея: перестать выбрасывать мнимую часть комплексного числа при расчёте внимания. Разделив головы внимания на ""реальные"" (локальная семантика) и ""мнимые"" (глобальная позиция), исследователи улучшили работу с длинным контекстом. Бонусом предложили конфигурацию, которая сохраняет качество, но сокращает размер KV-кэша в два раза. ПОЧЕМУ это важно: RoPE — де-факто стандарт в LLM (Llama 3, Qwen 2), но математически он отбрасывает половину позиционной информации (фазу) во время скалярного произведения. RoPE++ доказывает, что эта ""мнимая"" информация ведёт себя как интегральный синус, который, в отличие от косинуса, позволяет модели эффективно работать на длинных дистанциях. Это теоретически обоснованный способ улучшить ризонинг на огромных контекстах без роста числа параметров. __Очень перекликается с более ранней работой про PoPE ____Decoupling the “What” and “Where” with Polar Coordinate Positional Embedding____. Опять Шмидхубера не цитируют!!!__ Подробнее: https://t.me/gonzo_ML_podcasts/2093"

Из этого канала