Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов (NoPE) уже были, но они выучиваются неидеально, сходимость таких моделей медленнее чем у популярного RoPE. Текущая работа приписывает это инициализации с малой дисперсией (логичным, кстати, был бы после этого NoPE с иной инициализацией с большой дисперсией, интересно сравнить). Авторы предложили метод, когда на этапе обучение делаем RoPE, а потом их убираем и слегка адаптируем модель. Профит! Всё работает, экстраполяция на большие длины хороша. Но самое красивое в этой истории для меня вот что: мы переходим к новому подходу к обучению, когда позиционки выступают частью curriculum'а и меняются по ходу обучения. Ранее вся динамика обучения со стороны архитектуры, а не данных в основном концентрировалась вокруг расписаний для learning rate, ну может ещё где-то по мелочи. Теперь вот позиционки становятся изменяемой частью. Может со временем и вся архитектура будет такой, ну либо с каким-то фундаментом или бэкбоном, вокруг которого всё нарастает в процессе обучения. Какие-то примеры такого в целом уже встречаются. Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings __Yoav Gelberg, Koshi Eguchi, Takuya Akiba, Edoardo Cetin__ Статья: https://arxiv.org/abs/2512.12167 Код: https://github.com/SakanaAI/DroPE Блог: https://pub.sakana.ai/DroPE/ Ревью: https://arxiviq.substack.com/p/extending-the-context-of-pretrained # TL;DR ЧТО сделали: Авторы предложили метод DroPE (Dropping Positional Embeddings). Идея — использовать стандартные Rotary Positional Embeddings (RoPE) на этапе предобучения для быстрой сходимости, а затем полностью выкинуть их и провести короткую фазу «рекалибровки» на исходной длине контекста. В итоге модель превращается в NoPE (без позиционных эмбеддингов). ПОЧЕМУ это важно: Работа ставит под сомнение догму о том, что явные позиционки необходимы на инференсе. DroPE позволяет моделям обобщаться в zero-shot режиме на длины, в разы превышающие окно обучения (например, эффективная работа на 8k+ при обучении на 2k). Это избавляет от деградации качества, свойственной методам вроде YaRN или RoPE-NTK, и устраняет «семантические искажения», возникающие при сжатии низкочастотных компонент. Подробнее: https://t.me/gonzo_ML_podcasts/2065
Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов…
Из этого канала
- #4562Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть…
Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть целиком, а работаем с ним, вызывая код для внешней обработки, и агрегируем…
- #4566Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5…
Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5 (эквивалентно 5-point cyclic convolution) с помощью 5.2 Pro и Opus 4.5.
- #4567В позиционных эмбеддингах сейчас происходит разная движуха — в частности…
В позиционных эмбеддингах сейчас происходит разная движуха — в частности появилось множество работ, пытающихся решить проблемы популярного RoPE.
- #4555Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий…
Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий с множественными наградами.
- #4551Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists…
Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists Using Rubric Rewards Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi,…