Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов… — @gonzo_ML

Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов (NoPE) уже были, но они выучиваются неидеально, сходимость таких моделей медленнее чем у популярного RoPE. Текущая работа приписывает это инициализации с малой дисперсией (логичным, кстати, был бы после этого NoPE с иной инициализацией с большой дисперсией, интересно сравнить). Авторы предложили метод, когда на этапе обучение делаем RoPE, а потом их убираем и слегка адаптируем модель. Профит! Всё работает, экстраполяция на большие длины хороша. Но самое красивое в этой истории для меня вот что: мы переходим к новому подходу к обучению, когда позиционки выступают частью curriculum'а и меняются по ходу обучения. Ранее вся динамика обучения со стороны архитектуры, а не данных в основном концентрировалась вокруг расписаний для learning rate, ну может ещё где-то по мелочи. Теперь вот позиционки становятся изменяемой частью. Может со временем и вся архитектура будет такой, ну либо с каким-то фундаментом или бэкбоном, вокруг которого всё нарастает в процессе обучения. Какие-то примеры такого в целом уже встречаются. Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings __Yoav Gelberg, Koshi Eguchi, Takuya Akiba, Edoardo Cetin__ Статья: https://arxiv.org/abs/2512.12167 Код: https://github.com/SakanaAI/DroPE Блог: https://pub.sakana.ai/DroPE/ Ревью: https://arxiviq.substack.com/p/extending-the-context-of-pretrained # TL;DR ЧТО сделали: Авторы предложили метод DroPE (Dropping Positional Embeddings). Идея — использовать стандартные Rotary Positional Embeddings (RoPE) на этапе предобучения для быстрой сходимости, а затем полностью выкинуть их и провести короткую фазу «рекалибровки» на исходной длине контекста. В итоге модель превращается в NoPE (без позиционных эмбеддингов). ПОЧЕМУ это важно: Работа ставит под сомнение догму о том, что явные позиционки необходимы на инференсе. DroPE позволяет моделям обобщаться в zero-shot режиме на длины, в разы превышающие окно обучения (например, эффективная работа на 8k+ при обучении на 2k). Это избавляет от деградации качества, свойственной методам вроде YaRN или RoPE-NTK, и устраняет «семантические искажения», возникающие при сжатии низкочастотных компонент. Подробнее: https://t.me/gonzo_ML_podcasts/2065

Из этого канала