Drop-in замена индексатора для разреженного внимания в трансформерах типа… — @gonzo_ML

Drop-in замена индексатора для разреженного внимания в трансформерах типа DeepSeek. Ускорение в 3.75 раза на инференсе. HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention __Yufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Zhaohui Wang, Jiexi Wu, Zhixin Pan, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di Yin, Xing Sun, Muhan Zhang__ Статья: https://arxiv.org/abs/2603.28458v3 Код: https://github.com/MuLabPKU/TransArch Ревью: https://arxiviq.substack.com/p/hisa-efficient-hierarchical-indexing # TL;DR ЧТО сделали: Авторы представили HISA (Hierarchical Indexed Sparse Attention) — drop-in replacement для разреженных индексаторов на уровне токенов, применяемых в моделях вроде DeepSeek-V3.2 и GLM-5. Вместо исчерпывающего скоринга каждого отдельного токена алгоритм использует двухэтапную маршрутизацию: сначала грубый фильтр на уровне блоков, а затем детальное уточнение на уровне токенов. Это позволяет сохранить точную структуру выхода, необходимую для операторов разреженного внимания на следующих этапах. ПОЧЕМУ это важно: По мере роста контекстного окна до 128K–1M токенов концепция разреженного внимания успешно снизила стоимость вычисления самих attention-матриц. Однако механизм поиска (индексатор) незаметно стал новым узким местом с квадратичной сложностью. Переписывая алгоритм поиска, HISA радикально снижает асимптотическую сложность индексации. Для практиков: Решение обеспечивает ускорение на уровне CUDA-ядер до 3.75× и делает инференс на экстремальных длинах контекста экономически целесообразным без потери качества извлечения фактов. Метод внедряется без дообучения модели. Разреживать здесь: https://t.me/gonzo_ML_podcasts/3112

Из этого канала