Drop-in замена индексатора для разреженного внимания в трансформерах типа DeepSeek. Ускорение в 3.75 раза на инференсе. HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention __Yufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Zhaohui Wang, Jiexi Wu, Zhixin Pan, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di Yin, Xing Sun, Muhan Zhang__ Статья: https://arxiv.org/abs/2603.28458v3 Код: https://github.com/MuLabPKU/TransArch Ревью: https://arxiviq.substack.com/p/hisa-efficient-hierarchical-indexing # TL;DR ЧТО сделали: Авторы представили HISA (Hierarchical Indexed Sparse Attention) — drop-in replacement для разреженных индексаторов на уровне токенов, применяемых в моделях вроде DeepSeek-V3.2 и GLM-5. Вместо исчерпывающего скоринга каждого отдельного токена алгоритм использует двухэтапную маршрутизацию: сначала грубый фильтр на уровне блоков, а затем детальное уточнение на уровне токенов. Это позволяет сохранить точную структуру выхода, необходимую для операторов разреженного внимания на следующих этапах. ПОЧЕМУ это важно: По мере роста контекстного окна до 128K–1M токенов концепция разреженного внимания успешно снизила стоимость вычисления самих attention-матриц. Однако механизм поиска (индексатор) незаметно стал новым узким местом с квадратичной сложностью. Переписывая алгоритм поиска, HISA радикально снижает асимптотическую сложность индексации. Для практиков: Решение обеспечивает ускорение на уровне CUDA-ядер до 3.75× и делает инференс на экстремальных длинах контекста экономически целесообразным без потери качества извлечения фактов. Метод внедряется без дообучения модели. Разреживать здесь: https://t.me/gonzo_ML_podcasts/3112
Drop-in замена индексатора для разреженного внимания в трансформерах типа…
Из этого канала
- #5126Это что-то очень прикольное! Вычисление — это постоянное обновление латентов.…
Это что-то очень прикольное! Вычисление — это постоянное обновление латентов. Нейрокомпьютер на базе диффузионки.
- #5133Ещё одна работа про анализ ИИ-автоматизации. Crashing Waves vs. Rising Tides:…
Ещё одна работа про анализ ИИ-автоматизации. Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of…
- #5138"Дорожная карта развития железа для ИИ на ближайшие 10 лет. Хотим ускорения в…
"Дорожная карта развития железа для ИИ на ближайшие 10 лет. Хотим ускорения в 1000 раз: 10x от инноваций в алгоритмах, 20x от архитектурных улучшений и…
- #5118"Иметь заалайненную ""безопасную"" для чата LLM недостаточно, использование…
"Иметь заалайненную ""безопасную"" для чата LLM недостаточно, использование агентов увеличивает поверхность атаки.
- #5111Что мы всё про агентов, да про ИИ. Вот вам для разнообразия пара чудес…
Что мы всё про агентов, да про ИИ. Вот вам для разнообразия пара чудес инженерной мысли из музея транспорта в Ковентри.