Даёшь иерархию в авторегрессии! PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation __Yuma Ichikawa, Naoya Takagi, Takumi Nakagawa, Yuzi Kanazawa, Akira Sakai__ Статья: https://arxiv.org/abs/2512.20687 Ревью: https://arxiviq.substack.com/p/photon-hierarchical-autoregressive # TL;DR ЧТО сделали: Авторы предложили PHOTON — иерархическую архитектуру языковой модели, которая отказывается от стандартного «плоского» авторегрессионного сканирования в пользу многомасштабного (multi-resolution) подхода. PHOTON обрабатывает текст через энкодер, работающий «снизу вверх» для сжатия токенов в укрупнённые (coarse) латентные потоки, и декодер, работающий «сверху вниз» для реконструкции детализированных токенов, используя строго ограниченное локальное внимание. ПОЧЕМУ это важно: Эта архитектура фундаментально отделяет стоимость генерации от общей длины последовательности на этапе декодирования. Поддерживая компактное, медленно обновляющееся глобальное состояние и ограничивая генерацию токенов локальными чанками, PHOTON сокращает трафик KV-кэша на порядки. Это дает прирост пропускной способности на единицу памяти (Throughput-per-Memory) до 1000x по сравнению с обычными трансформерами в условиях ограниченной памяти, предлагая потенциальное решение проблемы «бутылочного горлышка» при работе с длинным контекстом. Подробнее: https://t.me/gonzo_ML_podcasts/1849
Даёшь иерархию в авторегрессии! PHOTON: Hierarchical Autoregressive Modeling…
Из этого канала
- #4471Дело говорит. https://x.com/karpathy/status/2004607146781278521?s=20
Дело говорит. https://x.com/karpathy/status/2004607146781278521?s=20
- #4472Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на…
Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях.
- #4474Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует.…
Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует. NVIDIA Nemotron 3: Efficient and Open Intelligence NVIDIA (250+ contributors)…
- #4464Ещё один способ не тренировать новый тип модели с нуля, а адаптировать…
Ещё один способ не тренировать новый тип модели с нуля, а адаптировать предобученную.
- #4460"Невидимая рука рынка для AGI: Безопасность через экономику Distributional AGI…
"Невидимая рука рынка для AGI: Безопасность через экономику Distributional AGI Safety Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon…