Монстрический Tri Dao и ко предложили спекулятивное декодирование второго порядка :) В обычном SD быстрая драфт модель генерила токены, а нормальная тяжёлая модель их верифицировала и в идеале принимала сразу несколько за раз, но драфт модель простаивала во время верификации. В SSD драфт модель пытается угадать результат верификации, строя дерево (кактус) вариантов и к моменту, когда валидация готова, у неё в кеше уже есть несколько продолжений. Speculative Speculative Decoding __Tanishq Kumar, Tri Dao, Avner May__ Статья: https://arxiv.org/abs/2603.03251 Код: https://github.com/tanishqkumar/ssd Ревью: https://arxiviq.substack.com/p/speculative-speculative-decoding # TL;DR ЧТО сделали: Авторы представляют Speculative Speculative Decoding (SSD) и его оптимизированную реализацию Saguaro. SSD разрушает последовательную зависимость между генерацией черновика (drafting) и верификацией в стандартном спекулятивном декодировании. Теперь draft-модель предсказывает результаты верификации и проактивно генерирует спекуляции параллельно с тем, как target-модель проверяет предыдущий шаг. ПОЧЕМУ это важно: Эффективно скрывая задержку (latency) генерации черновика за вычислениями верификации, SSD достигает ускорения до 2х по сравнению с оптимизированными бейзлайнами спекулятивного декодирования и до 5х по сравнению со стандартным авторегрессионным декодированием. Что критично, подход расширяет строгую границу Парето между задержкой и пропускной способностью (throughput), доказывая, что спекулятивные методы могут стать более вычислительно эффективными в расчете на одно устройство за счет агрессивного асинхронного параллелизма. Спекулировать тут: https://t.me/gonzo_ML_podcasts/2694
Монстрический Tri Dao и ко предложили спекулятивное декодирование второго…
Из этого канала
- #4907Интересная работа конца того года. MLP внутри себя выучивает MoE (а также…
Интересная работа конца того года. MLP внутри себя выучивает MoE (а также привет гипотезе лотерейного билета!).
- #4913Интересная работа про мультимодальные модели с единым бэкбоном. Если их…
Интересная работа про мультимодальные модели с единым бэкбоном. Если их правильно обучать, то всё работает. И снова очень хорош MoE.
- #4918"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы…
"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы FlashAttention-4.
- #4900Говорят, загруженное (в смысле uploaded) существо:…
Говорят, загруженное (в смысле uploaded) существо: https://x.com/michaelandregg/status/2030764512488677736 Взяли коннектом дрозофилы, собрали нейронную модель…
- #4893~~AGI~~. SAI! AI Must Embrace Specialization via Superhuman Adaptable…
~~AGI~~. SAI! AI Must Embrace Specialization via Superhuman Adaptable Intelligence Judah Goldfeder, Philippe Wyder, Yann LeCun, Ravid Shwartz-Ziv Paper:…