Монстрический Tri Dao и ко предложили спекулятивное декодирование второго порядка :) В обычном SD быстрая драфт модель генерила токены, а нормальная тяжёлая модель их верифицировала и в идеале принимала сразу несколько за раз, но драфт модель простаивала во время верификации. В SSD драфт модель пытается угадать результат верификации, строя дерево (кактус) вариантов и к моменту, когда валидация готова, у неё в кеше уже есть несколько продолжений. Speculative Speculative Decoding __Tanishq Kumar, Tri Dao, Avner May__ Статья: https://arxiv.org/abs/2603.03251 Код: https://github.com/tanishqkumar/ssd Ревью: https://arxiviq.substack.com/p/speculative-speculative-decoding # TL;DR ЧТО сделали: Авторы представляют Speculative Speculative Decoding (SSD) и его оптимизированную реализацию Saguaro. SSD разрушает последовательную зависимость между генерацией черновика (drafting) и верификацией в стандартном спекулятивном декодировании. Теперь draft-модель предсказывает результаты верификации и проактивно генерирует спекуляции параллельно с тем, как target-модель проверяет предыдущий шаг. ПОЧЕМУ это важно: Эффективно скрывая задержку (latency) генерации черновика за вычислениями верификации, SSD достигает ускорения до 2х по сравнению с оптимизированными бейзлайнами спекулятивного декодирования и до 5х по сравнению со стандартным авторегрессионным декодированием. Что критично, подход расширяет строгую границу Парето между задержкой и пропускной способностью (throughput), доказывая, что спекулятивные методы могут стать более вычислительно эффективными в расчете на одно устройство за счет агрессивного асинхронного параллелизма. Спекулировать тут: https://t.me/gonzo_ML_podcasts/2694