⚡️ Speculative Speculative Decoding (SSD) Tanishq Kumar вместе с Tri Dao и Avner May представили новый алгоритм инференса, который ускоряет генерацию текста до 2× по сравнению с лучшими SD-движками. Проблема классического SD - черновая модель простаивает, пока целевая верифицирует токены. Железо есть, а работы нет. SSD это фиксит: пока большая модель проверяет - маленькая уже предсказывает исходы и готовит следующую цепочку. Если угадала, токены выдаются мгновенно. Ошиблась, откат к стандартному SD без потери качества 🎯 Оптимизированная версия алгоритма называется Saguaro и показывает: - до 2× быстрее лучших бейзлайнов классического SD - до 5× быстрее стандартного авторегрессионного декодирования - нулевые потери качества генерации 🔒 📄 Статья (март 2026) 💻 GitHub 🐦 Твит