Gemma-4 теперь умеет предсказывать токены не по одному, а партиями Google только что выпустили Multi-Token Prediction (MTP) драфтеры. Это штука, которая позволяет Gemma-4 предсказывать сразу несколько токенов вперед. Обычно LLM генерируют строго по одному токену за шаг, и это одна из главных проблем архитектуры трансформеров, потому что работает медленно. Что сделали Google: – Они взяли еще одну модель, крошечную, обучили ее на задаче multi-token prediction, и поставили на роль drafter. Называется так, потому что эта модель пишет черновики, то есть пытается угадать действия большой модели на несколько токенов вперед. – Батч черновых токенов проверяет основная модель. Фишка в том, что на проверку нужен всего один проход (вместо нескольких, если бы модель генерировала все эти токены сама). – Если в черновой последовательности попадается ошибка, то: (1) этот токен заменяется на тот, который большая модель считает верным; (2) проверка прерывается и дальше драфтер предсказывает новую партию с этого места. Например, мы сгенерировали 5 черновых токенов. Три перых совпало, четвертый заменили. Всего сэкономили три прохода большой модели. Итог: MTP ускоряет генерацию примерно в 3 раза вообще без потерь в качестве. Все драфтеры выложили, так что уже можно попробовать погенерить что-нибудь в таком режиме. blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/