"Ещё про диффузионные LLM, теперь подход Soft Masking. Здесь вместо того, чтобы принимать бинарное решение ""заменить `[MASK]` на реальный токен"" или нет, мы при сохранении маски смешиваем эмбеддинг токена `[MASK]` с взвешенной по уверенности выпуклой комбинацией эмбеддингов топ-k предсказанных токенов с предыдущего шага. Способствует сохранению важной информации, улучшает обучение. https://t.me/gonzo_ML_podcasts/1043"