Главных результата 2: 1) значение функции ошибки меньше, чем у обычного трансформера, даже в пересчёте на количество вычислений при тренировке (все приёмы выше добавляют ~7% вычислений на шаг), то есть модель лучше предсказывает текст 2) что транслируется в приросты на бенчмарках Ждём в DeepSeekV4!