Интересная архитектурная инновация: трилинейное внимание, где каждому Q соответствует не один K, а два разных. Ценный бонус — более хорошая экспонента для скейлинга, что значит можно обучать более хорошие модели на том же количестве данных. https://t.me/gonzo_ML_podcasts/436