И ещё инновация с памятью, теперь ассоциативная память на замену механизму внимания: https://t.me/gonzo_ML_podcasts/462 Снова позволяет обучаться лучше на меньшем объёме данных. 1T токенов для Memory Mosaics даёт качество как 8T токенов у трансформера.