Впрочем, я не уверен насчёт SSM. В статье упоминается, что основано на архитектуре DeepSeekMoE. Про SSM написал Tri Dao: https://x.com/tri_dao/status/1938643149091692662?t=00YWpRkwl7afwhGHg1L1AQ&s=19