Mythos является очень эффективной моделью в плане токенов. Причиной этому, скорее всего, является использование подхода похожего на LoopLM от ByteDance (в соавторстве с Бенжио). Не вдаваясь в математику, это значит что модель вместо генерации chain-of-thought размышлений в виде текста, делает это в своем скрытом, латентном пространстве без какого-либо промежуточного аутпута. При тренировке, модель сама учится тому когда ей нужно делать несколько циклов инфренса для более сложных задач. Если это так, то это дает большую экономию в токенах, и одновременно позволяет модели более «глубоко» думать над задачами, которые трудно решить обычной цепочкой рассуждений.