"Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе и рекурсивными циклами рассуждений, эта статья подсвечивает критическое упущение в классических сетях с адаптивными вычислениями. Трансформерному блоку с общими весами фундаментально необходимы выделенные токены памяти в качестве вычислительного ""черновика"" (scratchpad). Кроме того, стандартная нулевая или положительная инициализация bias в адаптивном роутинге часто загоняет модель в локальный минимум с ранней остановкой (shallow-halt). Просто инвертировав этот bias, чтобы заставить модель ""думать"" дольше на ранних этапах обучения, авторы радикально стабилизировали процесс и разблокировали специализированные механизмы внимания. Подход провалидирован на заведомо сложном бенчмарке. Входить в рекурсию тут: https://t.me/gonzo_ML_podcasts/3387"