На входе у неё три элемента: input (x), latent (z) и prediction (y), они все… — @gonzo_ML

На входе у неё три элемента: input (x), latent (z) и prediction (y), они все суммируются в одно значение. В самом начале прилетает только x, всё остальное нули (?). Базовая итерация, аналогичная модулю L в HRM генерит значение latent (z, оно же обозначено в формуле рекурсии как z_L) на выходе слоя, и обновлённый z поступает обратно на вход модулю, где он теперь добавляется к input (x) не как нуль. Выход-предсказание (y, оно же в формуле обозначено как z_H) тоже добавляется, но поскольку оно не обновилось, оно ничего не меняет. Значение z_H будет посчитано только в конце итерации на базе z_L и предыдущего z_H, вход x здесь не участвует. Обучение по сути идёт на трёх уровнях. Описанный выше процесс -- это самый глубокий уровень, называется `latent recursion`. Итого, рекурсивный процесс TRM содержит n вычислений f_L и одно вычисление f_H, бэкпроп идёт через всю рекурсию, нет больше необходимости полагаться на теоремы о неподвижной точке. Уровнем выше можно гонять и несколько итераций f_H, последовательно улучшая оба значения z_L (z) и z_H (y). Этот процесс называется `deep recursion`. Наконец, ещё уровнем выше кроме рекурсивного процесса есть и `deep supervision`, как у HRM. Цикл обучения включает до Nₛᵤₚ=16 шагов супервизии. На каждом шаге модель выполняет процесс `deep recursion`: 1. Внутренний цикл (`latent recursion`): Сначала сеть обновляет скрытый признак рассуждений z в течение n=6 шагов (z ← net(x, y, z)), а затем один раз уточняет ответ y (y ← net(y, z)). 2. Внешний цикл (`deep recursion`): Внутренний цикл выполняется T=3 раза. Первые T-1=2 выполнения проходят без отслеживания градиентов, чтобы эффективно приблизить скрытые состояния к хорошему решению. Последнее выполнение позволяет градиентам пройти через все n+1=7 вызовов сети. Полученные (y,z) затем отсоединяются от графа вычислений и используются для инициализации следующего шага супервизии. Такая структура позволяет крошечной двухслойной сети достигать эффективной глубины в 42 слоя на каждом шаге супервизии (как я понимаю это `(6+1) шагов внутреннего цикла * 3 внешних цикла * 2 слоя`), что в итоге может значительно превысить 384 слоя (здесь будет 42*16=672), которых достигал её предшественник HRM. 🤔 Переинтерпретация HRM Это в целом идейно повторяет иерархический подход HRM с двумя сетями/фичами/латентами. Здесь можно задаться вопросом, почему две иерархические фичи, не одна, не три или ещё сколько-то? Авторы предлагают своё объяснение, переинтерпретируя фичу z_H как эмбеддинг текущего решения, которое если надо будет преобразовано в выходной токен через выходную голову сети и argmax. Фича z_L в свою очередь -- это латентная фича, напрямую не связанная с выходным решением, но которая может быть в него трансформирована через f_H. В такой интерпретации иерархия не нужна: есть вход x, есть предложенное решение y (ранее называемое z_H), есть латентная фича для ризонинга z (ранее z_L). Модель последовательно улучшает свой латент z, а затем на базе него и предыдущего решения y выдаёт новый y (но может остаться и со старым, если он хорош). Итого, TRM предлагает гораздо более простую и интуитивную интерпретацию: * y (ранее z_H): Текущий (в виде эмбеддинга) выходной ответ. * z (ранее z_L): Скрытый признак, представляющий след рассуждений или «цепочку мыслей» (chain-of-thought). На сам алгоритм это не влияет, это лишь реинтерпретация для лучшего понимания и это ответ на то, почему две фичи: удержание в памяти контекста вопроса `x`, предыдущего ризонинга `z` и предыдущего ответа `y` помогает модели итерировать своё решение, следующий ризонинг `z` и следующий ответ `y`. Если не передавать предыдущий `z`, то модель не будет знать, как она пришла к предыдущему решению. Если не передавать предыдущий `y`, то модель не будет знать, какое решение было до этого и будет вынуждена хранить его где-то внутри `z` вместо того чтобы использовать `z` для латентного ризонинга.

Из этого канала