Шмидхубер ссылается на фундаментальные работы Беннета и Шмидхубера! Multiple Token Divergence: A Measure of In-Context Computation Density __Vincent Herrmann, Eric Alcaide, Jürgen Schmidhuber__ Статья: https://openreview.net/forum?id=jNJwgg0opm Ревью: https://arxiviq.substack.com/p/multiple-token-divergence-a-measure # TL;DR ЧТО сделали: Авторы предложили метрику Multiple Token Divergence (MTD), которая оценивает «вычислительную плотность» сгенерированного токена. Это делается через измерение KL-дивергенции между выходным распределением полной модели и её ограниченной, «поверхностной» вспомогательной головы. ПОЧЕМУ это важно: Стандартный лосс предсказания следующего токена (`L_NLL`) — плохой прокси для оценки затрат на рассуждение. Модель может показывать низкий лосс на тривиальных задачах (копирование) и такой же низкий на сложных, но детерминированных вычислениях. MTD позволяет отделить «предсказуемость» от «вычислительных усилий», давая неинвазивный способ понять, использует ли модель всю свою глубину для ризонинга или выезжает на простых эвристиках. Подробнее: https://t.me/gonzo_ML_podcasts/1741