Прикольная работа от Антропика про то, как реализован счёт внутри моделей. Они… — @gonzo_ML

Прикольная работа от Антропика про то, как реализован счёт внутри моделей. Они уже публиковали это осенью в Transformer Circuits, теперь оформили в статью. Это интересный в своей сложности кейс mechinterp. Отдельно интересно, что это ещё один пример, когда рулит геометрия (в последнее время было уже прям много работ про геометрические подходы) и реализация вычислений сделана не так, как мы по дефолту ожидали в стиле фон Неймана, а через работу на многообразиях. Было бы интересно подумать про перспективы подобных геометрических вычислителей. When Models Manipulate Manifolds: The Geometry of a Counting Task __Wes Gurnee, Emmanuel Ameisen, Isaac Kauvar, Julius Tarng, Adam Pearce, Chris Olah, Joshua Batson__ Статья: https://arxiv.org/abs/2601.04480 Пост на Transformer Circuits Thread: https://transformer-circuits.pub/2025/linebreaks/index.html Ревью: https://arxiviq.substack.com/p/when-models-manipulate-manifolds Модель: Claude 3.5 Haiku Affiliation: Anthropic # TL;DR ЧТО сделали: Исследователи из Anthropic провели реверс-инжиниринг механизмов, отвечающих за перенос строк (line-wrapping) в Claude 3.5 Haiku. Они выяснили, что модель не использует целочисленные регистры для отслеживания длины строки. Вместо этого она строит «многообразие подсчёта символов» (character count manifold) — спиралевидную геометрическую структуру, вложенную в residual stream. Манипулируя кривизной и вращением этого многообразия с помощью голов внимания, модель выполняет точные арифметические операции, чтобы определить момент вставки новой строки. ПОЧЕМУ это важно: Эта работа перекидывает мост между интерпретируемостью на основе признаков (разреженные словари) и геометрической интерпретируемостью (многообразия). Оказывается, задачи, которые мы считаем «арифметическими» (счёт, вычитание), реализуются в трансформерах через «геометрические» операции (вращение, проекция) над низкоразмерными кривыми. Это ставит под сомнение миф о том, что нейросети плохо справляются с точным счётом — просто для решения проблемы они используют другой, непрерывный математический субстрат. Читать тут: https://t.me/gonzo_ML_podcasts/2444

Из этого канала