Интересная работа про природу вещей — трансформеры имеют встроенный байес к… — @gonzo_ML

Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений. Transformers learn factored representations __Adam Shai, Loren Amdahl-Culleton, Casper L. Christensen, Henry R. Bigelow, Fernando E. Rosas, Alexander B. Boyd, Eric A. Alt, Kyle J. Ray, Paul M. Riechers__ Статья: https://arxiv.org/abs/2602.02385v1 Код: https://github.com/Astera-org/factored-reps Ревью: https://arxiviq.substack.com/p/transformers-learn-factored-representations # TL;DR ЧТО сделали: Авторы формализуют и эмпирически подтверждают гипотезу факторизованного мира (Factored World Hypothesis). Они показывают, что трансформеры естественным образом раскладывают сложные потоки данных на независимые дискретные факторы. Вместо того чтобы представлять эти факторы в огромном совместном математическом пространстве, которое экспоненциально растёт, архитектура нативно изолирует их в низкоразмерных, взаимно ортогональных подпространствах внутри residual stream. ПОЧЕМУ это важно: Исследование даёт строгий математический фундамент для механистической интерпретируемости. Оно доказывает, что модульность и распутанные репрезентации — это не просто удачная случайность обучения, а аттракторы представлений, обусловленные сильным inductive bias. Трансформеры предпочитают размерную эффективность брутфорсному запоминанию, даже когда факторизованный подход технически работает с потерями информации. Это означает, что поиск интерпретируемых подсетей и хирургические вмешательства в подпространства фундаментально согласуются с тем, как работает сама архитектура. Для практиков: Для ML-инженеров и исследователей интерпретируемости эта статья доказывает, что модульные представления в трансформерах математически обусловлены их архитектурой. Сеть естественным образом разбивает сложные данные на изолированные низкоразмерные пространства. Это валидирует подходы к точечному редактированию моделей и подтверждает, что мы можем изолировать и корректировать конкретные представления (beliefs) модели без катастрофического забывания или масштабного переобучения. Выучивать модульные представления тут: https://t.me/gonzo_ML_podcasts/3026

Из этого канала