Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений. Transformers learn factored representations __Adam Shai, Loren Amdahl-Culleton, Casper L. Christensen, Henry R. Bigelow, Fernando E. Rosas, Alexander B. Boyd, Eric A. Alt, Kyle J. Ray, Paul M. Riechers__ Статья: https://arxiv.org/abs/2602.02385v1 Код: https://github.com/Astera-org/factored-reps Ревью: https://arxiviq.substack.com/p/transformers-learn-factored-representations # TL;DR ЧТО сделали: Авторы формализуют и эмпирически подтверждают гипотезу факторизованного мира (Factored World Hypothesis). Они показывают, что трансформеры естественным образом раскладывают сложные потоки данных на независимые дискретные факторы. Вместо того чтобы представлять эти факторы в огромном совместном математическом пространстве, которое экспоненциально растёт, архитектура нативно изолирует их в низкоразмерных, взаимно ортогональных подпространствах внутри residual stream. ПОЧЕМУ это важно: Исследование даёт строгий математический фундамент для механистической интерпретируемости. Оно доказывает, что модульность и распутанные репрезентации — это не просто удачная случайность обучения, а аттракторы представлений, обусловленные сильным inductive bias. Трансформеры предпочитают размерную эффективность брутфорсному запоминанию, даже когда факторизованный подход технически работает с потерями информации. Это означает, что поиск интерпретируемых подсетей и хирургические вмешательства в подпространства фундаментально согласуются с тем, как работает сама архитектура. Для практиков: Для ML-инженеров и исследователей интерпретируемости эта статья доказывает, что модульные представления в трансформерах математически обусловлены их архитектурой. Сеть естественным образом разбивает сложные данные на изолированные низкоразмерные пространства. Это валидирует подходы к точечному редактированию моделей и подтверждает, что мы можем изолировать и корректировать конкретные представления (beliefs) модели без катастрофического забывания или масштабного переобучения. Выучивать модульные представления тут: https://t.me/gonzo_ML_podcasts/3026
Интересная работа про природу вещей — трансформеры имеют встроенный байес к…
Из этого канала
- #5087Интересный феномен. Если мультимодальной модели по-тихому отключить картиночный…
Интересный феномен. Если мультимодальной модели по-тихому отключить картиночный вход и оставить только текстовый промпт, она может считать, что картинка у неё…
- #5090Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не…
Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не отражают реальное распределение на рынке труда.
- #5093Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного…
Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного реворда.
- #5077"А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать!…
"А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать! Сначала дистиллируем всех специализированных учителей в одного БОЛЬШОГО…
- #5073"Свежая интересная работа про биологические вычисления. Мы уже упоминали работу…
"Свежая интересная работа про биологические вычисления. Мы уже упоминали работу ""The forest as a neutrino detector"" (https://t.me/gonzoML/2735), текущая…