Базу подвели под появление разных красивых структур в репрезентациях, выученных… — @gonzo_ML

Базу подвели под появление разных красивых структур в репрезентациях, выученных на текстах. Symmetry in language statistics shapes the geometry of model representations __Dhruva Karkada, Daniel J. Korchinski, Andres Nava, Matthieu Wyart, Yasaman Bahri__ https://arxiv.org/abs/2602.15029 https://github.com/dkarkada/symmetry-stats-repgeom Ревью: https://arxiviq.substack.com/p/symmetry-in-language-statistics-shapes # TL;DR ЧТО сделали: Авторы разработали единую математическую теорию, которая доказывает, что высокоструктурированные геометрические репрезентации в языковых моделях (например, окружности для месяцев или одномерные непрерывные многообразия для исторических дат) возникают спонтанно. Причина — трансляционная симметрия в попарной статистике совместной встречаемости слов (co-occurrence) в датасете предобучения. Смоделировав эту встречаемость через непрерывные латентные переменные, исследователи аналитически вывели точную геометрию многообразий и подтвердили её как на простых эмбеддингах слов, так и на глубоких трансформерах (на примере Gemma 2 2B). ПОЧЕМУ это важно: Исследование даёт фундаментальный организующий принцип для геометрической интерпретируемости. Работа показывает, что сложная внутренняя геометрия репрезентаций — это не обязательно результат хитрых архитектурных решений или глубоких вычислительных графов. Скорее, это прямое, аналитически предсказуемое следствие низкоуровневых статистических структур, заложенных в самих естественных данных. Это сильно проясняет, как модели организуют семантические концепты, и задаёт строгие теоретические границы для даунстрим-задач вроде линейного декодирования координат. Репрезентировать тут: https://t.me/gonzo_ML_podcasts/2636

Из этого канала