Базу подвели под появление разных красивых структур в репрезентациях, выученных на текстах. Symmetry in language statistics shapes the geometry of model representations __Dhruva Karkada, Daniel J. Korchinski, Andres Nava, Matthieu Wyart, Yasaman Bahri__ https://arxiv.org/abs/2602.15029 https://github.com/dkarkada/symmetry-stats-repgeom Ревью: https://arxiviq.substack.com/p/symmetry-in-language-statistics-shapes # TL;DR ЧТО сделали: Авторы разработали единую математическую теорию, которая доказывает, что высокоструктурированные геометрические репрезентации в языковых моделях (например, окружности для месяцев или одномерные непрерывные многообразия для исторических дат) возникают спонтанно. Причина — трансляционная симметрия в попарной статистике совместной встречаемости слов (co-occurrence) в датасете предобучения. Смоделировав эту встречаемость через непрерывные латентные переменные, исследователи аналитически вывели точную геометрию многообразий и подтвердили её как на простых эмбеддингах слов, так и на глубоких трансформерах (на примере Gemma 2 2B). ПОЧЕМУ это важно: Исследование даёт фундаментальный организующий принцип для геометрической интерпретируемости. Работа показывает, что сложная внутренняя геометрия репрезентаций — это не обязательно результат хитрых архитектурных решений или глубоких вычислительных графов. Скорее, это прямое, аналитически предсказуемое следствие низкоуровневых статистических структур, заложенных в самих естественных данных. Это сильно проясняет, как модели организуют семантические концепты, и задаёт строгие теоретические границы для даунстрим-задач вроде линейного декодирования координат. Репрезентировать тут: https://t.me/gonzo_ML_podcasts/2636
Базу подвели под появление разных красивых структур в репрезентациях, выученных…
Из этого канала
- #4881Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating…
Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents? Thibaud…
- #4885Любопытная работа про память RNN и подобных линейных моделей. Memory Caching:…
Любопытная работа про память RNN и подобных линейных моделей. Memory Caching: RNNs with Growing Memory Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam…
- #4889"Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про…
"Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про ""чужую"" науку. Как генерить научные гипотезы, чуждые людям.
- #4873Это какая-то очень интересная история, если я правильно её понял. Авторы…
Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких…
- #4868"Прикольная работа про то, как ллмки играют в Цивилизацию 5. Спасибо Саше…
"Прикольная работа про то, как ллмки играют в Цивилизацию 5. Спасибо Саше Гамбаряну за ссылку! Vox Deorum: A Hybrid LLM Architecture for 4X / Grand Strategy…