Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How Different Language Models Learn Similar Number Representations __Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia__ Paper: https://arxiv.org/abs/2604.20817 Model: https://hf.co/collections/deqing/convergent-evolution Review: https://arxiviq.substack.com/p/convergent-evolution-how-different # TL;DR ЧТО сделали: Авторы систематически исследуют, почему разнообразные языковые модели естественным образом вырабатывают периодические репрезентации для числовых токенов. Они выделяют двухуровневую иерархию, отделяющую «спектральную сходимость» (универсальное появление Фурье-всплесков в пространстве эмбеддингов) от «геометрической сходимости» (функциональной способности линейно классифицировать числа по модулю периода). ПОЧЕМУ это важно: Эта работа вводит критически важную теоретическую проверку для механистической интерпретируемости. Она доказывает, что визуально заметные структуры в пространстве репрезентаций модели не гарантируют выучивания функционального алгоритма. Это ставит под сомнение гипотезу о том, что общие статистические артефакты автоматически означают общие способности к рассуждению. Для практиков: Часто периодические паттерны в эмбеддингах LLM трактуются как доказательство того, что модель освоила модульную арифметику. Статья показывает, что эти Фурье-сигнатуры — лишь повсеместный артефакт частотностей токенов датасета. Они появляются даже в классических эмбеддингах или в сырых, необученных распределениях данных. При этом настоящая функциональность, измеряемая линейной разделимостью классов вычетов, возникает избирательно и только тогда, когда архитектура, оптимизатор и данные о совместной встречаемости текста и чисел работают согласованно. Описывая этот феномен как форму «конвергентной эволюции», авторы предлагают строгий фреймворк, позволяющий отличить поверхностную статистическую мимикрию от реального функционального выучивания фичей. Полезные и бесполезные репрезентации тут: https://t.me/gonzo_ML_podcasts/3487
Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How…
Из этого канала
- #5319Сжатие сырых логов в структурированные саммари помогает кодовым агентам.…
Сжатие сырых логов в структурированные саммари помогает кодовым агентам. Scaling Test-Time Compute for Agentic Coding Joongwon (Daniel) Kim, Winnie Yang,…
- #5323Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in…
Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu,…
- #5327"Развитие тем покойного Нафтали Тишби…
"Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw). Learning Is Forgetting: LLM Training as Lossy Compression Henry C.
- #5311"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM…
"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах.
- #5310Попалась свежая интересная репа, собирающая всё про UT/Looped Models…
Попалась свежая интересная репа, собирающая всё про UT/Looped Models https://github.com/huskydoge/Awesome-Loop-Models