Последняя из работ-финалистов NeurIPS 2025, про геометрию репрезентаций и механистическое объяснение законов скейлинга. Работа прекрасна! Superposition Yields Robust Neural Scaling __Yizhou Liu, Ziming Liu, and Jeff Gore__ Статья: https://arxiv.org/abs/2505.10465, https://openreview.net/forum?id=knPz7gtjPW Код: https://github.com/liuyz0/SuperpositionScaling Ревью: https://arxiviq.substack.com/p/neurips-2025-superposition-yields # TL;DR ЧТО сделали: Предложили механистическое объяснение законов масштабирования (scaling laws), связав их с суперпозицией репрезентаций. Адаптировав фреймворк разреженных автоэнкодеров и проверив теорию на открытых LLM (OPT, Pythia, Qwen), авторы показали: когда модели работают в режиме «сильной суперпозиции» (кодируют значительно больше фичей, чем имеют измерений), лосс масштабируется обратно пропорционально ширине модели (`L ∝ 1/m`). Этот скейлинг обусловлен геометрической интерференцией между векторами признаков, а не статистическими свойствами хвоста распределения данных. ПОЧЕМУ это важно: Работа — Best Paper Runner-Up на NeurIPS 2025. Она дает вывод законов скейлинга «из первых принципов», устойчивый к распределению данных. В отличие от предыдущих теорий, опирающихся на аппроксимацию многообразия, здесь утверждается, что степенной закон поведения LLM — это геометрическая неизбежность сжатия разреженных концептов в плотные пространства. Это означает, что для преодоления барьеров масштабирования нужны архитектурные вмешательства для управления интерференцией признаков — простое добавление данных не поможет обойти это геометрическое бутылочное горлышко. Подробнее: https://t.me/gonzo_ML_podcasts/1531
Последняя из работ-финалистов NeurIPS 2025, про геометрию репрезентаций и…
Из этого канала
- #4301Шедевр, я считаю!
Шедевр, я считаю!
- #4302Любопытная книга в открытом доступе Artificial Humanities: A Fictional…
Любопытная книга в открытом доступе Artificial Humanities: A Fictional Perspective on Language in AI Nina Beguš Artificial Humanities explores how literature,…
- #4303"Будущее за оркестрами, обучайте дирижёров! ToolOrchestra: Elevating…
"Будущее за оркестрами, обучайте дирижёров! ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration Hongjin Su, Shizhe Diao, Ximing…
- #4298Прекрасная картинка. Увидел у https://t.me/fastsalttimes/4696. Оригинал:…
Прекрасная картинка. Увидел у https://t.me/fastsalttimes/4696. Оригинал: https://x.com/tomaspueyo/status/1993360931267473662
- #4295Предпоследняя работа-финалист NeurIPS 2025. Тотальный хардкор! Специалисты в…
Предпоследняя работа-финалист NeurIPS 2025. Тотальный хардкор! Специалисты в теории трансдуктивного онлайн-обучения есть? Но зато узнал, что в дополнение к…