"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws __Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma__ Paper: https://arxiv.org/abs/2605.23901 Ревью: https://arxiviq.substack.com/p/llms-as-noisy-channels-a-shannon Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы предложили закон масштабирования Шеннона (Shannon Scaling Law) — новый унифицированный фреймворк для LLM, основанный на классической теореме Шеннона — Хартли. Рассматривая процесс обучения как передачу информации по зашумлённому каналу, они представили параметры модели как полосу пропускания канала, а обучающие токены — как мощность сигнала. Это позволило объединить стандартное монотонное масштабирование с немонотонными эффектами, такими как катастрофическое переобучение и деградация при квантовании. ПОЧЕМУ это важно: Традиционные законы масштабирования предполагают бесконечный монотонный рост качества. Однако на практике инженеры всё чаще сталкиваются с ""U-образным"" поведением лосса, когда качество падает из-за чрезмерного предобучения или низкобитного квантования. Закон масштабирования Шеннона закладывает строгий теоретический фундамент под эти ограничения. Он позволяет точнее распределять ресурсы, планировать вычислительные затраты и экстраполировать результаты на более крупные модели и длинные циклы обучения там, где классические законы масштабирования пасуют. Для практиков: Для исследователей и технических менеджеров эта работа знаменует переход от экстенсивного наращивания параметров к оптимизации ""плотности информации"". Показав, что ёмкость LLM строго ограничена совокупным шумом (который возникает из-за данных, взаимодействия компонентов модели и архитектурных ограничений), авторы дают математический инструмент для определения точных порогов, за которыми дальнейшее предобучение, квантование или файнтюнинг приведут к катастрофической потере ёмкости модели. Сдвигать парадигмы тут: https://t.me/gonzo_ML_podcasts/3760"
"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels:…
Из этого канала
- #5440Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee,…
Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti Paper: https://arxiv.org/abs/2605.26099…
- #5447Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving…
Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving Agent Skills Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu…
- #5452Очень интересная работа. Модели осваивают навыки в определённом порядке и он…
Очень интересная работа. Модели осваивают навыки в определённом порядке и он сохраняется между разными моделями.
- #5428Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2.…
Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention Ali…
- #5424Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и…
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент.