"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels:… — @gonzo_ML

"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws __Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma__ Paper: https://arxiv.org/abs/2605.23901 Ревью: https://arxiviq.substack.com/p/llms-as-noisy-channels-a-shannon Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы предложили закон масштабирования Шеннона (Shannon Scaling Law) — новый унифицированный фреймворк для LLM, основанный на классической теореме Шеннона — Хартли. Рассматривая процесс обучения как передачу информации по зашумлённому каналу, они представили параметры модели как полосу пропускания канала, а обучающие токены — как мощность сигнала. Это позволило объединить стандартное монотонное масштабирование с немонотонными эффектами, такими как катастрофическое переобучение и деградация при квантовании. ПОЧЕМУ это важно: Традиционные законы масштабирования предполагают бесконечный монотонный рост качества. Однако на практике инженеры всё чаще сталкиваются с ""U-образным"" поведением лосса, когда качество падает из-за чрезмерного предобучения или низкобитного квантования. Закон масштабирования Шеннона закладывает строгий теоретический фундамент под эти ограничения. Он позволяет точнее распределять ресурсы, планировать вычислительные затраты и экстраполировать результаты на более крупные модели и длинные циклы обучения там, где классические законы масштабирования пасуют. Для практиков: Для исследователей и технических менеджеров эта работа знаменует переход от экстенсивного наращивания параметров к оптимизации ""плотности информации"". Показав, что ёмкость LLM строго ограничена совокупным шумом (который возникает из-за данных, взаимодействия компонентов модели и архитектурных ограничений), авторы дают математический инструмент для определения точных порогов, за которыми дальнейшее предобучение, квантование или файнтюнинг приведут к катастрофической потере ёмкости модели. Сдвигать парадигмы тут: https://t.me/gonzo_ML_podcasts/3760"

Из этого канала