"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep Learning __Elon Litman, Gabe Guo__ Статья: https://arxiv.org/abs/2605.01172v1 Ревью: https://arxiviq.substack.com/p/a-theory-of-generalization-in-deep # TL;DR ЧТО сделали: Исследователи из Стэнфорда представили неасимптотическую теорию обобщения. Они математически доказали, что эмпирический Neural Tangent Kernel разделяет выходное пространство нейросети на две части: ""видимый для теста"" канал сигнала и ""невидимый"" резервуар шума. На базе этой теории авторы собрали модификацию для оптимизатора AdamW (с нулевым оверхедом), которая напрямую оценивает и минимизирует population risk за счёт гейтинга градиентов по их дисперсии. ПОЧЕМУ это важно: Теория выводит математическое понимание сетей за пределы ""ленивого"" режима (frozen-kernel). Она объясняет работу моделей в режиме полноценного выучивания фичей (feature learning), связывая архитектурную динамику с обобщающей способностью. Для практиков: Динамическая фильтрация параметров, отсекающая апдейты с доминирующим шумом батча, практически избавляет от необходимости early stopping. Модифицированный оптимизатор ускоряет грокинг в 5 раз и значительно снижает policy drift в зашумлённых задачах AI alignment (например, в DPO). Погружаться в резервуар здесь: https://t.me/gonzo_ML_podcasts/3549"