"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep Learning __Elon Litman, Gabe Guo__ Статья: https://arxiv.org/abs/2605.01172v1 Ревью: https://arxiviq.substack.com/p/a-theory-of-generalization-in-deep # TL;DR ЧТО сделали: Исследователи из Стэнфорда представили неасимптотическую теорию обобщения. Они математически доказали, что эмпирический Neural Tangent Kernel разделяет выходное пространство нейросети на две части: ""видимый для теста"" канал сигнала и ""невидимый"" резервуар шума. На базе этой теории авторы собрали модификацию для оптимизатора AdamW (с нулевым оверхедом), которая напрямую оценивает и минимизирует population risk за счёт гейтинга градиентов по их дисперсии. ПОЧЕМУ это важно: Теория выводит математическое понимание сетей за пределы ""ленивого"" режима (frozen-kernel). Она объясняет работу моделей в режиме полноценного выучивания фичей (feature learning), связывая архитектурную динамику с обобщающей способностью. Для практиков: Динамическая фильтрация параметров, отсекающая апдейты с доминирующим шумом батча, практически избавляет от необходимости early stopping. Модифицированный оптимизатор ускоряет грокинг в 5 раз и значительно снижает policy drift в зашумлённых задачах AI alignment (например, в DPO). Погружаться в резервуар здесь: https://t.me/gonzo_ML_podcasts/3549"
"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep…
Из этого канала
- #5343Новые ядра и формат упаковки для неструктурированной разреженности от Sakana +…
Новые ядра и формат упаковки для неструктурированной разреженности от Sakana + NVIDIA.
- #5348"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что…
"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово…
- #5353Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute…
Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute Optimal Tokenization Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike…
- #53352) test-time scaling из коробки — часто можно погонять рекурсию поглубже для…
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата.
- #5334Recursion strikes back Тема про рекурсию активно развивается в последний год.…
Recursion strikes back Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного…