Интересное на подумать. Generalization at the Edge of Stability __Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal__ Статья: https://arxiv.org/abs/2604.19740v1 Сайт: https://circle-group.github.io/research/GATES Ревью: https://arxiviq.substack.com/p/generalization-at-the-edge-of-stability # TL;DR ЧТО сделали: Авторы предложили теоретический фреймворк, моделирующий стохастическую оптимизацию как случайную динамическую систему, сходящуюся к фрактальному пуллбэк-аттрактору (pullback attractor). Они вывели новую меру сложности — размерность резкости (Sharpness Dimension), которая опирается на полный спектр гессиана для оценки наихудшей ошибки обобщения нейросетей, обучающихся в локально нестабильных режимах. ПОЧЕМУ это важно: Современное масштабное обучение часто загоняет модели в осциллирующий, хаотичный режим Edge of Stability, где классические теории «плоских минимумов» (flat minima) перестают работать. Математически доказав, что обобщающая способность сети контролируется размерностью фрактального подмножества меньшей размерности, а не общим количеством параметров, эта работа строго объясняет, почему массивно перепараметризованные сети хорошо обобщают без необходимости сходиться к единой стабильной точке. Для практиков: Для исследователей и инженеров, масштабирующих передовые модели, статья диктует смену парадигмы: от анализа изолированных чекпоинтов к изучению аттракторов — множеств состояний, которые алгоритмы исследуют в долгосрочной перспективе. Оценка ландшафта лосса по одной метрике (например, по старшему собственному значению гессиана) — ненадёжный предиктор качества модели. Вместо этого вычисление Sharpness Dimension, балансирующего как расширяющиеся, так и сжимающиеся направления ландшафта, даёт надёжный предиктор обобщающей способности и объясняет внезапные скачки в обучении вроде гроккинга. Грокать тут: https://t.me/gonzo_ML_podcasts/3338
Интересное на подумать. Generalization at the Edge of Stability Mario Tuci,…
Из этого канала
- #5255И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There…
И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There Will Be a Scientific Theory of Deep Learning Jamie Simon, Daniel Kunin, Alexander…
- #5260Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep…
Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep Network Features Represent Data Thomas Walker, Ahmed Imtiaz Humayun, Randall…
- #5266"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач.…
"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач. Задним умом идея настолько простая, что странно, что раньше не добавили.
- #5237Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в…
Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в миллион токенов V4 требует всего 27% FLOPs при инференсе одного токена и лишь 10%…
- #5236Про важность харнесса на примере Клод Кода:…
Про важность харнесса на примере Клод Кода: https://www.anthropic.com/engineering/april-23-postmortem Продолжение темы https://t.me/gonzoML/5209