Интересное на подумать. Generalization at the Edge of Stability Mario Tuci,… — @gonzo_ML

Интересное на подумать. Generalization at the Edge of Stability __Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal__ Статья: https://arxiv.org/abs/2604.19740v1 Сайт: https://circle-group.github.io/research/GATES Ревью: https://arxiviq.substack.com/p/generalization-at-the-edge-of-stability # TL;DR ЧТО сделали: Авторы предложили теоретический фреймворк, моделирующий стохастическую оптимизацию как случайную динамическую систему, сходящуюся к фрактальному пуллбэк-аттрактору (pullback attractor). Они вывели новую меру сложности — размерность резкости (Sharpness Dimension), которая опирается на полный спектр гессиана для оценки наихудшей ошибки обобщения нейросетей, обучающихся в локально нестабильных режимах. ПОЧЕМУ это важно: Современное масштабное обучение часто загоняет модели в осциллирующий, хаотичный режим Edge of Stability, где классические теории «плоских минимумов» (flat minima) перестают работать. Математически доказав, что обобщающая способность сети контролируется размерностью фрактального подмножества меньшей размерности, а не общим количеством параметров, эта работа строго объясняет, почему массивно перепараметризованные сети хорошо обобщают без необходимости сходиться к единой стабильной точке. Для практиков: Для исследователей и инженеров, масштабирующих передовые модели, статья диктует смену парадигмы: от анализа изолированных чекпоинтов к изучению аттракторов — множеств состояний, которые алгоритмы исследуют в долгосрочной перспективе. Оценка ландшафта лосса по одной метрике (например, по старшему собственному значению гессиана) — ненадёжный предиктор качества модели. Вместо этого вычисление Sharpness Dimension, балансирующего как расширяющиеся, так и сжимающиеся направления ландшафта, даёт надёжный предиктор обобщающей способности и объясняет внезапные скачки в обучении вроде гроккинга. Грокать тут: https://t.me/gonzo_ML_podcasts/3338

Из этого канала