"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic Sharpness Gap __Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis__ Статья: https://arxiv.org/abs/2604.21016 Ревью: https://arxiviq.substack.com/p/sgd-at-the-edge-of-stability-the # TL;DR ЧТО сделали: Авторы расширили теорию самостабилизации градиентного спуска на стохастический режим. Они показали, что градиентный шум мини-батча усиливает кубическую силу, снижающую резкость (sharpness) ландшафта лосса. Также вывели точную формулу для ""стохастического разрыва резкости"" (Stochastic Sharpness Gap) — величины, на которую стохастический градиентный спуск (SGD) подавляет резкость ниже классического порога нестабильности `2/η`. ПОЧЕМУ это важно: Работа математически связывает два важнейших феномена глубокого обучения: Edge of Stability (EoS) и неявную регуляризацию малых размеров батча. Доказано, что сильный градиентный шум (через малые батчи) напрямую загоняет оптимизацию в более плоские минимумы. Для практиков: Это закладывает строгий механистический фундамент под законы масштабирования гиперпараметров, переводя нас от эмпирических эвристик к точному и предсказуемому контролю над ландшафтом лосса. Оптимизировать тут: https://t.me/gonzo_ML_podcasts/3454"