"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic Sharpness Gap __Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis__ Статья: https://arxiv.org/abs/2604.21016 Ревью: https://arxiviq.substack.com/p/sgd-at-the-edge-of-stability-the # TL;DR ЧТО сделали: Авторы расширили теорию самостабилизации градиентного спуска на стохастический режим. Они показали, что градиентный шум мини-батча усиливает кубическую силу, снижающую резкость (sharpness) ландшафта лосса. Также вывели точную формулу для ""стохастического разрыва резкости"" (Stochastic Sharpness Gap) — величины, на которую стохастический градиентный спуск (SGD) подавляет резкость ниже классического порога нестабильности `2/η`. ПОЧЕМУ это важно: Работа математически связывает два важнейших феномена глубокого обучения: Edge of Stability (EoS) и неявную регуляризацию малых размеров батча. Доказано, что сильный градиентный шум (через малые батчи) напрямую загоняет оптимизацию в более плоские минимумы. Для практиков: Это закладывает строгий механистический фундамент под законы масштабирования гиперпараметров, переводя нас от эмпирических эвристик к точному и предсказуемому контролю над ландшафтом лосса. Оптимизировать тут: https://t.me/gonzo_ML_podcasts/3454"
"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic…
Из этого канала
- #5303И снова Universal/Looped Transformers. На этот раз для генерации изображений.…
И снова Universal/Looped Transformers. На этот раз для генерации изображений. Один из главных selling point, что модель целиком вмещается в кеш ускорителя, не…
- #5309Готовлю обновление своей статьи, получил интересную картинку, подтверждающую,…
Готовлю обновление своей статьи, получил интересную картинку, подтверждающую, что UT с памятью обменивает размер памяти на количество итераций.
- #5310Попалась свежая интересная репа, собирающая всё про UT/Looped Models…
Попалась свежая интересная репа, собирающая всё про UT/Looped Models https://github.com/huskydoge/Awesome-Loop-Models
- #5294"Больше моделей мира за пределами красивых картинок! Agentic World Modeling:…
"Больше моделей мира за пределами красивых картинок! Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond Meng Chu, Xuan Billy Zhang, Kevin…
- #5289Ещё в тему про Universal Transformer (https://t.me/gonzoML/5270). Здесь…
Ещё в тему про Universal Transformer (https://t.me/gonzoML/5270). Здесь улучшили способности UT через матричные residual connections (mHC от дипсика, про…