И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There… — @gonzo_ML

И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There Will Be a Scientific Theory of Deep Learning __Jamie Simon, Daniel Kunin, Alexander Atanasov, Enric Boix-Adserà, Blake Bordelon, Jeremy Cohen, Nikhil Ghosh, Florentin Guth, Arthur Jacot, Mason Kamb, Dhruva Karkada, Eric J. Michaud, Berkan Ottlik, Joseph Turnbull__ Статья: https://arxiv.org/abs/2604.21691v1 Ревью: https://arxiviq.substack.com/p/there-will-be-a-scientific-theory Сайт: https://learningmechanics.pub/ # TL;DR ЧТО сделали: Большая коалиция исследователей из разных институтов синтезировала пять растущих направлений теоретических работ и предложила концепцию «механики обучения» (learning mechanics). Суть в том, что глубокое обучение переходит от эмпирического искусства к предсказательной науке, управляемой разрешимыми макроскопическими законами, по аналогии со статистической и классической механикой в физике. ПОЧЕМУ это важно: Опираться исключительно на метод проб и ошибок при масштабировании перепараметризованных моделей стало экономически и вычислительно невозможно. Если подвести под динамику нейросетей предсказательную математическую базу, мы получим zero-shot перенос гиперпараметров между масштабами, сможем математически (а не эмпирически) прогнозировать экспоненты законов масштабирования (scaling laws) и заложим строгий фундамент для AI alignment и безопасности. Для практиков: Математическое понимание динамики обучения, такое как подход Maximal Update Parameterization (μP), позволяет настраивать гиперпараметры на дешёвых прокси-моделях и без изменений переносить их на огромные production архитектуры, навсегда избавляя от дорогого поиска по сетке. Погружаться тут: https://t.me/gonzo_ML_podcasts/3349

Из этого канала