И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There Will Be a Scientific Theory of Deep Learning __Jamie Simon, Daniel Kunin, Alexander Atanasov, Enric Boix-Adserà, Blake Bordelon, Jeremy Cohen, Nikhil Ghosh, Florentin Guth, Arthur Jacot, Mason Kamb, Dhruva Karkada, Eric J. Michaud, Berkan Ottlik, Joseph Turnbull__ Статья: https://arxiv.org/abs/2604.21691v1 Ревью: https://arxiviq.substack.com/p/there-will-be-a-scientific-theory Сайт: https://learningmechanics.pub/ # TL;DR ЧТО сделали: Большая коалиция исследователей из разных институтов синтезировала пять растущих направлений теоретических работ и предложила концепцию «механики обучения» (learning mechanics). Суть в том, что глубокое обучение переходит от эмпирического искусства к предсказательной науке, управляемой разрешимыми макроскопическими законами, по аналогии со статистической и классической механикой в физике. ПОЧЕМУ это важно: Опираться исключительно на метод проб и ошибок при масштабировании перепараметризованных моделей стало экономически и вычислительно невозможно. Если подвести под динамику нейросетей предсказательную математическую базу, мы получим zero-shot перенос гиперпараметров между масштабами, сможем математически (а не эмпирически) прогнозировать экспоненты законов масштабирования (scaling laws) и заложим строгий фундамент для AI alignment и безопасности. Для практиков: Математическое понимание динамики обучения, такое как подход Maximal Update Parameterization (μP), позволяет настраивать гиперпараметры на дешёвых прокси-моделях и без изменений переносить их на огромные production архитектуры, навсегда избавляя от дорогого поиска по сетке. Погружаться тут: https://t.me/gonzo_ML_podcasts/3349
И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There…
Из этого канала
- #5260Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep…
Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep Network Features Represent Data Thomas Walker, Ahmed Imtiaz Humayun, Randall…
- #5266"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач.…
"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач. Задним умом идея настолько простая, что странно, что раньше не добавили.
- #5270"Я тут в свободное время продолжаю интересные мне эксперименты и решил вот…
"Я тут в свободное время продолжаю интересные мне эксперименты и решил вот развить давние темы Миши Бурцева про Memory Transformer…
- #5247Интересное на подумать. Generalization at the Edge of Stability Mario Tuci,…
Интересное на подумать. Generalization at the Edge of Stability Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal Статья:…
- #5237Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в…
Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в миллион токенов V4 требует всего 27% FLOPs при инференсе одного токена и лишь 10%…