"Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах?… — @gonzo_ML

"Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich. On the Origin of Algorithmic Progress in AI __Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson__ Статья: https://arxiv.org/abs/2511.21622 Код: https://github.com/hansgundlach/Experimental_Progress Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress # TL;DR ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого ""прогресса"" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (`10^23` FLOPs) обеспечили два конкретных зависящих от масштаба (scale-dependent) сдвига: архитектурный переход от LSTM к трансформерам и смена законов масштабирования с Kaplan на Chinchilla. ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (`scale`), и будущий рост эффективности намертво привязан к способности дальше наращивать железо. Подробнее: https://t.me/gonzo_ML_podcasts/1635"

Из этого канала