"Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich. On the Origin of Algorithmic Progress in AI __Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson__ Статья: https://arxiv.org/abs/2511.21622 Код: https://github.com/hansgundlach/Experimental_Progress Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress # TL;DR ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого ""прогресса"" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (`10^23` FLOPs) обеспечили два конкретных зависящих от масштаба (scale-dependent) сдвига: архитектурный переход от LSTM к трансформерам и смена законов масштабирования с Kaplan на Chinchilla. ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (`scale`), и будущий рост эффективности намертво привязан к способности дальше наращивать железо. Подробнее: https://t.me/gonzo_ML_podcasts/1635"
"Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах?…
Из этого канала
- #4350Для тех, кому нравилась тема про Lottery Ticket Hypothesis…
Для тех, кому нравилась тема про Lottery Ticket Hypothesis (https://t.me/gonzoML/21).
- #4353"Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья.…
"Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья. SIMA 2: A Generalist Embodied Agent for Virtual Worlds SIMA Team, Google DeepMind…
- #4356Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо…
Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо многие могли пропустить.
- #4345ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq…
ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq 54% на ARC-AGI-2, $31/task https://x.com/i/status/1997743855203148038
- #4344В очередной раз программировал тут с агентом, надо было переписать MCP сервер с…
В очередной раз программировал тут с агентом, надо было переписать MCP сервер с stdio-транспорта на Streamable HTTP -- в принципе типичный пример задачи, для…