🔬 Архитектура / масштабирование / продвинутое обучение 22. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism (https://arxiv.org/abs/1811.06965) — Huang et al., 2019 Прямо сейчас добавил бы классику про MoE, например, GShard и далее: *. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (https://arxiv.org/abs/2006.16668) — Дима Лепихин, Ноам Шазир и другие, 2020 *. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (https://arxiv.org/abs/2101.03961) — Ноам Шазир и компания, 2021. Разбирали тут (https://t.me/gonzo_ML/472) И про дистилляцию: *. Distilling the Knowledge in a Neural Network (https://arxiv.org/abs/1503.02531) — Хинтон, Ориол Виньялс и Джефф Дин, 2015. Есть обзор на русском (https://t.me/gonzo_ML/138) и можно читать дальше по каналу, там были ещё интересные темы. 23. Scaling Laws for Neural Language Models (https://arxiv.org/abs/2001.08361) — Kaplan et al., 2020 Да, но уже обязательна добавка про Шиншиллу: *. Training Compute-Optimal Large Language Models (https://arxiv.org/abs/2203.15556) — Hoffmann et. al., 2022. Разбор тут (https://t.me/gonzo_ML/1216). 24. A Simple Neural Network Module for Relational Reasoning (https://arxiv.org/abs/1706.01427 ) — Santoro et al., 2017 Вторая работа в списке про relational learning, первая была в разделе про RNN. 25. Neural Message Passing for Quantum Chemistry (https://arxiv.org/abs/1704.01212) — Gilmer et al., 2017 Может быть надо что-то про современные GNN, но это отдельная тема. 26. Variational Lossy Autoencoder (https://arxiv.org/abs/1611.02731) — X. Chen et al., 2017 Наверное нужна классика про VAE тоже: *. Auto-Encoding Variational Bayes (https://arxiv.org/abs/1312.6114) — Kingma, Welling, 2013 *. An Introduction to Variational Autoencoders (https://arxiv.org/abs/1906.02691) — практически книга от них же, 2019 Ну и GAN сюда тоже надо, конечно: *. Generative Adversarial Networks (https://arxiv.org/abs/1406.2661) — Гудфеллоу и ко, 2014. Ещё из классики я бы добавил: *. Adam: A Method for Stochastic Optimization (https://arxiv.org/abs/1412.6980) — Kingma, Ba. 2014 *. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (https://arxiv.org/abs/1502.03167) — Ioffe, Szegedy, 2015. Хоть оно работает и не так, как задумывалось :)