🔬 Архитектура / масштабирование / продвинутое обучение 22. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism (https://arxiv.org/abs/1811.06965) — Huang et al., 2019 Прямо сейчас добавил бы классику про MoE, например, GShard и далее: *. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (https://arxiv.org/abs/2006.16668) — Дима Лепихин, Ноам Шазир и другие, 2020 *. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (https://arxiv.org/abs/2101.03961) — Ноам Шазир и компания, 2021. Разбирали тут (https://t.me/gonzo_ML/472) И про дистилляцию: *. Distilling the Knowledge in a Neural Network (https://arxiv.org/abs/1503.02531) — Хинтон, Ориол Виньялс и Джефф Дин, 2015. Есть обзор на русском (https://t.me/gonzo_ML/138) и можно читать дальше по каналу, там были ещё интересные темы. 23. Scaling Laws for Neural Language Models (https://arxiv.org/abs/2001.08361) — Kaplan et al., 2020 Да, но уже обязательна добавка про Шиншиллу: *. Training Compute-Optimal Large Language Models (https://arxiv.org/abs/2203.15556) — Hoffmann et. al., 2022. Разбор тут (https://t.me/gonzo_ML/1216). 24. A Simple Neural Network Module for Relational Reasoning (https://arxiv.org/abs/1706.01427 ) — Santoro et al., 2017 Вторая работа в списке про relational learning, первая была в разделе про RNN. 25. Neural Message Passing for Quantum Chemistry (https://arxiv.org/abs/1704.01212) — Gilmer et al., 2017 Может быть надо что-то про современные GNN, но это отдельная тема. 26. Variational Lossy Autoencoder (https://arxiv.org/abs/1611.02731) — X. Chen et al., 2017 Наверное нужна классика про VAE тоже: *. Auto-Encoding Variational Bayes (https://arxiv.org/abs/1312.6114) — Kingma, Welling, 2013 *. An Introduction to Variational Autoencoders (https://arxiv.org/abs/1906.02691) — практически книга от них же, 2019 Ну и GAN сюда тоже надо, конечно: *. Generative Adversarial Networks (https://arxiv.org/abs/1406.2661) — Гудфеллоу и ко, 2014. Ещё из классики я бы добавил: *. Adam: A Method for Stochastic Optimization (https://arxiv.org/abs/1412.6980) — Kingma, Ba. 2014 *. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (https://arxiv.org/abs/1502.03167) — Ioffe, Szegedy, 2015. Хоть оно работает и не так, как задумывалось :)
🔬 Архитектура / масштабирование / продвинутое обучение 22. GPipe: Efficient…
Из этого канала
- #4731🗣 Speech / Multimodality 27. Deep Speech 2: End-to-End Speech Recognition in…
🗣 Speech / Multimodality 27. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin (https://arxiv.org/abs/1512.02595 ) — Amodei et al., 2016 —…
- #4733Интересная работа, при этом мне кажется очень полезная для large-scale…
Интересная работа, при этом мне кажется очень полезная для large-scale оптимизации и ускорения исследований.
- #4739"Симбиогенез в массы! С одной стороны, прикольная библиотека для всего в одном…
"Симбиогенез в массы! С одной стороны, прикольная библиотека для всего в одном месте.
- #4729🧮 Теория, описания, обучение 16. Keeping the Neural Network Simple via MDL…
🧮 Теория, описания, обучение 16. Keeping the Neural Network Simple via MDL (https://www.cs.toronto.edu/~hinton/absps/colt93.pdf) — Hinton & van Camp, 1993 17.
- #4728🧠 CNNs / Vision 11. ImageNet Classification with Deep Convolutional Neural…
🧠 CNNs / Vision 11. ImageNet Classification with Deep Convolutional Neural Networks…