"🔁 RNN / LSTM / Sequence Models 1. The Unreasonable Effectiveness of Recurrent Neural Networks (http://karpathy.github.io/2015/05/21/rnn-effectiveness/) — A. Karpathy (блог) 2. Understanding LSTM Networks (https://colah.github.io/posts/2015-08-Understanding-LSTMs/) — C. Olah (блог) Оба поста просто маст рид, если хотите понять про рекуррентные сети. Второй — это аналог Illustrated Transformer, но про RNN. 3. Recurrent Neural Network Regularization (https://arxiv.org/abs/1409.2329) — Zaremba et al., 2014 Хорошо, но я бы добавил ещё пару интересных работ про RNN от гениального Грейвса (от которого дальше будет NTM) *. Multi-Dimensional Recurrent Neural Networks (https://arxiv.org/abs/0705.2011) — Graves, Shcmidhueber(!), 2007 *. Grid Long Short-Term Memory (https://arxiv.org/abs/1507.01526) — Kalchbrenner, Danihelka, Graves, 2015 *. Supervised Sequence Labelling with Recurrent Neural Networks (https://www.cs.toronto.edu/~graves/preprint.pdf) — книга Грейвса по RNN, выходила также в Шпрингере в 2012, это одно из лучшего про продвинутые RNN на тот момент А от Суцкевера я бы добавил Neural GPU: *. Neural GPUs Learn Algorithms (https://arxiv.org/abs/1511.08228) — Łukasz Kaiser, Ilya Sutskever, 2015. Когда-то на NIPS 2016(?) в Барселоне, а может и где-то ещё, я подходил к Суцкеверу на стенде OpenAI, хотел узнать у него, занимается ли он дальше этой прикольной темой про выучивание алгоритмов, но всё, что я смог добиться от него было ""Нет.” 4. Pointer Networks (https://arxiv.org/abs/1506.03134) — Vinyals et al., 2015 5. Order Matters: Sequence to Sequence for Sets (https://arxiv.org/abs/1511.06391) — Vinyals et al., 2016 Это вот прикольная экзотика, наверное сейчас мало кто слышал и про Pointer Networks и про Set2Set, но в своё время были интересные работы. Я бы сюда, кстати, добавил: *. HyperNetworks (https://arxiv.org/abs/1609.09106) — David Ha (теперь из Sakana!), 2016 6. Neural Turing Machines (https://arxiv.org/abs/1410.5401) — Graves et al., 2014 Это зачётное продолжение работ Грейвса по RNN, но у этой работы было и своё важное продолжение — DNC: *. Hybrid computing using a neural network with dynamic external memory (https://www.nature.com/articles/nature20101) — Graves, et. al., 2016, блог (https://deepmind.google/blog/differentiable-neural-computers/) 7. Relational Recurrent Neural Networks (https://arxiv.org/abs/1806.01822) — Santoro et al., 2018 Да, тоже интересная подзабытая тема."
"🔁 RNN / LSTM / Sequence Models 1. The Unreasonable Effectiveness of Recurrent…
Из этого канала
- #4727🎯 Attention / Transformers 8. Neural Machine Translation by Jointly Learning to…
🎯 Attention / Transformers 8. Neural Machine Translation by Jointly Learning to Align and Translate (https://arxiv.org/abs/1409.0473) — Bahdanau et al., 2015…
- #4728🧠 CNNs / Vision 11. ImageNet Classification with Deep Convolutional Neural…
🧠 CNNs / Vision 11. ImageNet Classification with Deep Convolutional Neural Networks…
- #4729🧮 Теория, описания, обучение 16. Keeping the Neural Network Simple via MDL…
🧮 Теория, описания, обучение 16. Keeping the Neural Network Simple via MDL (https://www.cs.toronto.edu/~hinton/absps/colt93.pdf) — Hinton & van Camp, 1993 17.
- #4725"Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI Существует…
"Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI Существует легенда о том, что однажды Джон Кармак (создатель id Software, коим мы благодарны за…
- #4719Правильная дистилляция помогает избавиться от лишнего запоминания моделью!…
Правильная дистилляция помогает избавиться от лишнего запоминания моделью! Memorization Dynamics in Knowledge Distillation for Language Models Jaydeep Borkar,…