🎯 Attention / Transformers 8. Neural Machine Translation by Jointly Learning to Align and Translate (https://arxiv.org/abs/1409.0473) — Bahdanau et al., 2015 Мастрид от Дмитрия Богданова однозначно, внимание пошло примерно отсюда. Хотя можно сказать и что с NTM. Или даже раньше. 9. Attention Is All You Need (https://arxiv.org/abs/1706.03762) — Vaswani et al., 2017 10. The Annotated Transformer (https://nlp.seas.harvard.edu/2018/04/03/attention.html ) — S. Rush (блог) Тут оригинальным не буду, статья про внимание читается плохо, мне лично нравится вот этот пост Джея Аламмара: *. The Illustrated Transformer (https://jalammar.github.io/illustrated-transformer/) -- Jay Alammar (блог) По-хорошему, конечно, сейчас надо добавить уже: *. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (https://arxiv.org/abs/1810.04805) — Devlin, 2018 *. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (https://arxiv.org/abs/1901.02860) — Dai, 2019 *. Universal Transformers (https://arxiv.org/abs/1807.03819) — Deghani, 2019 Конечно и ещё много чего надо, но вместо этого смотрите мои доклады про Transformer Zoo: *. Transformer Zoo https://www.youtube.com/watch?v=KZ9NXYcXVBY (2020) *. Transformer Zoo (a deeper dive) https://www.youtube.com/watch?v=7e4LxIVENZA (2020)
🎯 Attention / Transformers 8. Neural Machine Translation by Jointly Learning to…
Из этого канала
- #4728🧠 CNNs / Vision 11. ImageNet Classification with Deep Convolutional Neural…
🧠 CNNs / Vision 11. ImageNet Classification with Deep Convolutional Neural Networks…
- #4729🧮 Теория, описания, обучение 16. Keeping the Neural Network Simple via MDL…
🧮 Теория, описания, обучение 16. Keeping the Neural Network Simple via MDL (https://www.cs.toronto.edu/~hinton/absps/colt93.pdf) — Hinton & van Camp, 1993 17.
- #4730🔬 Архитектура / масштабирование / продвинутое обучение 22. GPipe: Efficient…
🔬 Архитектура / масштабирование / продвинутое обучение 22. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism…
- #4726"🔁 RNN / LSTM / Sequence Models 1. The Unreasonable Effectiveness of Recurrent…
"🔁 RNN / LSTM / Sequence Models 1. The Unreasonable Effectiveness of Recurrent Neural Networks (http://karpathy.github.io/2015/05/21/rnn-effectiveness/) — A.
- #4725"Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI Существует…
"Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI Существует легенда о том, что однажды Джон Кармак (создатель id Software, коим мы благодарны за…