🎯 Attention / Transformers 8. Neural Machine Translation by Jointly Learning to Align and Translate (https://arxiv.org/abs/1409.0473) — Bahdanau et al., 2015 Мастрид от Дмитрия Богданова однозначно, внимание пошло примерно отсюда. Хотя можно сказать и что с NTM. Или даже раньше. 9. Attention Is All You Need (https://arxiv.org/abs/1706.03762) — Vaswani et al., 2017 10. The Annotated Transformer (https://nlp.seas.harvard.edu/2018/04/03/attention.html ) — S. Rush (блог) Тут оригинальным не буду, статья про внимание читается плохо, мне лично нравится вот этот пост Джея Аламмара: *. The Illustrated Transformer (https://jalammar.github.io/illustrated-transformer/) -- Jay Alammar (блог) По-хорошему, конечно, сейчас надо добавить уже: *. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (https://arxiv.org/abs/1810.04805) — Devlin, 2018 *. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (https://arxiv.org/abs/1901.02860) — Dai, 2019 *. Universal Transformers (https://arxiv.org/abs/1807.03819) — Deghani, 2019 Конечно и ещё много чего надо, но вместо этого смотрите мои доклады про Transformer Zoo: *. Transformer Zoo https://www.youtube.com/watch?v=KZ9NXYcXVBY (2020) *. Transformer Zoo (a deeper dive) https://www.youtube.com/watch?v=7e4LxIVENZA (2020)