Вчера в разборе Multi-Token Attention упоминалась статья про Differential Transformer. До её разбора я всё-таки не доберусь, так что продолжаю эксперименты с автоматизированным разбором. Результат тут.
Вчера в разборе Multi-Token Attention упоминалась статья про Differential…
Из этого канала
- #3563Пообщались с Иваром Максутовым и Постнаукой о ~~хренах и пряниках~~ разном
Пообщались с Иваром Максутовым и Постнаукой о ~~хренах и пряниках~~ разном
- #3564Что ждёт профессии, связанные с переводами, в ближайшие годы? Каким станет…
Что ждёт профессии, связанные с переводами, в ближайшие годы? Каким станет мышление и коммуникация в эпоху AI? Как LLM справляются с пониманием языка?…
- #3565Теперь признанная классика. Статьи про Adam и механизм внимания, ещё на базе…
Теперь признанная классика. Статьи про Adam и механизм внимания, ещё на базе RNN…
- #3560Brand new 2025 AI Index Report is released!…
Brand new 2025 AI Index Report is released! https://hai.stanford.edu/ai-index/2025-ai-index-report
- #3548Head mixing convolution позволяет перемешивать внимание между разными головами…
Head mixing convolution позволяет перемешивать внимание между разными головами в пределах одного временного шага.