gonzo-обзоры ML статей@gonzo_ML· 24 246 subs

Вчера в разборе Multi-Token Attention упоминалась статья про Differential…

7 апр. 2025 г.10 369 views25 forwardsОткрыть в Telegram →

Вчера в разборе Multi-Token Attention упоминалась статья про Differential Transformer. До её разбора я всё-таки не доберусь, так что продолжаю эксперименты с автоматизированным разбором. Результат тут.

Источник

https://t.me/gonzo_ML/3561

Канал gonzo-обзоры ML статей · опубликовано 7 апр. 2025 г.

Из этого канала

#3563Пообщались с Иваром Максутовым и Постнаукой о ~~хренах и пряниках~~ разном
Пообщались с Иваром Максутовым и Постнаукой о ~~хренах и пряниках~~ разном
#3564Что ждёт профессии, связанные с переводами, в ближайшие годы? Каким станет…
Что ждёт профессии, связанные с переводами, в ближайшие годы? Каким станет мышление и коммуникация в эпоху AI? Как LLM справляются с пониманием языка?…
#3565Теперь признанная классика. Статьи про Adam и механизм внимания, ещё на базе…
Теперь признанная классика. Статьи про Adam и механизм внимания, ещё на базе RNN…
#3560Brand new 2025 AI Index Report is released!…
Brand new 2025 AI Index Report is released! https://hai.stanford.edu/ai-index/2025-ai-index-report
#3548Head mixing convolution позволяет перемешивать внимание между разными головами…
Head mixing convolution позволяет перемешивать внимание между разными головами в пределах одного временного шага.