У DeepSeek началась неделя опенсорса Первый релиз — FlashMLA, Flash Attention для моделей DeepSeek. Дело в том, что модели DeepSeek используют свой отдельный тип аттеншна — Multi-head Latent Attention, которому нужно в разы меньше памяти на KV кэш, по сравнению с обычным Group Query Attention, что сильно удешевляет генерацию токенов. Обратная сторона медали - существующие кастомные кернелы для инференса несовместимы с моделями DeepSeek, из-за чего приходится использовать более медленный торч. Быстрые кастомные кернелы для MLA означают более эффективный инференс у апи провайдеров, что часто перерастает в падение цен. Обещают ещё четыре релиза на этой неделе, что именно релизнут - непонятно. Про всех них я напишу большой обзорный пост в конце недели. Код @ai_newz
У DeepSeek началась неделя опенсорса Первый релиз — FlashMLA, Flash Attention…
Из этого канала
- #3694"Claude 3.7 Sonnet с Extended Thinking Наконец-то и Claude научился рассуждать.…
"Claude 3.7 Sonnet с Extended Thinking Наконец-то и Claude научился рассуждать. В отличие от конкурентов, за всё отвечает одна модель — нету никакого…
- #3696Видео Нейродайджест: 2025 год видео моделей и думающих LLM - Veo 2 —…
Видео Нейродайджест: 2025 год видео моделей и думающих LLM - Veo 2 — Гугловский монстр вырвался на волю.
- #3697Alibaba Wan 2.1 - новая SOTA опенсорс видео модель Скорее всего это та самая…
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat.
- #3691Нейродайджест за неделю (#57) LLM - Grok 3 — новая топовая LLM от Маска идет в…
Нейродайджест за неделю (#57) LLM - Grok 3 — новая топовая LLM от Маска идет в релиз малыми шажками.
- #3690Neo Gamma от 1X Новый прототип куда шустрее августовской Beta. Интересно, когда…
Neo Gamma от 1X Новый прототип куда шустрее августовской Beta. Интересно, когда они уйдут в продажу? @ainewz