У DeepSeek началась неделя опенсорса Первый релиз — FlashMLA, Flash Attention для моделей DeepSeek. Дело в том, что модели DeepSeek используют свой отдельный тип аттеншна — Multi-head Latent Attention, которому нужно в разы меньше памяти на KV кэш, по сравнению с обычным Group Query Attention, что сильно удешевляет генерацию токенов. Обратная сторона медали - существующие кастомные кернелы для инференса несовместимы с моделями DeepSeek, из-за чего приходится использовать более медленный торч. Быстрые кастомные кернелы для MLA означают более эффективный инференс у апи провайдеров, что часто перерастает в падение цен. Обещают ещё четыре релиза на этой неделе, что именно релизнут - непонятно. Про всех них я напишу большой обзорный пост в конце недели. Код @ai_newz