Mistral выкатили Small 4 И всё грустно. На опубликованных бенчах модель проигрывает сентябрьскому Qwen 3 Next, у которого в полтора раза меньше параметров в целом и в два раза меньше активных. Моделька мультимодальная с 256к токенов контекста. Архитектура — та же вариация на тему DeepSeek V3 что использовалась в Large 3. Доступна по Apache 2.0, базовую модель не выложили, но зато сделали голову для спекулятивного декодинга. Веса: FP8/NVFP4 @ai_newz