Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей. Даже 1.5B моделька показывает себя лучше Sonnet и оригинальной 4o на математических бенчмарках, 14B уверенно обходит QwQ, а 32B - o1-mini (правда отстаёт на Codeforces). Вместо дистилляции пробовали учить напрямую через RL на маленькой модельке, но результаты были сильно хуже. С дистилляцией модель может напрямую учиться у большей модели размышлять, а не самой искать эффективные способы размышления. __Интеллект для всех, даром, и пусть никто не уйдёт обиженный!__ Qwen 1.5B Qwen 7B Llama 8B Qwen 14B Qwen 32B Llama 70B @ai_newz