"🚀 Бенчмарк Deepseek 0528: r1 и qwen3-8b - маленькая мощная локальная модель… — @llm_under_hood

"🚀 Бенчмарк Deepseek 0528: r1 и qwen3-8b - маленькая мощная локальная модель Ребята из Deepseek продолжают делать нашу жизнь лучше и интереснее. Свежая версия 0528 модели deepseek-r1 немного улучшила свой предыдущий результат и даже обошла по очкам GPT-4.1. Но самое интересное - гораздо ниже, на 20-м месте бенчмарка. Deepseek взяли небольшую модельку - qwen3-8b и дообучили ее на цепочках размышлений от DeepSeek-R1-0528. Получившийся ""дистиллят"" внезапно неплохо умеет рассуждать по планам, которые зашиты в SGR моего бенчмарка. Она показывает результат на уровне gpt-4o-2024-08-06! __И это при том, что я эту модельку запускал через API NovitaAI, который ____Structured Outputs____ не поддерживает в принципе.__ Это настолько хорошо для такой маленькой модельки, что прямо интересно. Кто-нибудь еще использовал эту модель в режиме Schema-Guided Reasoning (SGR)? Ваш, @llm_under_hood 🤗 PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий. Эта вторая версия бенчмарка - все модели получают SGR схему для работы."

Из этого канала