Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это - превью второй версии моего личного бенчмарка. Оно будет полезно тем командам, кто прошел курс и присматривается к возможностям новых LLM за один промпт ставить сложную многоходовую задачу и добиваться ее. Тесты в нем собраны из проектов внедрения AI/LLM в бизнес задачах за последний год. Первоначальная задача бенчмарка - оценивать потенциал моделей для разворачивания систем с LLM под капотом на них. Важно: плохая оценка на текущей стадии говорит не о том, что модель плохая, а просто что она не осилила все задачи за один промпт. На текущей стадии сбора бенчмарка я пока постепенно добавляю cамые сложные задачи из кейсов, а самые простые - выкидываю. Задача сейчас - набрать запас прочности бенчмарка, чтобы не было, как с первой версии, когда все топовые модели толпились на уровне выше 95%. Попозже в бенчмарк добавится разбивка логических шагов на мелкие, классификация способностей по колонкам (как в первой версии), а некоторые тесты будут открыты. Думаю, весь процесс займет несколько месяцев. В остальном все принципы и правила из первой версии бенчмарка, который я публиковал последние полтора года - сохраняются. Прочитать отчеты и ответы на частые вопросы можно тут. Пара интересных инсайтов: (1) дистиллят DeepSeek r1 llama-70B пока выглядит очень бодро. Но его обязательно нужно использовать со structured output (2) Microsoft Phi-4 бодра, но JSON Schema в сыром виде не понимает, подавай ей примеры. Да и вообще, это применимо к моделям без нативного Structured Output в целом. (3) Llama 3.3-70B тоже держится очень бодро. Она не так уж сильно отстает от r1-Llama-70B Ваш, @llm_under_hood 🤗
Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это -…
Из этого канала
- #497"o3-mini в бенчмарке на втором месте, добавил hard mode Продолжаю портировать…
"o3-mini в бенчмарке на втором месте, добавил hard mode Продолжаю портировать задачи из кейсов во вторую версию моего личного бенчмарка LLM на бизнес задачах.
- #498Краткая история использования ChatGPT o1 pro для создания ассистента С утра мне…
Краткая история использования ChatGPT o1 pro для создания ассистента С утра мне в голову пришла идея - а что, если создать свою ChatGPT, которая будет хранить…
- #499Курс “LLM под капотом: выбираем эффективные технические решения для…
Курс “LLM под капотом: выбираем эффективные технические решения для AI-ассистентов” С когортами поработали, апдейты добавили, приглашения к покупке по листу…
- #494Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что…
Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что DeepSeek r1 лучше o1? Вот никаким боком.
- #493Используйте reasoning модели, чтобы улучшать архитектуры своих проектов с LLM…
Используйте reasoning модели, чтобы улучшать архитектуры своих проектов с LLM под капотом.