Deepseek V3, Qwen-Max/Plus/Turbo в бенчмарке v2 Продолжаю портировать тесты из AI кейсов во вторую версию моего личного бенчмарка LLM на бизнес-задачах. Добавил Deepseek V3 (aka deepseek-chat), который на reasoning задачах держится удивительно хорошо, только чуть хуже DeepSeek r1. Он на полную катушку использует слоты для reasoning в checklists/CoT. А Structured Output в исполнении Fireworks помогает придерживаться схемы. Да, в новом бенчмарке у каждой модели теперь есть возможность пройти по custom chain of thought, который оптимизирован для конкретной задачи. И это дается вдобавок к внутренним reasoning tokens, которые есть у новых моделей. Модели могут отказаться использовать возможность для размышления и сэкономить tokens. Но те, кто следуют - повышают свою точность. Мы эти подходы достаточно давно используем во всех новых проектах для буста качества (в обмен на небольшое количество с пользой потраченных tokens), поэтому в бенчмарке большая часть тестов уже идет с таким reasoning. Еще добавил gemini-2.0-flash, Qwen-Max/Plus/Turbo. Но в целом добавление новых моделей сейчас не в приоритете. Сейчас важнее добавить как можно больше разных кейсов, чтобы стабилизировать оценки. Ваш, @llm_under_hood 🤗 PS: Бенчмарк личный, закрытый, в черновой версии. Кому хочется стабильности и разных моделей см полтора года отчетов по не-reasoning бенчмарку LLM на бизнес задачах. PPS: blur буду убирать по мере стабилизации бенчмарка
Deepseek V3, Qwen-Max/Plus/Turbo в бенчмарке v2 Продолжаю портировать тесты из…
Из этого канала
- #501"Пример из теста на работу с кодом в новом reasoning бенчмарке Как я уже…
"Пример из теста на работу с кодом в новом reasoning бенчмарке Как я уже говорил раньше, вторая версия моего бенчмарка не только сильнее нагружает современные…
- #502"Что лучше - ставить вопрос в промпте до текста или после текста? В прошлом…
"Что лучше - ставить вопрос в промпте до текста или после текста? В прошлом посте про новые бенчмарки я написал: Кстати, обратим внимание, что я вопрос ставлю…
- #503Enterprise RAG Challenge - новости (1) Мы уже получили более 220 заявок на…
Enterprise RAG Challenge - новости (1) Мы уже получили более 220 заявок на участие во втором раунде! Было бы больше, но вчера в Кёльне была авария у…
- #499Курс “LLM под капотом: выбираем эффективные технические решения для…
Курс “LLM под капотом: выбираем эффективные технические решения для AI-ассистентов” С когортами поработали, апдейты добавили, приглашения к покупке по листу…
- #498Краткая история использования ChatGPT o1 pro для создания ассистента С утра мне…
Краткая история использования ChatGPT o1 pro для создания ассистента С утра мне в голову пришла идея - а что, если создать свою ChatGPT, которая будет хранить…