"o3-mini в бенчмарке на втором месте, добавил hard mode Продолжаю портировать задачи из кейсов во вторую версию моего личного бенчмарка LLM на бизнес задачах. В этот раз я догрузил в него часть самых изуверских задачек из доклада про text-to-sql c Neo4j конференции. В итоге ""потолок"" для o1 (medium reasoning) просел до 67%. И это несмотря на то, что у всех моделей есть две возможности подумать в рамках своего reasoning - сначала свободный CoT, а потом еще наиболее эффективный checklist. Кстати, свежая o3-mini пока закрепилась на втором месте. Второй интересный момент. Llama 405B - 49%, а DeepSeek r1 с его 37/671B MoE параметрами - только 53%. Как видим, прогресс не такой уж большой. Там еще рядом интересно примостилcя дистиллят r1 на базе Llama 70B c 50% точности, что уже интереснее. Если раньше базовые Llama хорошели после тюнов на OpenChat, то теперь пойдет мода на дистилляты. А еще больше очков этой модели дает то, что пока она у меня справляется с задачами без Structured Outputs (на Fireworks не завезли пока). Замазанные колонки пока можно игнорировать - туда портировано слишком мало кейсов, чтобы были стабильные цифры. Потом открою. SO - в Features - Structured Output (response schema), который можно из коробки уже найти у большинства моделей. Если так дело пойдет, то через пару месяцев можно просто будет перестать тратить время на модели без поддержки SO. Costs пока не считаю, чтобы заранее не плакать. Но стоимости там должны заметно подрасти из-за cot/reasoning tokens, если сравнивать с первым поколением бенчмарка. Ваш, @llm_under_hood 🤗 PS: Бенчмарк личный, закрытый, в черновой версии. Кому хочется стабильности см полтора года отчетов по не-reasoning бенчмарку LLM на бизнес задачах."
"o3-mini в бенчмарке на втором месте, добавил hard mode Продолжаю портировать…
Из этого канала
- #498Краткая история использования ChatGPT o1 pro для создания ассистента С утра мне…
Краткая история использования ChatGPT o1 pro для создания ассистента С утра мне в голову пришла идея - а что, если создать свою ChatGPT, которая будет хранить…
- #499Курс “LLM под капотом: выбираем эффективные технические решения для…
Курс “LLM под капотом: выбираем эффективные технические решения для AI-ассистентов” С когортами поработали, апдейты добавили, приглашения к покупке по листу…
- #500Deepseek V3, Qwen-Max/Plus/Turbo в бенчмарке v2 Продолжаю портировать тесты из…
Deepseek V3, Qwen-Max/Plus/Turbo в бенчмарке v2 Продолжаю портировать тесты из AI кейсов во вторую версию моего личного бенчмарка LLM на бизнес-задачах.
- #496Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это -…
Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это - превью второй версии моего личного бенчмарка.
- #494Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что…
Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что DeepSeek r1 лучше o1? Вот никаким боком.