Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все версии Qwen, кроме Max. А еще эта локальная модель чуть лучше claude-3.5-sonnet! __И при этом ее я тестировал в reasoning бенчмарке без костылей в виде Structured Output (ибо на OpenRouter пока нет платных с поддежкой SO).__ У нее очень хороший уровень Code. Compliance и BI слабые (но там без CoT/SO модели вывозят плохо). В среднем reason - удивительно хороший для модели такого размера. Надо будет присмотреться к младшим версиям, как их выложат в платной версии и с SO. В целом, похоже, что прогресс упорно не стоит на месте. Небольшие модели все хорошеют. Ваш, @llm_under_hood 🤗 PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые мне задают последние полтора года.
Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все…
Из этого канала
- #531"Можно ли использовать LLM для оптимизации промптов? Время от времени…
"Можно ли использовать LLM для оптимизации промптов? Время от времени кто-нибудь в чате поднимает этот вопрос.
- #532Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M.…
Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M. Говорят, что работает лучше Qwen2.5VL, но не со всеми языками.
- #533Mistral Small 3.1 24B - не революция, но планку поднимает Эта новая модель от…
Mistral Small 3.1 24B - не революция, но планку поднимает Эта новая модель от Mistral по своим оценкам на бенчмарке очень похожа на предыдущую версию 3.0 от 25…
- #529Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило…
Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило запустить заново Enterprise RAG Challenge Submission API, чтобы можно было поставить…
- #526Финальные результаты Enterprise RAG Challenge - Team Leaderboard - оценивает…
Финальные результаты Enterprise RAG Challenge - Team Leaderboard - оценивает команды (берется лучшее решение каждой команды) - SotA Leaderboard - оценивает все…