Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все… — @llm_under_hood

Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все версии Qwen, кроме Max. А еще эта локальная модель чуть лучше claude-3.5-sonnet! __И при этом ее я тестировал в reasoning бенчмарке без костылей в виде Structured Output (ибо на OpenRouter пока нет платных с поддежкой SO).__ У нее очень хороший уровень Code. Compliance и BI слабые (но там без CoT/SO модели вывозят плохо). В среднем reason - удивительно хороший для модели такого размера. Надо будет присмотреться к младшим версиям, как их выложат в платной версии и с SO. В целом, похоже, что прогресс упорно не стоит на месте. Небольшие модели все хорошеют. Ваш, @llm_under_hood 🤗 PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые мне задают последние полтора года.

Из этого канала