"Anthropic Claude 3.7 thinking - второе место! Если вы очень любите Claude, то… — @llm_under_hood

"Anthropic Claude 3.7 thinking - второе место! Если вы очень любите Claude, то сделайте себе скриншот этого сообщения. Anthropic Claude 3.7 в reasoning режиме вышла на второе место в моем бенчмарке! Она обогнала o1 в medium reasoning и ""выбила"" 100% в coding. __Reasoning parameters у этой модели: общий бюджет на ответ - 25k tokens. Из них 80% отводится под нативный reasoning. Плюс у модели еще есть слоты на размышления в рамках схемы ответа.__ У Anthropic по-прежнему нет Structured Outputs, но с такими когнитивными способностями они ей и не нужны. JSON схема не была нарушена ни в одном случае. __Как я запускаю Reasoning модели без нативного SO? На вход подается с задачей описание схемы в виде кода (прямо pydantic текстом) и вручную написанный пример в JSON. Json schema я им не подаю, т.к. это обычно путает__ __модели__ __без SO на моих кейсах.__ Предупреждаю, что 100% в coding у `Claude 3.7:thinking` будет не долго. У меня на подходе в бенчмарк набор тестов на разработку, анализ и исправление кода, в которых путаются все топовые модели. Поэтому оценки всех моделей позднее поедут немного вниз. Ваш, @llm_under_hood 🤗 PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые мне задают последние полтора года."

Из этого канала