"Anthropic Claude 3.7 thinking - второе место! Если вы очень любите Claude, то сделайте себе скриншот этого сообщения. Anthropic Claude 3.7 в reasoning режиме вышла на второе место в моем бенчмарке! Она обогнала o1 в medium reasoning и ""выбила"" 100% в coding. __Reasoning parameters у этой модели: общий бюджет на ответ - 25k tokens. Из них 80% отводится под нативный reasoning. Плюс у модели еще есть слоты на размышления в рамках схемы ответа.__ У Anthropic по-прежнему нет Structured Outputs, но с такими когнитивными способностями они ей и не нужны. JSON схема не была нарушена ни в одном случае. __Как я запускаю Reasoning модели без нативного SO? На вход подается с задачей описание схемы в виде кода (прямо pydantic текстом) и вручную написанный пример в JSON. Json schema я им не подаю, т.к. это обычно путает__ __модели__ __без SO на моих кейсах.__ Предупреждаю, что 100% в coding у `Claude 3.7:thinking` будет не долго. У меня на подходе в бенчмарк набор тестов на разработку, анализ и исправление кода, в которых путаются все топовые модели. Поэтому оценки всех моделей позднее поедут немного вниз. Ваш, @llm_under_hood 🤗 PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые мне задают последние полтора года."
"Anthropic Claude 3.7 thinking - второе место! Если вы очень любите Claude, то…
Из этого канала
- #515AI and Context - директор AI GTM из Intel рассказывает интересное на Enterprise…
AI and Context - директор AI GTM из Intel рассказывает интересное на Enterprise RAG Challenge Прямая ссылка на MS Teams Video Ваш, @llmunderhood 🤗 PS: Если…
- #516- Где найти толковых LLM-инженеров? - Как найти хорошего консультанта, который…
- Где найти толковых LLM-инженеров? - Как найти хорошего консультанта, который знает про SO, reasoning и паттерны? - Какой команде можно доверить приземление…
- #517Если вы написали пост про свое участие в Enterprise RAG Challenge, киньте,…
Если вы написали пост про свое участие в Enterprise RAG Challenge, киньте, пожалуйста, ссылку на него в комментарии сюда.
- #513LLM Benchmark Anthropic Claude 3.7 - внезапно хорошо Все знают, что Anthropic…
LLM Benchmark Anthropic Claude 3.7 - внезапно хорошо Все знают, что Anthropic Claude очень плохо ведет себя на моих бенчмарках.
- #512В чате канала обсуждают компиляцию SO схем в OpenAI: > Кстати я заметил то, что…
В чате канала обсуждают компиляцию SO схем в OpenAI: > Кстати я заметил то, что в последнее время, если передавать в opeanai довольно сложную схему - то он…