LLM Benchmark Anthropic Claude 3.7 - внезапно хорошо Все знают, что Anthropic Claude очень плохо ведет себя на моих бенчмарках. В июле прошлого года две модели еще были в top 10, но потом их вытеснили более смышленые модели, которые не стояли на месте. Но вот прошло время. Сменилась версия Claude и сменился сам бенчмарк - он теперь учитывает способность моделей к рассуждению. `anthropic/claude-3.7-sonnet` на данный момент лучше всех моделей gpt-4o (запускал я его пока с дефолтовыми параметрами через OpenRouter). И это несмотря на то, что Anthropic до сих пор не поддерживает Structured Outputs! __Как я работаю с моделями без нормального SO? Отправляю им Pydantic схему прямо в виде питона, плюс отправляю JSON пример с заполненными полями. JSON Schema не отправляю - она только запутает модель, если ее специально не обучали.__ Так вот, у `anthropic/claude-3.7-sonnet` не было ни одной ошибки в следовании формату на довольно нагруженных схемах! А когда модель точно следует формату (даже без перил в виде constrained inference), то расположение элементов в ответе как раз то, которое нам нужно. И если мы в схеме проложили свои чеклисты и CoT цепочки, то LLM будет на них опираться. Схемы с онтологиями на 150 Literals я бы в Claude не стал отправлять (как это переваривает OpenAI или vllm+outlines/xgrammar), но что-то небольшое тут работает очень хорошо. Ваш, @llm_under_hood 🤗 PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. PPS: А почему не использовать instructor для моделей без SO? А вы видели его итоговый промпт? Он Claude совсем завалит.
LLM Benchmark Anthropic Claude 3.7 - внезапно хорошо Все знают, что Anthropic…
Из этого канала
- #514"Anthropic Claude 3.7 thinking - второе место! Если вы очень любите Claude, то…
"Anthropic Claude 3.7 thinking - второе место! Если вы очень любите Claude, то сделайте себе скриншот этого сообщения.
- #515AI and Context - директор AI GTM из Intel рассказывает интересное на Enterprise…
AI and Context - директор AI GTM из Intel рассказывает интересное на Enterprise RAG Challenge Прямая ссылка на MS Teams Video Ваш, @llmunderhood 🤗 PS: Если…
- #516- Где найти толковых LLM-инженеров? - Как найти хорошего консультанта, который…
- Где найти толковых LLM-инженеров? - Как найти хорошего консультанта, который знает про SO, reasoning и паттерны? - Какой команде можно доверить приземление…
- #512В чате канала обсуждают компиляцию SO схем в OpenAI: > Кстати я заметил то, что…
В чате канала обсуждают компиляцию SO схем в OpenAI: > Кстати я заметил то, что в последнее время, если передавать в opeanai довольно сложную схему - то он…
- #511Enterprise RAG Challenge - тестовые данные и LLM для запуска бесплатно ERC -…
Enterprise RAG Challenge - тестовые данные и LLM для запуска бесплатно ERC - это дружеское соревнование на лучший в мире RAG по годовым отчетам компаний.