LLM Benchmark Anthropic Claude 3.7 - внезапно хорошо Все знают, что Anthropic… — @llm_under_hood

LLM Benchmark Anthropic Claude 3.7 - внезапно хорошо Все знают, что Anthropic Claude очень плохо ведет себя на моих бенчмарках. В июле прошлого года две модели еще были в top 10, но потом их вытеснили более смышленые модели, которые не стояли на месте. Но вот прошло время. Сменилась версия Claude и сменился сам бенчмарк - он теперь учитывает способность моделей к рассуждению. `anthropic/claude-3.7-sonnet` на данный момент лучше всех моделей gpt-4o (запускал я его пока с дефолтовыми параметрами через OpenRouter). И это несмотря на то, что Anthropic до сих пор не поддерживает Structured Outputs! __Как я работаю с моделями без нормального SO? Отправляю им Pydantic схему прямо в виде питона, плюс отправляю JSON пример с заполненными полями. JSON Schema не отправляю - она только запутает модель, если ее специально не обучали.__ Так вот, у `anthropic/claude-3.7-sonnet` не было ни одной ошибки в следовании формату на довольно нагруженных схемах! А когда модель точно следует формату (даже без перил в виде constrained inference), то расположение элементов в ответе как раз то, которое нам нужно. И если мы в схеме проложили свои чеклисты и CoT цепочки, то LLM будет на них опираться. Схемы с онтологиями на 150 Literals я бы в Claude не стал отправлять (как это переваривает OpenAI или vllm+outlines/xgrammar), но что-то небольшое тут работает очень хорошо. Ваш, @llm_under_hood 🤗 PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. PPS: А почему не использовать instructor для моделей без SO? А вы видели его итоговый промпт? Он Claude совсем завалит.

Из этого канала