Бенчмарки Sonnet 4.5 и Deepseek - ничего особенного В этом бенчмарке никаких… — @llm_under_hood

Бенчмарки Sonnet 4.5 и Deepseek - ничего особенного __В этом бенчмарке никаких особых прорывов, просто последовательное небольшое улучшение качества.__ `Anthropic Sonnet 4.5` заняла 24ое место, что на четыре пункта выше, чем Sonnet 4.0. Главное, она выше Opus 4.0, так что если вдруг выйдет Opus 4.5, то у него есть шансы подняться повыше (например, до уровня Sonnet-3.7 thinking) __Вообще, с Anthropic Sonnet у меня двойственные отношения. С одной стороны эта модель допускает достаточно глупые ошибки в сложном коде. Но, с другой стороны, если нужно сделать красивый интерфейс, то альтернатив ей я пока не вижу. __ `Deepseek V3.2 Experimental` - 36ое место, на уровне `deepseek-chat-v3-0324`. Среди всех deepseek моделей (не r1) - это самое высокое. Кстати, terminus 3.1 будет пониже - на 45ом. Ваш, @llm_under_hood 🤗 PS: про бенчмарки, включая их двухлетнюю историю, расписано тут

Из этого канала