LLM Бенчмарк Claude 4 Модель Claude Sonnet 4, которой пользуется большинство, значительно выросла в очках сравнению со своим предшественником - Sonnet 3.7. Причем, прогресс есть во всех категориях, кроме сложных BI задач. Кстати, пусть Claude Sonnet и не в топах по работе с зубодробительным кодом и легаси решениями, но если нужно быстро набросать симпатичный web интерфейс, то альтернативе Sonnet пока нет. Claude Opus 4 - стал немного хуже, чем Claude 3.7 Sonnet Thinking Ваш, @llm_under_hood 🤗 PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.
LLM Бенчмарк Claude 4 Модель Claude Sonnet 4, которой пользуется большинство,…
Из этого канала
- #586Знаете, как опытные дизайнеры используют AI? Они говорят, что AI - это…
Знаете, как опытные дизайнеры используют AI? Они говорят, что AI - это творческая и непредсказуемая штука: Попробуйте несколько раз повторить один текстовый…
- #587Хорошая статья на тему AI+Coding Аргументированная точка зрения от человека,…
Хорошая статья на тему AI+Coding Аргументированная точка зрения от человека, который смотрит на LLM прагматично.
- #588"🚀 Бенчмарк Deepseek 0528: r1 и qwen3-8b - маленькая мощная локальная модель…
"🚀 Бенчмарк Deepseek 0528: r1 и qwen3-8b - маленькая мощная локальная модель Ребята из Deepseek продолжают делать нашу жизнь лучше и интереснее.
- #584Что бывает, если дать разработчикам 8 часов и AI - 7 примеров (Скриншоты 7…
Что бывает, если дать разработчикам 8 часов и AI - 7 примеров (Скриншоты 7 утилит, которые были полностью написаны AI - в комментариях, тут - контекст и…
- #583Кто еще использует AI+Coding на проектах 5k - 1M+ строк кода? В прошлом посте я…
Кто еще использует AI+Coding на проектах 5k - 1M+ строк кода? В прошлом посте я рассказал про свой опыт использования AI+Coding на небольшом проекте(6k loc…