А как там наша старая добрая Sonnet 3.5 поживает? Новый интересный лидерборд… — @ai_driven

А как там наша старая добрая Sonnet 3.5 поживает? Новый интересный лидерборд появился, в котором люди голосуют за лучшие LLM (такие рейтинги обычно называют ареной): https://web.lmarena.ai/leaderboard Конкретно на этой арене люди оценивают способность разных моделей к написанию Web UI на React, иначе говоря, тест на правильность API UI фреймворка и на визуальную эстетику - UI/UX. Округленно, можно сказать, что это тест на лучшую модель AI-фронтэндщика. В этом бенче лидирует уже относительно старенькая Sonnet 3.5, чему я не удивлён, т. к. с моим опытом этот результат тоже бьётся. В Эволюции кода меня как раз спрашивали недавно про нее, процитирую свой ответ: Я на C# пишу в основном, а его поддержка хромает в Cursor в сравнении с Rider, поэтому я курсором почти не пользуюсь. После появления o1-mini и o1 я почти перестал использовать Sonnet - как правило, у меня возникают сложные задачки на продвинутый ризонинг и требующие максимальной внимательности к деталям контекста (а в этом о1, кажется, пока нет равных). В итоге к услугам Sonnet могу прибегать, например, когда нужно красиво отрефакторить код, либо вот недавно соннет меня удивила тем, что исправила хитрую ошибку в сложном алгоритме на графы, в то время, как о1-про с этой проблемой по 10 минут билась и предлагала неадекватное решение. В целом, для меня Sonnet сейчас играет больше роль стилиста, нежели проектировщика. Она похожа на эстетичного программиста, который очень чтит code style и лучшие практики, но при этом не очень умный. Так что ризонинг ризонингом, а эстетика отдельно. И у меня есть подозрения, что эти результаты можно экстраполировать на любой UI, не только на веб. Так что, Claude все ещё рано списывать со счетов. А ещё, вышли новые LLMки от Google - вообще, по моему опыту, Gemini и ее разновидности, вероятно, наиболее оптимальный и экономичный выбор для бизнес кейсов. NB. Неожиданно DeepSeek-R1 в этом списке занимает второе место. А если посмотреть на лицензии, то в первой десятке DeepSeek вообще единственная опесорс модель, вот и делайте выводы. __Жаль, что создатели решили не делать нормализацию времени ожидания (результаты от моделей получаем неравномерно), у меня есть подозрение, что это может влиять на результаты.__ Интересно, какие модели и для каких кейсов используете вы? Все ли заметили, что Sonnet 3.5 пишет более красивый код и UI? Напишите в комментариях.

Из этого канала