А как там наша старая добрая Sonnet 3.5 поживает? Новый интересный лидерборд появился, в котором люди голосуют за лучшие LLM (такие рейтинги обычно называют ареной): https://web.lmarena.ai/leaderboard Конкретно на этой арене люди оценивают способность разных моделей к написанию Web UI на React, иначе говоря, тест на правильность API UI фреймворка и на визуальную эстетику - UI/UX. Округленно, можно сказать, что это тест на лучшую модель AI-фронтэндщика. В этом бенче лидирует уже относительно старенькая Sonnet 3.5, чему я не удивлён, т. к. с моим опытом этот результат тоже бьётся. В Эволюции кода меня как раз спрашивали недавно про нее, процитирую свой ответ: Я на C# пишу в основном, а его поддержка хромает в Cursor в сравнении с Rider, поэтому я курсором почти не пользуюсь. После появления o1-mini и o1 я почти перестал использовать Sonnet - как правило, у меня возникают сложные задачки на продвинутый ризонинг и требующие максимальной внимательности к деталям контекста (а в этом о1, кажется, пока нет равных). В итоге к услугам Sonnet могу прибегать, например, когда нужно красиво отрефакторить код, либо вот недавно соннет меня удивила тем, что исправила хитрую ошибку в сложном алгоритме на графы, в то время, как о1-про с этой проблемой по 10 минут билась и предлагала неадекватное решение. В целом, для меня Sonnet сейчас играет больше роль стилиста, нежели проектировщика. Она похожа на эстетичного программиста, который очень чтит code style и лучшие практики, но при этом не очень умный. Так что ризонинг ризонингом, а эстетика отдельно. И у меня есть подозрения, что эти результаты можно экстраполировать на любой UI, не только на веб. Так что, Claude все ещё рано списывать со счетов. А ещё, вышли новые LLMки от Google - вообще, по моему опыту, Gemini и ее разновидности, вероятно, наиболее оптимальный и экономичный выбор для бизнес кейсов. NB. Неожиданно DeepSeek-R1 в этом списке занимает второе место. А если посмотреть на лицензии, то в первой десятке DeepSeek вообще единственная опесорс модель, вот и делайте выводы. __Жаль, что создатели решили не делать нормализацию времени ожидания (результаты от моделей получаем неравномерно), у меня есть подозрение, что это может влиять на результаты.__ Интересно, какие модели и для каких кейсов используете вы? Все ли заметили, что Sonnet 3.5 пишет более красивый код и UI? Напишите в комментариях.
А как там наша старая добрая Sonnet 3.5 поживает? Новый интересный лидерборд…
Источник
https://t.me/ai_driven/68Канал AI-Driven Development. Родион Мостовой · опубликовано 6 февр. 2025 г.
Из этого канала
- #70Сколько времени вы тратите на изучение кодовой базы в проектах? Ребята…
Сколько времени вы тратите на изучение кодовой базы в проектах? Ребята разработчики, есть хорошая возможность помочь нам в создании инструмента для самых…
- #71"А кто-то еще помнит про ассемблер и машинный код? Наверное, уже ни для кого не…
"А кто-то еще помнит про ассемблер и машинный код? Наверное, уже ни для кого не секрет, что программирование с каждым годом трансформируется в сторону все…
- #73"VSCode догоняет Cursor, а o3-mini и o1 становятся доступнее GitHub Copilot…
"VSCode догоняет Cursor, а o3-mini и o1 становятся доступнее GitHub Copilot анонсировали две больших важных фичи для своего для VSCode: 1.
- #67Ну-с, 33, полёт нормальный! Вспоминая себя в 22, понимаю, что в целом я не…
Ну-с, 33, полёт нормальный! Вспоминая себя в 22, понимаю, что в целом я не сильно-то изменился, но скажи мне тогдашнему, что за эти одиннадцать лет произойдёт,…
- #66"Сегодня отмечает свой день рождения замечательный человек Лекс АйТиБорода.…
"Сегодня отмечает свой день рождения замечательный человек Лекс АйТиБорода. Успеху этого канала, а также нашему проекту CodeAlive во многом поспособствовал…