Специализация моделей Мы все читае мбенчмарки, и мы все понимаем что часто бенчмарки особенного отношения к жизни (нашей, во всяком случае) не имеют. Это,кстати, вполне закономерно - если лезть в детали бенчмарков, там можно найти много всякого весёлого, когда становится очевидно что бенчмарк измеряет, мягко говоря, странное, или странно измеряет, или при таких вводных, что без понимания особенностей бенчмарка он малополезен. В общем, мы пользуем модели для разных целей и имеем разный опыт. Идея 👉 : давайте поделимся, кто и для чего имел хороший опыт с разными моделями. Типа, какая модель для каких задач лучше всего подходит Я попробую свои наблюдения сформирвоать: ▶️ Claude Sonnet: классика кодинга, - код делает хорошо, на твёрдую 4 даже сейчас. Неочевидное применение - devops, хорошо знает многие системы, хорошо применяет cli утилиты, высокая агентность, не так часто чудит с опасными командами (хотя случается). Нормально рисует веб интерфейсы, но некоторые говорят что они кондовые. ▶️ Gpt-5-thinking : одна из топовых моделей сейчас. Умная, много знает. Слабо может в текст, излагает корявенько и как интроверт какой то - как минимум, нужен специальный промптинг для хорошего перфоманса для текста. В коде много знает, очень умная, но за оверинжинирингом рекомендуется следить - чтобы на заачу записать текст в файл вам не делали менеджер файловой системы. Как кодовый агент - пугливая, двигается очень короткими интервалами, часто переспрашивает чего и как продолжаем - это не очень высокая агентность. В вебе говорят неплохо делает веб интерфейсы. ▶️ Gpt-5-codex. Топовая модель для написания кода сейчас - высокая агентность, тянет долгие задачи, разумно останавливается. Хорошее внимание, до разумных пределов. Неважно запускает консольные тулы (хуже соннета). Интерфейс тоже похуже Gpt-5. Вроде не настолько знающая чем Gpt-5. Говорит как аутист, раскрутить на нормальный стиль общения едва ли выйдет - особенно внутри cli-агента (там промпты ещё накладываются). ▶️ Gemini 2.5 pro: Очень умная модель, хорошо работает с текстами и переводами, отличный OCR, огромное контекстное окно. Из недостатков - только низкая агентность, и низкое умение пользвоать тулами в агенте - поэтому не пускайте её писать код. Зато анализировать и обсуждать код с ней - топ. Ещё она довольно подхалимская, это минус - будет поддерживать вас в любой дичи, для работы такое вредно.
Специализация моделей Мы все читае мбенчмарки, и мы все понимаем что часто…
Из этого канала
- #189Qoder Pro subscription $2 Налетай! подешевело ))) Раш ~~зергами~~ китайцами…
Qoder Pro subscription $2 Налетай! подешевело ))) Раш ~~зергами~~ китайцами продолжается: скидки у кводера - первый месяц за $2, потом $10.
- #190Мультисмплинг в Jules Как там говаривали гуглеры? Ship! ship! ship! Раш не…
Мультисмплинг в Jules Как там говаривали гуглеры? Ship! ship! ship! Раш не одними китайцами - что гуд.
- #191Grok Code? Полку cli агентов ~~прибыло~~ скоро может прибыть. Ну - посмотрим,…
Grok Code? Полку cli агентов ~~прибыло~~ скоро может прибыть. Ну - посмотрим, конечно.
- #186Ещё раз об экономике токенов Я все время топлю за подписки, и не пользую…
Ещё раз об экономике токенов Я все время топлю за подписки, и не пользую инструменты если у них нет возможности использования по подписке.
- #185OpenRouter и новые китайские ризонинги…
OpenRouter и новые китайские ризонинги https://x.com/scaling01/status/1987938809628291168?s=20 Не всякий роутор освоит думать по-китайски! перфоманс модели…