Специализация моделей Мы все читае мбенчмарки, и мы все понимаем что часто… — @deksden_notes

Специализация моделей Мы все читае мбенчмарки, и мы все понимаем что часто бенчмарки особенного отношения к жизни (нашей, во всяком случае) не имеют. Это,кстати, вполне закономерно - если лезть в детали бенчмарков, там можно найти много всякого весёлого, когда становится очевидно что бенчмарк измеряет, мягко говоря, странное, или странно измеряет, или при таких вводных, что без понимания особенностей бенчмарка он малополезен. В общем, мы пользуем модели для разных целей и имеем разный опыт. Идея 👉 : давайте поделимся, кто и для чего имел хороший опыт с разными моделями. Типа, какая модель для каких задач лучше всего подходит Я попробую свои наблюдения сформирвоать: ▶️ Claude Sonnet: классика кодинга, - код делает хорошо, на твёрдую 4 даже сейчас. Неочевидное применение - devops, хорошо знает многие системы, хорошо применяет cli утилиты, высокая агентность, не так часто чудит с опасными командами (хотя случается). Нормально рисует веб интерфейсы, но некоторые говорят что они кондовые. ▶️ Gpt-5-thinking : одна из топовых моделей сейчас. Умная, много знает. Слабо может в текст, излагает корявенько и как интроверт какой то - как минимум, нужен специальный промптинг для хорошего перфоманса для текста. В коде много знает, очень умная, но за оверинжинирингом рекомендуется следить - чтобы на заачу записать текст в файл вам не делали менеджер файловой системы. Как кодовый агент - пугливая, двигается очень короткими интервалами, часто переспрашивает чего и как продолжаем - это не очень высокая агентность. В вебе говорят неплохо делает веб интерфейсы. ▶️ Gpt-5-codex. Топовая модель для написания кода сейчас - высокая агентность, тянет долгие задачи, разумно останавливается. Хорошее внимание, до разумных пределов. Неважно запускает консольные тулы (хуже соннета). Интерфейс тоже похуже Gpt-5. Вроде не настолько знающая чем Gpt-5. Говорит как аутист, раскрутить на нормальный стиль общения едва ли выйдет - особенно внутри cli-агента (там промпты ещё накладываются). ▶️ Gemini 2.5 pro: Очень умная модель, хорошо работает с текстами и переводами, отличный OCR, огромное контекстное окно. Из недостатков - только низкая агентность, и низкое умение пользвоать тулами в агенте - поэтому не пускайте её писать код. Зато анализировать и обсуждать код с ней - топ. Ещё она довольно подхалимская, это минус - будет поддерживать вас в любой дичи, для работы такое вредно.

Из этого канала