"⚪️ Зачем вот это всё - Эвалы Тут, наверное, в тему будет легкое лирическое отступление: зачем я делаю этот некий забег в сторону эвалов. Попробую развернуть логику и мотивации. На текущем моменте в ИИ ситуация развивается обалдеть как динамично. Февраль вывалил на нас вагон новых интересных моделей. Несмотря на сохраняющееся лидерство ""буржуйских"" фронтирных лаб, мы видим отличные успехи китов. Следовательно, стратегически стоит выбор - или вверяться в сторону моно-подходов (выбираем фронтирную, скорее всего буржуйскую модель) и строим инструменты вокруг нее. Или делаем оркестрацию моделей, когда каждая выполняет свою задачу, которую тянет. Дистил гейт, баны аккаунтов Антропиком и Гуглом не сильно внушают веру в надежных вендоров моделей: политика корпораций в любой момент может ""переехать катком"" какого угодно клиента, поэтому тревожно. Пока кажется что второй подход будет стратегически более интересным: меньше рисков в нашей сложной и динамичной обстановке, что все нужно будет переделывать (как при неудачной ставки на моно-модель). Ведь одно дело - это свои задачи, а другое дело когда проблемы возникли с вендором, вокруг которого работает твоя система у клиентов. ▶️ Ок, допустим, пользуем разные модели. Сразу встает простой вопрос: а какие и для чего? Что могут эти модели? Чтобы получить ответы есть всего два реальных варианта: изучить имеющиеся бенчмарки, или опереться на собственный опыт. С бенчмарками, думаю, все уже столкнулись: они что то показывают, но насколько это релевантно своим задачам совершенно не ясно. Не знакомясь с внутренностями бенчмарков сложно сказать, насколько там адекватные ""попугаи"" получились что они значат. А еще политика БенчМаксинга у вендоров - когда мы стремимся именно к красивым цифрам, а не реальному перфомансу модели!.. В общем, бенчмарки, к сожалению, помощник не великий. Теперь про собственные ощущения и опыт. Это, конечно, надежный вариант - но при таком потоке новинок переключаться на использование каждой новой модели возможности решительно никакой нету. Да и попользоваться нужно заметное время, а где же его взять! ▶️ Мой выход: неожиданно, но это - эвалы. Я придумал себе набор неких задачек, которые мне полезны, и некие цифровые критерии успешности выполнения этих задачек. Собственно, вот и получился эвал - такой персональный мини-бенчмарк, который мне понятен и релевантен. 🟢 Что МНЕ уже дали полученные цифры: - я убедился что многомодельность работает. Разные модели ""видят"" разное, поэтому для максимального качества получить 2-3 мнения разных моделей определенно стоит; - я убедился что 1-2 семпла вообще ничего про модель не показывают. Модели ведут себя очень по разному. Чтобы что-то обобщить надо хотя бы 7-10 семплов, тогда среднее поведение будет заметно, но все равно будут ""флюктуации""; - ""слабые"" модели не такие уж и слабые и могут принести заметно много пользы, просто не нужно ждать от них прыжка выше головы; - ""сильные"" модели заменить особо нечем - вложенный компьют не увеличивает глубину раздумий модели (сетка не становится ""мельче"", и не вылавливает самую хитрую ""рыбу""), но частые забросы сети конечно дают свой ""улов""; - относительный перфоманс разных моделей порой удивляет, свои ощущения не совсем совпадают с цифрами (пример - мое мнение про Гемини Про ""на берегу"" было совершенно иным) 👉 Поэтому уже неплохо, но ряд вопросов все еще требуют решения - я на них сделаю следующие эвалы! @deksden_notes"
"⚪️ Зачем вот это всё - Эвалы Тут, наверное, в тему будет легкое лирическое…
Из этого канала
- #505⚪️ Codex 0.105 с голосовым вводом Новый релиз кодекса с голосовым вводом -…
⚪️ Codex 0.105 с голосовым вводом Новый релиз кодекса с голосовым вводом - включается удерживанием пробела.
- #506⚪️ Droid @ Terminal Bench Недавно в чатике обсуждали дроида и terminal bench,…
⚪️ Droid @ Terminal Bench Недавно в чатике обсуждали дроида и terminal bench, что он был топ, но это было давно Дроид прислушался к критике, и обновил бенч.
- #507"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий…
"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий обзорный эвал, и посмотрели как работают свежие модели (qwen 3.5 и gemini 3.1).
- #503⚪️ Gemini 3 Flash #ddeval #feb2026eval2 Пока листал просторы интернета,…
⚪️ Gemini 3 Flash #ddeval #feb2026eval2 Пока листал просторы интернета, наткнулся на челов, которые используют Гемини для кодинга. Да, какая то секта, видимо.
- #502⚪️ Remote tools for Agents, v.feb-2026 На всякий случай к релизу…
⚪️ Remote tools for Agents, v.feb-2026 На всякий случай к релизу Антропиковского Remote control опубликую свою коллекцию тулов для удаленного управления…