"⚪️ deepSWE ▶️ В результате довольно бурного обсуждения в чате тезисов про бенчмарки, могу резюмировать: * основная масса людей ориентируются на то, что называют ""по своим ощущениям"", ""на своем опыте"" - что логично, ведь мы все прмиеняем модели в своих задачах; * бенчмарк deepSWE зашел потому, что ранжирует модели примерно понятным образом для выполнения кодинговых задач - которые явно требуют хорошей агентности; и то, как именно отранжировал модели этот банчмарк, вызывает понмиание у многих ▶️ В итоге, надо резюмировать - раз совпадает с мнением и ощущением многих, это хороший бенчмарк, который отражает какую то важную грань работы. ▶️ Я лишь подчеркну, что та ось координат, относительно которой ранжирует модели бенчмарк, она довольна специфична, и идеально будет - понимать про что этот бенчмарк. По мне так он про самостоятельность моделей при решении сложных кодинговых задач. Как модель без особых вводных, без особой помощи от упряжки, без опоры на флоу, без предоставленной опоры на критерии успеха задачи - как модель сама может разобраться с кодинговыми задачами. Модель, имеющая большой скор на этом бенчмарке безусловно хорошая. ▶️ Полезны ли модели с низким скором на этом бенче для кодинговых задач? Или это плохая модель? Модель может быть полезна и может быть даже эффективной - но этот бенчмарк ясно говорит: НЕОБХОДИМО сменить условия в которых они работают. Если дать им те самые инструменты и опоры - флоу, схему сбора контекста, критерий для сверки успешности задач. ▶️ Наверное, из всего обсуждаения - самое полезное было развести эти мухи и котлеты. Как раз этот бенчмарк дает ответ - почему у некоторых людей, которые без навыков ИИ разработки, без понмиания подходов пускают какого то агента на задчу по своему кода - почему у них иногда выходит крайне посредственный результат. 👉 Для сложных условий надо пускать только модели с топовым скором на этом бенче, которые сами могут во многом разобраться. 👉 Ну а умеючи и топором можно много что исполнить)) (ц) как то так резюмировалось! @deksden_notes"
"⚪️ deepSWE ▶️ В результате довольно бурного обсуждения в чате тезисов про…
Из этого канала
- #830⚪️ Windsurf всё! ... как бренд - и становится Devin Desktop. Новая версия уже…
⚪️ Windsurf всё! ... как бренд - и становится Devin Desktop. Новая версия уже под новым брендом/именем продукта. Абсорбировали покупку.
- #831"⚪️ Factory Router Только на днях писал о фишке /advisory из Claude Code…
"⚪️ Factory Router Только на днях писал о фишке /advisory из Claude Code https://t.me/deksdennotes/824 И вот новый тейк на мульти-модельную оркестрацию.
- #832"⚪️ Github Copilot - первые отзывы о новой тарифной политике Напомню что с 01…
"⚪️ Github Copilot - первые отзывы о новой тарифной политике Напомню что с 01 июня Копилот решил перейти к политике защиты ~~детей~~ денег от вайбкодеров, и…
- #828"⚪️ Бенчмаксинг или плохие бенчмарки? Тут чел хейтит минимаксов за плохую…
"⚪️ Бенчмаксинг или плохие бенчмарки? Тут чел хейтит минимаксов за плохую модель и за бенчмаксинг, при этом основывает свое мнение на другом бенчмарке…
- #827⚪️ Гадания на некофейной х-уще! Тут в твиттере (русское название для Х-ком как…
⚪️ Гадания на некофейной х-уще! Тут в твиттере (русское название для Х-ком как то у нас не прижилось) греть публику начали новинками клозедов.