"⚪️ deepSWE ▶️ В результате довольно бурного обсуждения в чате тезисов про бенчмарки, могу резюмировать: * основная масса людей ориентируются на то, что называют ""по своим ощущениям"", ""на своем опыте"" - что логично, ведь мы все прмиеняем модели в своих задачах; * бенчмарк deepSWE зашел потому, что ранжирует модели примерно понятным образом для выполнения кодинговых задач - которые явно требуют хорошей агентности; и то, как именно отранжировал модели этот банчмарк, вызывает понмиание у многих ▶️ В итоге, надо резюмировать - раз совпадает с мнением и ощущением многих, это хороший бенчмарк, который отражает какую то важную грань работы. ▶️ Я лишь подчеркну, что та ось координат, относительно которой ранжирует модели бенчмарк, она довольна специфична, и идеально будет - понимать про что этот бенчмарк. По мне так он про самостоятельность моделей при решении сложных кодинговых задач. Как модель без особых вводных, без особой помощи от упряжки, без опоры на флоу, без предоставленной опоры на критерии успеха задачи - как модель сама может разобраться с кодинговыми задачами. Модель, имеющая большой скор на этом бенчмарке безусловно хорошая. ▶️ Полезны ли модели с низким скором на этом бенче для кодинговых задач? Или это плохая модель? Модель может быть полезна и может быть даже эффективной - но этот бенчмарк ясно говорит: НЕОБХОДИМО сменить условия в которых они работают. Если дать им те самые инструменты и опоры - флоу, схему сбора контекста, критерий для сверки успешности задач. ▶️ Наверное, из всего обсуждаения - самое полезное было развести эти мухи и котлеты. Как раз этот бенчмарк дает ответ - почему у некоторых людей, которые без навыков ИИ разработки, без понмиания подходов пускают какого то агента на задчу по своему кода - почему у них иногда выходит крайне посредственный результат. 👉 Для сложных условий надо пускать только модели с топовым скором на этом бенче, которые сами могут во многом разобраться. 👉 Ну а умеючи и топором можно много что исполнить)) (ц) как то так резюмировалось! @deksden_notes"