"⚪️ Бенчмаксинг или плохие бенчмарки? Тут чел хейтит минимаксов за плохую модель и за бенчмаксинг, при этом основывает свое мнение на другом бенчмарке (deepSWE), где у минимаксов все плохо. ▶️ Помимо очевидной странной логики критиковать бенчмаксинг на данных другого бенчмарка, странно смотреть просто на цифры, и не говорить сути. ▶️ Хороший повод сказать про бенчмарки. По мне - ориентация на бенчмарки возможна только в том случае, если ты достаточно ясно понимаешь ЧТО и КАК измеряет бенчмарк Иначе мы приходим к ситуации ""Петька, приборы! Восемь! Что - восемь? А что - приборы?"" Если такого понимания нету, то цифры любого бенчмарка будут для вас ""попугаями"" разной степени условности. Конечно, удав в попугаях - длиннее! ▶️ А если про эту конкретную метрику - то deepSWE достаточно нашумевший бенчмарк. Заявляется что измеряет агентность и длительность работы. Использует свою упряжку. ▶️ Суть бенчмарка в том, что по мотивам известных open source репо агенту даются некие ""большие"" задачи чтобы посмотреть работу модели на задачах уровня репозитория, посмотреть как будет изучен репо и как будет сделана работа. В бенче агенту выдается репо, дается задача, отключен интернет, модель работает в некоем harness с неким промптом от этой упряжки. Дальше агент работает, что то делает. Далее работает верификатор - смотрит все ли сделано, тесты, поведение. ▶️ Что меня смущает: • бенчмарк измеряет в своей упряжке - очевидно что модели тренированы на разыне упряжки • упряжка в бенче весьма убога • даем задачи уровня полного ai SDLC, при этом флоу которым мы это обеспечиваем почти отсутсвует • фактически мы измеряем насколько модель может скомпенсировать убогую упряжку и убогое флоу за счет собственных подходов к работе • мутно описаны критерии приемки, а мы знаем что если нету цикла обратной связи - модели оч тяжело всделать все норм; впрочем, это тоже претензия к флоу ▶️ На мой взгляд, этот бенч - это параолимпиада для моделей, где проверяется как они ползают с отрезанными руками/ногами и слегка выколотыми глазами. Ну - получается что морально волевые качества измеряем. Как это соотносится с реальной отдачей модели от работы - отдельный вопрос! (ц) простите, накипело!) @deksden_notes"
"⚪️ Бенчмаксинг или плохие бенчмарки? Тут чел хейтит минимаксов за плохую…
Из этого канала
- #829"⚪️ deepSWE ▶️ В результате довольно бурного обсуждения в чате тезисов про…
"⚪️ deepSWE ▶️ В результате довольно бурного обсуждения в чате тезисов про бенчмарки, могу резюмировать: основная масса людей ориентируются на то, что называют…
- #830⚪️ Windsurf всё! ... как бренд - и становится Devin Desktop. Новая версия уже…
⚪️ Windsurf всё! ... как бренд - и становится Devin Desktop. Новая версия уже под новым брендом/именем продукта. Абсорбировали покупку.
- #831"⚪️ Factory Router Только на днях писал о фишке /advisory из Claude Code…
"⚪️ Factory Router Только на днях писал о фишке /advisory из Claude Code https://t.me/deksdennotes/824 И вот новый тейк на мульти-модельную оркестрацию.
- #827⚪️ Гадания на некофейной х-уще! Тут в твиттере (русское название для Х-ком как…
⚪️ Гадания на некофейной х-уще! Тут в твиттере (русское название для Х-ком как то у нас не прижилось) греть публику начали новинками клозедов.
- #826⚪️ Composer 2.5 в Grok Build x.AI анонсирует доступность модели Composer 2.5 в…
⚪️ Composer 2.5 в Grok Build x.AI анонсирует доступность модели Composer 2.5 в Grok Build. Вроде бы даже в полписках есть, начиная с SuperGrok (которая $30).