"⚪️ Бенчмаксинг или плохие бенчмарки? Тут чел хейтит минимаксов за плохую модель и за бенчмаксинг, при этом основывает свое мнение на другом бенчмарке (deepSWE), где у минимаксов все плохо. ▶️ Помимо очевидной странной логики критиковать бенчмаксинг на данных другого бенчмарка, странно смотреть просто на цифры, и не говорить сути. ▶️ Хороший повод сказать про бенчмарки. По мне - ориентация на бенчмарки возможна только в том случае, если ты достаточно ясно понимаешь ЧТО и КАК измеряет бенчмарк Иначе мы приходим к ситуации ""Петька, приборы! Восемь! Что - восемь? А что - приборы?"" Если такого понимания нету, то цифры любого бенчмарка будут для вас ""попугаями"" разной степени условности. Конечно, удав в попугаях - длиннее! ▶️ А если про эту конкретную метрику - то deepSWE достаточно нашумевший бенчмарк. Заявляется что измеряет агентность и длительность работы. Использует свою упряжку. ▶️ Суть бенчмарка в том, что по мотивам известных open source репо агенту даются некие ""большие"" задачи чтобы посмотреть работу модели на задачах уровня репозитория, посмотреть как будет изучен репо и как будет сделана работа. В бенче агенту выдается репо, дается задача, отключен интернет, модель работает в некоем harness с неким промптом от этой упряжки. Дальше агент работает, что то делает. Далее работает верификатор - смотрит все ли сделано, тесты, поведение. ▶️ Что меня смущает: • бенчмарк измеряет в своей упряжке - очевидно что модели тренированы на разыне упряжки • упряжка в бенче весьма убога • даем задачи уровня полного ai SDLC, при этом флоу которым мы это обеспечиваем почти отсутсвует • фактически мы измеряем насколько модель может скомпенсировать убогую упряжку и убогое флоу за счет собственных подходов к работе • мутно описаны критерии приемки, а мы знаем что если нету цикла обратной связи - модели оч тяжело всделать все норм; впрочем, это тоже претензия к флоу ▶️ На мой взгляд, этот бенч - это параолимпиада для моделей, где проверяется как они ползают с отрезанными руками/ногами и слегка выколотыми глазами. Ну - получается что морально волевые качества измеряем. Как это соотносится с реальной отдачей модели от работы - отдельный вопрос! (ц) простите, накипело!) @deksden_notes"