В твиттере наткнулся на очень интересную статистику по длительности выполнения задач на SWE-Bench Verified и качеству разных моделей в этих срезах. Оказывается для каждой из 500 задач есть аннотация её сложности, вычисленной по примерной длительности выполнения. Оценка сделана вручную, но по очень простым критериям (отсюда), например, всё что больше 100 строк — в последнюю категорию. Над более объёмными задачами уже работают, в SWE-Bench Pro есть сравнение, там уже больше кода писать нужно (и качество, соответственно, меньше).
В твиттере наткнулся на очень интересную статистику по длительности выполнения…
Из этого канала
- #3141Пока готовлю обзор статьи от DeepSeek — держите саммари интервью с Ilya (в…
Пока готовлю обзор статьи от DeepSeek — держите саммари интервью с Ilya (в целом, интервью вышло не самым интересным, наверное, самый большой апдейт для меня —…
- #3142сиол где обзор на дипсик
сиол где обзор на дипсик
- #3143DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning В…
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning В DeepSeekMath-V1 был представлен GRPO — алгоритм, приведший к появлению рассуждающих моделей.
- #3139😳 ещё DeepMind свой фильм выложили (про путь компании и CEO Demis Hassabis к…
😳 ещё DeepMind свой фильм выложили (про путь компании и CEO Demis Hassabis к Нобелевской премии) https://www.youtube.com/watch?v=d95J8yzvjbQ
- #3138Простите ответ на посты выше будет поздно вечером, вышло интервью с Илюхой…
Простите ответ на посты выше будет поздно вечером, вышло интервью с Илюхой https://www.youtube.com/watch?v=aR20FWCCjAs