И ещё разбивка качества по языкам, количеству файлов (больше = сложнее = меньше доля успеха моделей) и количеству строк кода в желаемом изменении. Авторы обещают, что будущие версии SWE-BENCH PRO должны включать более разнообразные языки программирования и фреймворки для увеличения дайверсити. Планируют добавить Java, C#, Rust, Kotlin.
И ещё разбивка качества по языкам, количеству файлов (больше = сложнее = меньше…
Из этого канала
- #2890Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за…
Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за 2'000 долларов, про который писали больше полугода назад?
- #2891Чуть больше недели назад в Cursor обновили Tab-модель — это которая…
Чуть больше недели назад в Cursor обновили Tab-модель — это которая подсказывает вам код прямо когда вы его пишете, без длительного ожидания генерации.
- #28922 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая…
2 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая а) быстрее б) существенно дешевле в) поддерживает 2 миллиона токенов контекста.
- #2887SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?…
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? Бенчмарк от Scale.AI на написание кода агентами, по сути SWE-Bench со значительно…
- #2886"Если раньше по чатикам и каналам чаще слышал от художников претензии к ИИ…
"Если раньше по чатикам и каналам чаще слышал от художников претензии к ИИ из-за того, что: - Оно обучается на чужих работах - Качество плохое То теперь (даже…