DeepSWE: оценка передовых агентов-программистов на оригинальных, долгосрочных инженерных задачах DeepSWE -- новый бенчмарк для программирующих ИИ-агентов, который предлагает оригинальные, сложные задачи, охватывающие 91 репозиторий и 5 языков программирования. В отличие от существующих тестов, он обеспечивает более четкое разделение между моделями и более надёжную верификацию. Читать статью
DeepSWE: оценка передовых агентов-программистов на оригинальных, долгосрочных…
Источник
https://t.me/ai_longreads/658Канал Про AI: Лучшие cтатьи и исследования · опубликовано 5 июн. 2026 г.
Из этого канала
- #659Советы, которые помогут агентам разобраться в вашей кодовой базе Четыре…
Советы, которые помогут агентам разобраться в вашей кодовой базе Четыре практических рекомендации о том, как сделать кодовую базу понятной и удобной для…
- #660Песочницы Исследование быстрорастущего рынка песочниц для AI-агентов: типы…
Песочницы Исследование быстрорастущего рынка песочниц для AI-агентов: типы рабочих нагрузок, ключевые игроки и будущее этого сегмента инфраструктуры.
- #661Актуальное из AI-индустрии — GitHub, Reddit, Hugging Face: Odysseus:…
Актуальное из AI-индустрии — GitHub, Reddit, Hugging Face: Odysseus: Self-hosted рабочее пространство для ИИ Платформа для развертывания персонального рабочего…
- #657Выбор оставаться человеком Оставаться человеком в эпоху ИИ означает осознанно…
Выбор оставаться человеком Оставаться человеком в эпоху ИИ означает осознанно выбирать, когда и как использовать искусственный интеллект, а не передавать ему…
- #656Что нового в мире AI — дайджест с GitHub, Reddit и Hugging Face:…
Что нового в мире AI — дайджест с GitHub, Reddit и Hugging Face: LongCat-Video-Avatar-1.5 Новая модель от Meituan для генерации реалистичных анимированных…