DeepSWE: оценка передовых агентов-программистов на оригинальных, долгосрочных инженерных задачах DeepSWE -- новый бенчмарк для программирующих ИИ-агентов, который предлагает оригинальные, сложные задачи, охватывающие 91 репозиторий и 5 языков программирования. В отличие от существующих тестов, он обеспечивает более четкое разделение между моделями и более надёжную верификацию. Читать статью