Как мы создаём оценки для Deep Agents Лучшие оценки (evals) агентов напрямую измеряют поведение, которое нам действительно важно. В статье рассказывается, как команда LangChain собирает данные, определяет метрики и проводит целенаправленные эксперименты для повышения точности и надёжности агентов. Читать статью