💡 Наш мультиязычный SWE Bench разоблачает ИИ-модели — кто провалит тест? Представьте студента, которого гоняют на экзаменах только по тем вопросам, которые он выучил. Честную ли оценку он получит? То же самое сейчас происходит с области LLM: большинство популярных open-source датасетов и бенчмарков уже входят в обучающие выборки современных моделей, поэтому результаты оценки их работы не совсем объективные. И мы нашли решение! Наш новый SWE Bench, с поддержкой множества языков программирования, протестировал ведущие ИИ, включая Deepseek и Llama — кто справился, а кто дал слабину? Честные и независимые результаты проверки смотрите на Хабре: 😇 habr.com/ru/articles/916388/ @Doubletapp #dt_llm