Почему SWE-bench Verified больше не измеряет возможности фронтирного кодирования SWE-bench Verified все больше подвержен контаминации данных. OpenAI рекомендует переходить на SWE-bench Pro для оценки возможностей моделей в программировании. Читать статью
Почему SWE-bench Verified больше не измеряет возможности фронтирного…
Источник
https://t.me/ai_longreads/368Канал Про AI: Лучшие cтатьи и исследования · опубликовано 13 мар. 2026 г.
Из этого канала
- #369Файловая система -- это новая база данных: как я построил персональную ОС для…
Файловая система -- это новая база данных: как я построил персональную ОС для ИИ-агентов Муратджан Коилан рассказывает, как он создал Personal Brain OS --…
- #370От руды к железу: создайте собственного агента для написания кода Практическое…
От руды к железу: создайте собственного агента для написания кода Практическое руководство по созданию собственного агента-программиста с помощью навыка…
- #371Два убеждения о кодинг-агентах Автор делится двумя ключевыми наблюдениями о…
Два убеждения о кодинг-агентах Автор делится двумя ключевыми наблюдениями о программистских агентах на основе ИИ: талантливые разработчики недооценивают роль…
- #367Самосовершенствующаяся AI-система, которая построила сама себя Разработчик из…
Самосовершенствующаяся AI-система, которая построила сама себя Разработчик из Composio создал оркестратор AI-агентов, который координирует до 30 параллельных…
- #366Как мы взломали ИИ-платформу McKinsey Автономный ИИ-агент нашёл SQL-инъекцию в…
Как мы взломали ИИ-платформу McKinsey Автономный ИИ-агент нашёл SQL-инъекцию в Lilli — внутренней ИИ-платформе McKinsey — и за два часа получил полный доступ к…