Про AI: Лучшие cтатьи и исследования@ai_longreads· 1 407 subs

Почему SWE-bench Verified больше не измеряет возможности фронтирного…

13 мар. 2026 г.584 viewsОткрыть в Telegram →

Почему SWE-bench Verified больше не измеряет возможности фронтирного кодирования SWE-bench Verified все больше подвержен контаминации данных. OpenAI рекомендует переходить на SWE-bench Pro для оценки возможностей моделей в программировании. Читать статью

Источник

https://t.me/ai_longreads/368

Канал Про AI: Лучшие cтатьи и исследования · опубликовано 13 мар. 2026 г.

Из этого канала

#369Файловая система -- это новая база данных: как я построил персональную ОС для…
Файловая система -- это новая база данных: как я построил персональную ОС для ИИ-агентов Муратджан Коилан рассказывает, как он создал Personal Brain OS --…
#370От руды к железу: создайте собственного агента для написания кода Практическое…
От руды к железу: создайте собственного агента для написания кода Практическое руководство по созданию собственного агента-программиста с помощью навыка…
#371Два убеждения о кодинг-агентах Автор делится двумя ключевыми наблюдениями о…
Два убеждения о кодинг-агентах Автор делится двумя ключевыми наблюдениями о программистских агентах на основе ИИ: талантливые разработчики недооценивают роль…
#367Самосовершенствующаяся AI-система, которая построила сама себя Разработчик из…
Самосовершенствующаяся AI-система, которая построила сама себя Разработчик из Composio создал оркестратор AI-агентов, который координирует до 30 параллельных…
#366Как мы взломали ИИ-платформу McKinsey Автономный ИИ-агент нашёл SQL-инъекцию в…
Как мы взломали ИИ-платформу McKinsey Автономный ИИ-агент нашёл SQL-инъекцию в Lilli — внутренней ИИ-платформе McKinsey — и за два часа получил полный доступ к…