4️⃣ LLM находят типы рёбер, недоступные бейзлайнам. Rule-based стратегии находят максимум 2 из 4 типов рёбер. LLM-агенты коллективно находят все 4, включая DATA_FLOWS_TO, для которых нужен multi-hop reasoning через оркестрационный код. Правда, две лучших LLM обгоняют бейзлайны всего на 9-10 F1 поинтов, а слабые LLM проигрывают простым эвристикам. 5️⃣ Архитектурные ограничения агенты могут находить — но только если точно сказать, как. С первоначальным промптом все модели набрали 0. После добавления определений по типам и примеров — топовые модели прыгнули до 0.78 (Claude) и 0.74 (GPT). Бейзлайны — стабильный ноль. Самый поучительный результат: то, что выглядело как разрыв в capability моделей, оказалось разрывом в спецификации промпта. Это бенчмарк v0.1 — один паттерн (Pipeline), один язык (Python), три кодовые базы, по одному прогону на модель. Очень предварительные результаты, не воспринимайте это как ранжирование моделей. Но фреймворк работает и сигнал реальный. Планы на развитие: больше архитектурных паттернов (event-driven, microservices), больше языков, REVISE фаза (обновление beliefs после изменений в коде), реальные кодовые базы в дополнение к сгенерированным. Использование документации для выявления зависимостей и ограничений, а также разрешение противоречий между реальным кодом и доками. В конечном счёте и прогон через много разных моделей и систем. Если кому-то интересно поколлаборировать -- вэлкам. PRs приветствуются. Если у вас есть какая-то интересная своя реальная кодовая база с разными зависимостями и ограничениями, и которую можно было бы использовать в бенчмарке, тоже очень интересно. Критика тоже приветствуется!