4️⃣ LLM находят типы рёбер, недоступные бейзлайнам. Rule-based стратегии находят максимум 2 из 4 типов рёбер. LLM-агенты коллективно находят все 4, включая DATA_FLOWS_TO, для которых нужен multi-hop reasoning через оркестрационный код. Правда, две лучших LLM обгоняют бейзлайны всего на 9-10 F1 поинтов, а слабые LLM проигрывают простым эвристикам. 5️⃣ Архитектурные ограничения агенты могут находить — но только если точно сказать, как. С первоначальным промптом все модели набрали 0. После добавления определений по типам и примеров — топовые модели прыгнули до 0.78 (Claude) и 0.74 (GPT). Бейзлайны — стабильный ноль. Самый поучительный результат: то, что выглядело как разрыв в capability моделей, оказалось разрывом в спецификации промпта. Это бенчмарк v0.1 — один паттерн (Pipeline), один язык (Python), три кодовые базы, по одному прогону на модель. Очень предварительные результаты, не воспринимайте это как ранжирование моделей. Но фреймворк работает и сигнал реальный. Планы на развитие: больше архитектурных паттернов (event-driven, microservices), больше языков, REVISE фаза (обновление beliefs после изменений в коде), реальные кодовые базы в дополнение к сгенерированным. Использование документации для выявления зависимостей и ограничений, а также разрешение противоречий между реальным кодом и доками. В конечном счёте и прогон через много разных моделей и систем. Если кому-то интересно поколлаборировать -- вэлкам. PRs приветствуются. Если у вас есть какая-то интересная своя реальная кодовая база с разными зависимостями и ограничениями, и которую можно было бы использовать в бенчмарке, тоже очень интересно. Критика тоже приветствуется!
4️⃣ LLM находят типы рёбер, недоступные бейзлайнам. Rule-based стратегии…
Из этого канала
- #4949Новая работа про attention sinks и огромные активации. Этой теме также была…
Новая работа про attention sinks и огромные активации. Этой теме также была посвящена работа команды Qwen с NeurIPS 2025 Best Paper Award.
- #4958"Прикольная работа про модель мира/нейро-дебаггер питона. Модели не обязательно…
"Прикольная работа про модель мира/нейро-дебаггер питона. Модели не обязательно запускать реальный интерпретатор, она может сделать нужные выводы ""в голове"".
- #4964"Респект FAIR, выкатили работу про очень мультиязычный перевод! Omnilingual MT:…
"Респект FAIR, выкатили работу про очень мультиязычный перевод! Omnilingual MT: Machine Translation for 1,600 Languages The Omnilingual MT Team, Belen…
- #4939"В коде есть штука, которой нет в пространственных средах (ну или она там не…
"В коде есть штука, которой нет в пространственных средах (ну или она там не так важна, хотя в принципе тоже есть) — архитектурный замысел (“туда не ходи, сюда…
- #4938"Theory of Code Space: Do Code Agents Understand Software Architecture?…
"Theory of Code Space: Do Code Agents Understand Software Architecture? Зацепила тут одна тема, не удержался и дошёл до статьи.