"В коде есть штука, которой нет в пространственных средах (ну или она там не… — @gonzo_ML

"В коде есть штука, которой нет в пространственных средах (ну или она там не так важна, хотя в принципе тоже есть) — архитектурный замысел (“туда не ходи, сюда ходи”). Запрещённая зависимость — это граница сервиса. Цепочка валидации — это гарантия целостности данных. Это проверяемые ограничения, которые можно заложить в кодовую базу и измерить, находят ли их агенты. Назвал это Architectural Constraint Discovery. Конкретно, в каждую кодовую базу закладываем 15-16 ограничений пяти типов: * BOUNDARY: запрещённые зависимости (""mod_a не должен импортировать mod_c напрямую — только через базовый класс"") * INTERFACE: доступ только через ABC (""стейджи общаются только через StageBase, не напрямую друг с другом"") * DATAFLOW: обязательные цепочки обработки (""данные должны пройти валидацию перед попаданием в mod_w"") * INVARIANT: структурные конвенции (нейминг, организация пакетов) * PURPOSE: design rationale — зачем модуль существует и какое архитектурное решение кодирует Каждое ограничение имеет структурированную каноническую форму из пяти полей (type, src, dst, via, pattern) для автоматического скоринга — никакого LLM-судьи, чистое сравнение структур. И у каждого есть хотя бы один источник evidence в коде: тестовый файл, который ассертит ограничение, структурный паттерн, или документация в докстрингах. Агент не должен угадывать скрытые правила — он должен их найти. Начал с простого. Упомянутая синтетическая кодовая база на питоне размером порядка 30 модулей. Прогнал на четырёх rule-based бейзлайнах и шести около-фронтирных LLM от трёх провайдеров. Это намеренно пока очень простой сетап, чтобы отладить сам подход к бенчмарку, понять что и как надо. Я сделал уже сколько-то итераций, но это явно ещё не финал. Сколько-то lessons learned уже получил, получу ещё больше 🙂 Тем не менее, даже на этом простом сетапе результаты удивили. 1️⃣ Active-Passive Gap (APG) зависит от модели. В пространственных задачах модели стабильно хуже в активном режиме. В коде — по-разному. GPT-5.3-Codex работает ЛУЧШЕ при активном исследовании, чем когда ему дают всю кодовую базу разом (APG = −0.22) — видимо, 30 файлов одновременно создают information overload. Gemini 2.5 Flash — наоборот (APG = +0.23). Активное исследование — это само по себе нетривиальная способность, которая есть не у всех моделей. Ну или тут есть и другие эффекты, от промптов и сетапа тоже многое зависит, надо ещё смотреть. То, что Gemini (которая давно уже с большим контекстом) хорошо работает для такого случая, это интересно, и немного ожидаемо -- неплохо научились оперировать большим контекстом. Но посмотрим потом, как это будет на более тяжёлой кодовой базе, рано или поздно и в большой контекст всё не влезет. 2️⃣ Self-scaffolding через belief externalization тоже model-dependent. Если оставлять JSON-карту в контексте (scratchpad mode), GPT получает +14 по F1 — использует свои предыдущие карты как рабочую память. Gemini не получает для обнаружения зависимостей никакого преимущества от того же механизма. Зато scratchpad помогает Gemini с инвариантами. 3️⃣ Стабильность belief state не коррелирует с размером модели. Gemini 2.5 Flash — идеально стабильные beliefs, ноль потерянных корректных рёбер за все пробы. Gemini 2.5 Pro — строит карту, а потом катастрофически коллапсирует, теряя 12 корректных рёбер за один шаг. Gemini 3 Flash — чистый recency bias, каждый проб содержит только последние 3-5 компонентов, как будто модель каждый раз суммаризирует архитектуру с нуля, а не обновляет. Возможно, надо ещё играть с промптами."

Из этого канала