"Agents по антропиковски Анты тут бросили интересную статейку прочитать… — @deksden_notes

"Agents по антропиковски Анты тут бросили интересную статейку прочитать Effective harnesses for long-running agents 🔗 https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents Замечу - опять harness вместо scaffold. Ну - упряжка, так упряжка. ""Запрягайте, братцы конев!"" )) 🟢 Статейка годная, откровений не содержит, но из категории обязательных к прочтению про AI SWE. Посему чувствую моральную обязанность чиркнуть ""разбор"". Глянул код. Забавно - прога примера на питоне, использует Agents SDK чтобы сделать прогу на JS )) Причем, через АПИ ключ, они не могли по-другому! (тут вставляем мем ""Платно!"" с гослингом). ▶️ Спека в .txt, но внутри все структурировано XML-like тегами с легким md форматированием. Хозяйке на заметку - теги никто не отменял. В мой список приемов контекст-инжиниринга, конечно тоже входит. Разделы спеки: техстек - фрон/бэк, настройка Dev окружения, список фич приложения, схема БД, спека ручек апи, схема UI морды, отдельно - дизайн система, отдельно - ключевые взаимодействия в UI, мастер план создания приложения по шагам с задачами каждого шага, список критериев успеха (ACs, gates). Спека вроде бы достаточно краткая, тезисная, но содержит впечатляющего разнообразия набор разделов, есть о чем сделать вывод для своих спеков. ▶️ Даже в промпте первой стадии инициализации указано чтобы файл списка фич он не трогал. Капсом. Значит они знают как агент любит ""срезать углы"" - делали фичи, устали, удалили половину фич, и сказали что все уже сделали)) Также сохранение контекста - через файловую систему, но инструкции довольно примитивные. По мне так очень не очень. ▶️ Кодинговый агент - идентично моему протоколу, есть фаза проверок. Не рабоатем, если проверки падают. Понятно, что агент работает ТОЛЬКО с верификацией: пишем код, проверяем через тесты. Также много заборов в промпте чтобы углы не срезал. Какие? Протестировать только бэк без взаимодействия с фронтом, нет контроля визуала, использовать JS эвалы вместо UI взаимодействия, отметить тесты проходящими без верификации. С учетом, что промпт - это пример, даже в нем столько заборов. Для реальной системы их должно быть еще больше. Думаю, даже фокусная сессия отдельного агента на чистом контексте с фокусной задачей верификации на каждый аспект - видимо, иначе нынче никак. Вот вам откуда 6-8 часов работы у кодомашины! Мои флоу тоже часами бегают, пока как быстрее я не знаю. Также используют файл статуса (как мой context.md), но у них claude-progress.txt - более семантическое имя, к слову. Также отмечу: много раз указано что времени у агента unlimited, типа - спешить не стоит! Видимо, не только у кодекса агенты вечно куда то опаздывают и спешат. Что RL с нейросетями делает, нервные и задерганные они все какие нынче. ..."

Из этого канала