"Agents по антропиковски, ч2 ... Продолжим с разбором самой статейки. ▶️ Вначале рассказывают почему ваншоты сложных штук не взлетают, спотыкаясь о контекст. Впрочем, это довольно очевидно. Проблема компакта разделена на два аспекта: - забытые точные инструкции посередине реализации; - новый контекст агента неправильно считывает статус выполнения задачи, поверхностно - что ведет к отметке выполненными недоделанных задач; Как они порешали для поставленной задачи проблему: - сделали сначала описание всей задачи, - разбили задачу на более мелкие подзадачи - работают с подзадачей в ""оборудованном"" окружении - подзадача начинается в понятном состоянии проекта - работаем с верификацией - фиксируем статус работы в файл, передача статуса через контекст не срабатывает (компакты беспощадны) - рабоатем многими контекстами Да, кто смотрел #DeksdenFlow - все именно так и заведено. Те же шаги на итерацию, также сохраняемся в файл. Да, у меня чуть более навороченно - но это и понятно, у меня то ""настоящий"" flow, а не пример к статье. Также шаг 0 заключается в инициализации всего процесса и подготовки окружения. ▶️ Для длительной работы анты аналогично пришли к системе - делаем коммит в гит, записываем статус процесса в файл. Они отметили важным что каждая итерация должна оставить систему в относительно консистентном состоянии - проверки проходят, коммит сделан, репо чистое. ▶️ Далее в статье особо отмечено что агент любит привирать и метить фичи сделанными без надлежащего тестирования. Промпты примера пытаются оградить от такого поведения: - помимо необходимости тестов, особо отмечено необходимость e2e тестирования! 👉 Надо, видимо, написать про тестирование, видимо это неочевидно что e2e нужно обязательно, и как раз без других видов тестирвоания можно обойтись, но не без этого. Причем, многие то его руками делают, протыкивая типичный флоу с приложухой. Анты делают вывод что если у агента появляется обратная связь от работы веб приложения - то это улучшает качество. Некоторое капитанство, но это правда от и до. Без демонстрации модели в браузере чего она там наворотила я не понимаю как можно что то работающее получить. Может, новые модели ваншотят кое что без ошибок, но я бы в более менее реальных приложениях такого бы не ждал - только верификация. ▶️ Также как и в моем протоколе - анты опираются на изучение лога гита для ориентировки агента. Это логично и работает. ▶️ Там есть даже зачатки некоего меморибанка, где агент в init.sh скрипте читает как работать с проектом, как чего делать. Думаю, меморибанк точно нужен, но грамотно скомпонованный - впрочем, это отдельная большая тема для дискуссий! ▶️ Далее говорится что если делать специализированных агентов на каждый класс задач, то можно улучшить качество. Типа, агент тестирования, агент QA, агент code cleanup, ... Ну а кто спорит? Фокусная работа, как я это называю, дает свои результаты! Спасибо антропик, за верификацию подхода)) 🟢 В общем, прикольно было верифицировать некоторые подходы мнением фронтирной топовой лабы! (ц) Такое мы читаем #post @deksden_notes"