Anthropic выложил разбор того, как они делали своего агента - исследователя для… — @vsevolodustinovchannel

Anthropic выложил разбор того, как они делали своего агента - исследователя для Claude. Не то чтобы я не сталкивался раньше с проблемами оркестрации и оценки сложных агентов - но тут столько интересных деталей, что нельзя не написать. Кратко, что важно: - В системе ведущий агент анализирует запрос и создает подагентов, которые параллельно ищут информацию каждый по своему направлению. Это совсем другая логика работы с задачами, где заранее непонятно, какие шаги потребуются. - Внутренние тесты: мультиагентная система на 90,2% эффективнее одно-агентной при сложных поисковых запросах. - Расход токенов растет лавинообразно: мультиагентная архитектура требует в 15 раз больше токенов, чем обычный чат. Поэтому использовать её есть смысл только для действительно ценных и сложных задач. - Архитектура построена по схеме “оркестратор-воркер”: ведущий планирует и делит задачи, подагенты ищут и фильтруют, дальше всё собирается и проходит через агент-цитировщик. - В промптах важно: симулировать работу агентов для поиска багов, чётко описывать задачи подагентам, масштабировать ресурсы под сложность запроса, прорабатывать интерфейсы инструментов, запускать самообучение агентов, начинать с широких, потом сужать фокус, использовать “видимое мышление” и планирование, а не только инструкции. - Параллелизация ускоряет исследования в разы: ввод нескольких подагентов и параллельных инструментов сокращает время до 90%. - Оценка результатов: маленькие ручные выборки для быстрой обратной связи, LLM-судья для проверки полноты и корректности, плюс живое тестирование для ловли неочевидных проблем. - В продакшене - отдельная боль: ошибки могут “размножаться”, нужно хранить состояние, поддерживать резюмирование после сбоев, делать трассировку и релизы выкатывать по “радуге”, чтобы не грохнуть всё сразу. - Синхронность упрощает, но мешает скорости: переход к асинхронности обещает прибавку к производительности, но увеличит сложность координации и обработки ошибок. Тоже пытаюсь строить такие системы. Понимаю что они действительно помогают находить неочевидные инсайты и экономить кучу времени - особенно если задача не про “ответить на факт”, а про навигацию в сложном инфопространстве. Сергей Булаев AI 🤖 - об AI и не только

Из этого канала