Вместе с моделью добавили 3 новые фичи: — инструмент поиска инструментов — программный вызов инструментов — примеры для инструментов Последние два менее интересны, но в целом полезны для практики. Детально читайте в блоге, TLDR: можно показать примеры вызовов инструментов, чтобы не было путаницы с форматом, например, дат, и вызов инструментов через код (так, что промежуточные состояния не попадают в контекст -> не загрязняют его). А вот поиск инструментов — это маст хэв. Если вы подключаете к Claude Code пару-тройку MCP-серверов с 20-30 инструментами, то сжираете сразу 30-40 тысяч токенов контекста. Мало того что вы платите за них при каждом вызове, так ещё и модель тратит ценное внимание на эти токены. Ещё и работает чуть медленнее. Одни минусы! Кто придумал GitHub MCP на 26 тысяч токенов??? Решение: Tool Search Tool, который из всех подключенных инструментов кладёт в контекст только нужные. На замерах компании это привело к увеличению метрик (с 79.5% до 88.1% на каком-то внутреннем бенчмарке), не говоря уже про все остальные плюсы: цена, скорость, полезный контекст. Ждём появления у конкурентов
Вместе с моделью добавили 3 новые фичи: — инструмент поиска инструментов —…
Из этого канала
- #3133Ииии вот из-под крыла Белого Дома выходит анонс THE GENESIS MISSION —…
Ииии вот из-под крыла Белого Дома выходит анонс THE GENESIS MISSION — инициативы, направленной на использование AI в науке.
- #3134Forecasting AI Time Horizon Under Compute Slowdowns В начале года METR…
Forecasting AI Time Horizon Under Compute Slowdowns В начале года METR представили свою работу по AI Time Horizon — оценку того, как долго агент может…
- #3135А давайте вот такой эксперимент представим: вы Anthropic, тренируете мощную LLM…
А давайте вот такой эксперимент представим: вы Anthropic, тренируете мощную LLM писать код, используя Reinforcement Learning (RL) и заставляете модель…
- #3131https://www.anthropic.com/news/claude-opus-4-5 Claude Opus 4.5 таки смог взять…
https://www.anthropic.com/news/claude-opus-4-5 Claude Opus 4.5 таки смог взять 80% на SWE-bench Verified! Бонусом в модель добавили effort control — прямо как…
- #3130Совсем недавно я рассуждал про мощности, необходимые для тренировки Agent 0 и…
Совсем недавно я рассуждал про мощности, необходимые для тренировки Agent 0 и Agent 1 из работы AI-2027, и пришёл к выводу, что немного отстаём от обозначенных…