Harness Saw-Tooth theory Возникла идея что эволюция агентов идет в форме пилы. Sawtooth это известный алгоритм в TCP, который снижает перегруженность каналов в интернете. Скорость соединения растет, пока количество потерь пакетов не превысит порог, и затем скорость резко падает в два раза, затем снова растет, как на картинке. То же самое происходит с агентами: 1. Лабы релизят новую модель, например GPT-4 или Opus 4.5 2. Харнессы позволяют стоить более продвинутых агентов и постепенно добавляют кучи логики в себя. В 2023 это был Auto-GPT, в 2025 Clawdbot. 3. Лабы тренируют новую модель (подозреваю, активно RL’я трейсы агентских харнесов) И дальше все повторяется по кругу. Почему это происходит? Агенты создают очень классный синтетический датасет, а сложность харнесов всегда упирается в надежность самой модели, поэтому они никогда не могут перейти определенный порог. Если твой харнесс имеет много кастомной логики, то его надежность падает с каждой новой фичей. С другой стороны, повышение надежности модели в агентских задачах делает доступным новые юзкейсы: например, факт что Opus 4.5 научился супер долго работать в баше и писать скрипты проверяя самого себя сделали его полезным для долгосрочных задач кодинга.
Harness Saw-Tooth theory Возникла идея что эволюция агентов идет в форме пилы.…
Из этого канала
- #2830Десятиминутная анимационная файтинг сцена с помощью относительно новой…
Десятиминутная анимационная файтинг сцена с помощью относительно новой китайской seedance 2 от компании-разработчика TikTok. Автор потратил $60 на всю работу.
- #2831два наблюдения о мире за последние пару лет: 1. большинство людей из бизнеса,…
два наблюдения о мире за последние пару лет: 1. большинство людей из бизнеса, государства, профессиональной сферы кардинально недооценивают возможности ИИ и…
- #2832xAI / x.com / SpaceX выложили последнюю планерку с Маском план простой: -…
xAI / x.com / SpaceX выложили последнюю планерку с Маском план простой: - достичь сингулярности в коде и самоулучшении моделей (12-18 мес) - создать цифрвых…
- #2828Две метрики, которые я регулярно вижу у ИИ-нейтив компаний: 1. % PR, которые…
Две метрики, которые я регулярно вижу у ИИ-нейтив компаний: 1. % PR, которые были сгенерированы полностью агентами: background agents, без активного…
- #2827Вау, это полностью совпадает с моими наблюдениями: 100% людей, которых я знаю и…
Вау, это полностью совпадает с моими наблюдениями: 100% людей, которых я знаю и которые используют LLM и агентов в работе больше чем 4-5 часов в день (то есть,…