Кстати, из примеров в статье это хорошо видно: - Delta Prover докручивает математические доказательства, постоянно гоняя LLM и Lean4 в цикле “сгенерируй → проверь → исправь”, потому что “строгость” обеспечивается инструментом‑проверяльщиком. - AGILE в QA‑сценарии умеет решать, когда идти в поиск, когда писать в память, а когда — даже обратиться к человеку‑эксперту (и RL штрафует за слишком частые обращения, чтобы агент учился быть самостоятельнее). - В роботах (Robix+GR-3) разделение ещё явнее: высокоуровневый MLLM для понимания/планирования и отдельная VLA/MLAM‑часть для низкоуровневых траекторий. И ещё один вывод (уже скорее продуктовый, чем академический) Мы реально наблюдаем, как производители foundation models расширяют “обёртку #1” в сторону прикладных сценариев — и чем больше они это делают, тем быстрее “съедают” пространство, которое раньше принадлежало независимым разработчикам. Поэтому для небольших команд вопрос “что мы делаем такого, чего OpenAI/Anthropic/Google не захотят или не смогут делать сами прямо сейчас” становится не философским, а стратегическим: дифференциация должна быть либо в данных/дистрибуции, либо в вертикальной интеграции, либо в workflow‑ownership и ответственности за outcome. https://jcst.ict.ac.cn/article/doi/10.1007/s11390-025-5951-5