"Будущее за оркестрами, обучайте дирижёров! ToolOrchestra: Elevating… — @gonzo_ML

"Будущее за оркестрами, обучайте дирижёров! ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration __Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, et al.__ Paper: https://arxiv.org/abs/2511.21689 Code: https://github.com/NVlabs/ToolOrchestra/ Data: https://huggingface.co/datasets/nvidia/ToolScale Model: https://huggingface.co/nvidia/Orchestrator-8B Webpage: https://research.nvidia.com/labs/lpr/ToolOrchestra Review: https://arxiviq.substack.com/p/toolorchestra-elevating-intelligence # TL;DR ЧТО сделали: Представили ToolOrchestra — фреймворк для обучения легковесных LLM (8B параметров) выступать в роли умных маршрутизаторов для зоопарка инструментов и мощных моделей-экспертов (вроде GPT-5). С помощью алгоритма Group Relative Policy Optimization (GRPO) (https://arxiv.org/abs/2402.03300) и массивного синтетического датасета ToolScale, полученный Оркестратор учится балансировать точность решения с ценой вычислений и предпочтениями юзера. ПОЧЕМУ это важно: Работа ставит под сомнение гипотезу о том, что ""чем больше модель, тем лучше"". Авторы показывают, что 8B модель, грамотно управляющая внешними ресурсами, может обойти фронтир-модели (как GPT-5) на сложных бенчмарках типа Humanity’s Last Exam (https://arxiv.org/abs/2501.14249), срезая косты на инференс на ~70%. Это валидирует переход от гигантских монолитов к составным системам (Compound AI Systems), где интеллект рождается из правильной оркестрации. Подробнее: https://t.me/gonzo_ML_podcasts/1541"

Из этого канала