"Интересная статья от Google, MIT и Гарварда: TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture. Краткая суть: современные модели (ChatGPT Agent, Gemini-Pro и т.д.) умеют подключать интерпретатор кода и поиск в интернете, но не существует чётких правил, когда и как использовать тот или иной инструмент. Решение простое и одновременно гениальное, как дверь от сарая — запускаем несколько агентов параллельно, каждый со своей стратегией: одни генерят текст, другие дрочат код, третьи шуршат в поиске, четвёртые пытаются всё это непотребство объединить. На каждом шаге они видят ответы друг друга и создают новые версии решения. Специально обученный ""нейро-судья"" под капотом решает, когда остановить этот балаган (когда ответы становятся более-менее согласованными). Итоговый ответ выбирается голосованием или оценкой самой модели. В итоге весь этот Франкенштейн показывает на 17,4 % больше точности и жрёт почти вдвое меньше вычислений, чем предыдущие системы рассуждений. Итого: вместо одной головы имеем пятнадцать, и все думают по-разному. А потом дружно соглашаются на самый уверенный бред. И это, судя по бенчмаркам, работает лучше, чем просто ""пытаться думать сильнее и умнее"" тут пейпер код обещают выложить позже"