Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs… — @gonzo_ML

Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling __Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang__ Статья: https://arxiv.org/abs/2605.08083 Код: https://github.com/zhengkid/AutoTTS Ревью: https://arxiviq.substack.com/p/llms-improving-llms-agentic-discovery # TL;DR ЧТО сделали: Группа исследователей представила AutoTTS — фреймворк, который использует LLM-исследователя для автоматического поиска и синтеза алгоритмов test-time scaling (TTS). Формулируя распределение вычислений на инференсе как поиск политики в офлайн-среде, система автономно проектирует Python-контроллеры. Эти контроллеры в динамике решают, когда модели нужно создать новую ветку, сделать пробинг, выполнить прунинг или остановиться. ПОЧЕМУ это важно: Сейчас в test-time scaling доминируют ручные эвристики (например, классический self-consistency или раннее завершение). AutoTTS показывает сдвиг парадигмы: авторы создают среду для поиска, а не сам алгоритм. Найденная таким образом стратегия Confidence Momentum Controller описывает оптимальную границу (Pareto frontier) между точностью и стоимостью, снижая расход токенов почти на 70% по сравнению со стандартным self-consistency. А весь процесс автоматического поиска обошёлся менее чем в $40. Для практиков: Вместо того чтобы вручную подбирать пороги для отсечения веток или фиксировать количество генераций, можно собрать офлайн-базу логов генерации и заставить агента написать оптимальный код контроллера, который будет динамически управлять бюджетом токенов под вашу конкретную задачу. Скейлить тут: https://t.me/gonzo_ML_podcasts/3706

Из этого канала