Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling __Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang__ Статья: https://arxiv.org/abs/2605.08083 Код: https://github.com/zhengkid/AutoTTS Ревью: https://arxiviq.substack.com/p/llms-improving-llms-agentic-discovery # TL;DR ЧТО сделали: Группа исследователей представила AutoTTS — фреймворк, который использует LLM-исследователя для автоматического поиска и синтеза алгоритмов test-time scaling (TTS). Формулируя распределение вычислений на инференсе как поиск политики в офлайн-среде, система автономно проектирует Python-контроллеры. Эти контроллеры в динамике решают, когда модели нужно создать новую ветку, сделать пробинг, выполнить прунинг или остановиться. ПОЧЕМУ это важно: Сейчас в test-time scaling доминируют ручные эвристики (например, классический self-consistency или раннее завершение). AutoTTS показывает сдвиг парадигмы: авторы создают среду для поиска, а не сам алгоритм. Найденная таким образом стратегия Confidence Momentum Controller описывает оптимальную границу (Pareto frontier) между точностью и стоимостью, снижая расход токенов почти на 70% по сравнению со стандартным self-consistency. А весь процесс автоматического поиска обошёлся менее чем в $40. Для практиков: Вместо того чтобы вручную подбирать пороги для отсечения веток или фиксировать количество генераций, можно собрать офлайн-базу логов генерации и заставить агента написать оптимальный код контроллера, который будет динамически управлять бюджетом токенов под вашу конкретную задачу. Скейлить тут: https://t.me/gonzo_ML_podcasts/3706
Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs…
Из этого канала
- #5414Ты инженер или философ?
Ты инженер или философ?
- #5415Красивая история. UT с последовательным применением линейного внимания…
Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную…
- #5420Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то,…
Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.
- #5406Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией…
Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией решений.
- #5402"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один…
"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один единственный нейрон, с другой стороны если грохнуть одну конкретную важную для…