Очередной способ параллелизации размышлений. Мультитрединг приходит в LLM :)… — @gonzo_ML

Очередной способ параллелизации размышлений. Мультитрединг приходит в LLM :) ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models __Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin__ Статья: https://arxiv.org/abs/2512.07843 Ревью: https://arxiviq.substack.com/p/threadweaver-adaptive-threading-for # TL;DR ЧТО сделали: Авторы представили ThreadWeaver — фреймворк, позволяющий LLM динамически разбивать последовательную цепочку рассуждений (CoT) на параллельные потоки. Обучив модель выдавать специальные управляющие токены (`<Parallel>`, `<Thread>`) и используя trie-based механизм внимания, система реализует паттерн выполнения «fork-join». Для оптимизации используется модифицированный алгоритм P-GRPO, который балансирует между правильностью ответа и сокращением длины критического пути. ПОЧЕМУ это важно: Время инференса в сложных задачах на рассуждение (reasoning tasks) обычно растёт линейно с длиной цепочки (`O(N)`), создавая узкое место для масштабирования System 2. ThreadWeaver показывает, что можно сохранить SOTA-качество (на уровне последовательного Qwen3-8B) и при этом получить значительное ускорение по времени (до 1.53x). Что важно, это работает на стандартных движках (например, vLLM) без необходимости писать кастомные CUDA-ядра или хитро управлять KV-кэшем. Подробнее: https://t.me/gonzo_ML_podcasts/1708

Из этого канала