"В этом свете мне более интересными кажутся следующие две работы: 🤖 DroidSpeak Large Language Models (LLMs) are increasingly employed in complex workflows, where different LLMs and fine-tuned variants collaboratively address complex tasks. However, these systems face significant inefficiencies due to redundant context processing of the shared context. We propose DroidSpeak, a framework that optimizes context sharing between fine-tuned LLMs derived from the same foundational model. DroidSpeak identifies critical layers in the KV cache and selectively recomputes them, enabling effective reuse of intermediate data while maintaining high accuracy. Our approach balances computational efficiency and task fidelity, significantly reducing inference latency and throughput bottlenecks. Experiments on diverse datasets and model pairs demonstrate that DroidSpeak achieves up to 3x higher throughputs and 2.6x faster prefill times with negligible accuracy loss compared to full recomputation. 👩‍💻 Byte Latent Transformers We introduce the Byte Latent Transformer (BLT), a new byte-level LLM architecture that, for the first time, matches tokenization-based LLM performance at scale with significant improvements in inference efficiency and robustness. BLT encodes bytes into dynamically sized patches, which serve as the primary units of computation. Patches are segmented dynamically based on the entropy of the next byte, allocating more compute and model capacity where increased data complexity demands it. We present the first flop controlled scaling study of byte-level models up to 8B parameters with 4T training bytes. Our results demonstrate the feasibility of scaling models trained on raw bytes without a fixed-vocabulary. Both training and inference efficiency improve due to dynamically selecting long patches when data is predictable, along with qualitative improvements on reasoning and long tail generalization. Overall, for fixed inference costs, BLT shows significantly better scaling than tokenization-based models, by simultaneously growing both patch and model size. TL;DR: DroidSpeak - делаем так чтобы модели общались между собой без токенизации; Byte Latent Transformers - тоже про отказ от токенов, в пользу байтовых представлений. Оба этих подхода создают более ""адекватное"" пространство для рассуждений моделей, менее прерывное пространство - избавились от токенов и ""думаем"" непрерывными векторами! В дополнение к этому, продолжать обучать модели на мейнстримных кодовых базах с крудами и прочем, как показывает практика - качество и генерируемого кода, и ""мышления"" LLM модели не увеличивает вообще. С другой стороны - обучать модели логическому программированию на языке вроде Prolog выглядит очень и очень перспективно. Хочется верить, что эти направления будут добиты, на загнутся, и революционно выстрелят в бурной синергии. И верится в это - без особого труда. *** P.S. Удивительно, но ни один из каналов в телеграмме посвещенных ML или около того не написал вообще ничего про DroidSpeak (Byte Latent я не чекал, но скорее всего история таже). И большие (30, 50, 60к подписчиков) и маленькие, узко специализированные блоггеры. Ну и в целом в Рунете всего ничего изданий об этом написало. Да, я прошу поделиться с друзьями инженерами, кому это может быть хоть сколько нибудь интересно 🙂"