Ещё один способ не тренировать новый тип модели с нуля, а адаптировать предобученную. T5Gemma брала предобученный декодер и делала энкодер-декодер, новая Bolmo берёт BPE-модель и делает Byte-level модель. Особенно приколен результат про перенос post-trained версии Olmo в Bolmo через арифметику весов: посчитали diff между instruction tuned olmo и обычной olmo, прибавили к bolmo, получили instruction tuned bolmo. Bolmo: Byteifying the Next Generation of Language Models __Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann__ Статья: https://arxiv.org/abs/2512.15586 Код: https://github.com/allenai/bolmo-core Модель: https://huggingface.co/allenai/Bolmo-7B Ревью: https://arxiviq.substack.com/p/bolmo-byteifying-the-next-generation # TL;DR ЧТО сделали: Представили Bolmo — семейство языковых моделей (1B и 7B), работающих на уровне байтов. Главная фишка: их не обучали с нуля, а получили путём «байтификации» (byteification) уже существующих subword-моделей (в данном случае Olmo 3). Авторы заменили слои эмбеддингов и токенизатор предобученного трансформера на легковесные локальные рекуррентные сети (mLSTM) и применили двухэтапную дистилляцию. Это позволило сконвертировать обычную LLM в байтовую, потратив менее 1% от исходного бюджета токенов на предобучение. ПОЧЕМУ это важно: Byte-level модели (BLM) теоретически решают массу проблем: смещения токенизации, ограничение размера словаря, «слепоту» к отдельным символам. Но обучать их до уровня SOTA исторически было безумно дорого. Эта работа дает универсальный рецепт эффективного «ретрофиттинга» (модернизации) мощных subword-моделей в байтовые. И что критически важно: такие модели могут наследовать результаты пост-тренинга (например, instruction tuning) своих «родителей» через слияние весов, избавляя от необходимости заново выстраивать весь пайплайн безопасности и AI alignment. Подробнее: https://t.me/gonzo_ML_podcasts/1837