Ещё один способ не тренировать новый тип модели с нуля, а адаптировать предобученную. T5Gemma брала предобученный декодер и делала энкодер-декодер, новая Bolmo берёт BPE-модель и делает Byte-level модель. Особенно приколен результат про перенос post-trained версии Olmo в Bolmo через арифметику весов: посчитали diff между instruction tuned olmo и обычной olmo, прибавили к bolmo, получили instruction tuned bolmo. Bolmo: Byteifying the Next Generation of Language Models __Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann__ Статья: https://arxiv.org/abs/2512.15586 Код: https://github.com/allenai/bolmo-core Модель: https://huggingface.co/allenai/Bolmo-7B Ревью: https://arxiviq.substack.com/p/bolmo-byteifying-the-next-generation # TL;DR ЧТО сделали: Представили Bolmo — семейство языковых моделей (1B и 7B), работающих на уровне байтов. Главная фишка: их не обучали с нуля, а получили путём «байтификации» (byteification) уже существующих subword-моделей (в данном случае Olmo 3). Авторы заменили слои эмбеддингов и токенизатор предобученного трансформера на легковесные локальные рекуррентные сети (mLSTM) и применили двухэтапную дистилляцию. Это позволило сконвертировать обычную LLM в байтовую, потратив менее 1% от исходного бюджета токенов на предобучение. ПОЧЕМУ это важно: Byte-level модели (BLM) теоретически решают массу проблем: смещения токенизации, ограничение размера словаря, «слепоту» к отдельным символам. Но обучать их до уровня SOTA исторически было безумно дорого. Эта работа дает универсальный рецепт эффективного «ретрофиттинга» (модернизации) мощных subword-моделей в байтовые. И что критически важно: такие модели могут наследовать результаты пост-тренинга (например, instruction tuning) своих «родителей» через слияние весов, избавляя от необходимости заново выстраивать весь пайплайн безопасности и AI alignment. Подробнее: https://t.me/gonzo_ML_podcasts/1837
Ещё один способ не тренировать новый тип модели с нуля, а адаптировать…
Из этого канала
- #4468Даёшь иерархию в авторегрессии! PHOTON: Hierarchical Autoregressive Modeling…
Даёшь иерархию в авторегрессии! PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation Yuma Ichikawa, Naoya…
- #4471Дело говорит. https://x.com/karpathy/status/2004607146781278521?s=20
Дело говорит. https://x.com/karpathy/status/2004607146781278521?s=20
- #4472Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на…
Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях.
- #4460"Невидимая рука рынка для AGI: Безопасность через экономику Distributional AGI…
"Невидимая рука рынка для AGI: Безопасность через экономику Distributional AGI Safety Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon…
- #4459Интересно как... Today, Groq announced that it has entered into a non-exclusive…
Интересно как... Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology.