Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute… — @gonzo_ML

Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute Optimal Tokenization __Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer__ Paper: https://arxiv.org/abs/2605.01188v1 Code: https://co-tok.github.io Review: https://arxiviq.substack.com/p/compute-optimal-tokenization Model: N/A # TL;DR ЧТО сделали: Авторы систематически вывели законы скейлинга (neural scaling laws) с учётом сжатия информации. Для этого они обучили почти 1300 моделей, чтобы понять, как гранулярность информации (байты на токен) влияет на оптимальное распределение вычислительных ресурсов. ПОЧЕМУ это важно: Работа доказывает, что общепринятая эвристика масштабирования моделей (20 токенов на параметр) — это просто артефакт конкретных сабворд-токенизаторов. Переход к независимым от токенизатора законам на основе байтов даёт надёжный фреймворк для максимизации эффективности вычислений на разных языках и модальностях. Для практиков: Для команд, оптимизирующих масштабное предобучение, токенизация часто выглядит как статичный шаг препроцессинга. Эта статья предлагает смотреть на токенизацию как на динамическую переменную масштабирования. Оптимизируя степень сжатия (информационную плотность), авторы показывают, что объём обучающих данных должен масштабироваться пропорционально параметрам модели в *байтах*, а не в токенах. Кроме того, оптимальная степень сжатия зависит от доступных вычислений: чем больше бюджет FLOPs, тем меньшее сжатие требуется. Это даёт новый чертёж для сборки сверхэффективных мультиязычных foundation-моделей. Изучать законы здесь: https://t.me/gonzo_ML_podcasts/3587

Из этого канала