Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute Optimal Tokenization __Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer__ Paper: https://arxiv.org/abs/2605.01188v1 Code: https://co-tok.github.io Review: https://arxiviq.substack.com/p/compute-optimal-tokenization Model: N/A # TL;DR ЧТО сделали: Авторы систематически вывели законы скейлинга (neural scaling laws) с учётом сжатия информации. Для этого они обучили почти 1300 моделей, чтобы понять, как гранулярность информации (байты на токен) влияет на оптимальное распределение вычислительных ресурсов. ПОЧЕМУ это важно: Работа доказывает, что общепринятая эвристика масштабирования моделей (20 токенов на параметр) — это просто артефакт конкретных сабворд-токенизаторов. Переход к независимым от токенизатора законам на основе байтов даёт надёжный фреймворк для максимизации эффективности вычислений на разных языках и модальностях. Для практиков: Для команд, оптимизирующих масштабное предобучение, токенизация часто выглядит как статичный шаг препроцессинга. Эта статья предлагает смотреть на токенизацию как на динамическую переменную масштабирования. Оптимизируя степень сжатия (информационную плотность), авторы показывают, что объём обучающих данных должен масштабироваться пропорционально параметрам модели в *байтах*, а не в токенах. Кроме того, оптимальная степень сжатия зависит от доступных вычислений: чем больше бюджет FLOPs, тем меньшее сжатие требуется. Это даёт новый чертёж для сборки сверхэффективных мультиязычных foundation-моделей. Изучать законы здесь: https://t.me/gonzo_ML_podcasts/3587
Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute…
Из этого канала
- #5357И снова про рекурсии :) Пользуясь случаем, поздравляю Лёшу Досовицкого и всю…
И снова про рекурсии :) Пользуясь случаем, поздравляю Лёшу Досовицкого и всю команду. Ещё и Питера Норвига привлекли! https://www.recursive.com/
- #5359Картинка с геораспределением аффилиаций на последнем ICLR 2026…
Картинка с геораспределением аффилиаций на последнем ICLR 2026 https://x.com/konstantdobler/status/2053098441069216113 Сейчас по сети ходит также другая…
- #5360И снова BLT, но теперь быстрый! Fast Byte Latent Transformer Julie Kallini,…
И снова BLT, но теперь быстрый! Fast Byte Latent Transformer Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher…
- #5348"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что…
"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово…
- #5343Новые ядра и формат упаковки для неструктурированной разреженности от Sakana +…
Новые ядра и формат упаковки для неструктурированной разреженности от Sakana + NVIDIA.