Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения в низкой битности: __QuEST__. Если вкратце, аккуратно оптимизировали как производить округление на __forward__ и как пропускать через него градиенты на __backward__. И это и для весов, и для активаций. Результаты. Обнаружили, что самым оптимальным по трейдоффу __качества претрена/скорости инференса__ из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно. Scaling laws. Затестили, что перформанс консистентен на моделях от __30M__ до __800M__ параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется. Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100! Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.