Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения в низкой битности: __QuEST__. Если вкратце, аккуратно оптимизировали как производить округление на __forward__ и как пропускать через него градиенты на __backward__. И это и для весов, и для активаций. Результаты. Обнаружили, что самым оптимальным по трейдоффу __качества претрена/скорости инференса__ из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно. Scaling laws. Затестили, что перформанс консистентен на моделях от __30M__ до __800M__ параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется. Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100! Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения…
Из этого канала
- #958Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли…
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
- #960⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO…
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом.
- #961Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
- #956Первая экспериментальная Ruadapt ризонинг модель:…
Первая экспериментальная Ruadapt ризонинг модель: RuadaptQwen2.5-14B-R1-distill-preview-v1 Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT…
- #955Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1…
Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1 https://huggingface.co/blog/open-r1/update-1