Обучают dense декодеры с GQA, RMSNorm + pre-norm, RoPE. Модели 1.5B и 3B.… — @gonzo_ML

Обучают dense декодеры с GQA, RMSNorm + pre-norm, RoPE. Модели 1.5B и 3B. Оптимизатор AdamW. Токенизатор Llama3, словарь 128k + 256 зарезервированных токенов. Предобучение на 47B и 80B токенов, в основном англ тексты и код. Батч 1M токенов, контекст 8k. Стохастическая активация даёт чуть меньший лосс на трейне по сравнению с RELU. Но и SILU тоже даёт меньший лосс, и не заметно как-то очень больших различий с ним. Без файнтюнинга на валидации всё проседает, но после него норм, но опять же, насколько я вижу, не лучше детерминированного SILU. При использовании RELU на инференсе разреженность может превышать 90%, что по идее позволяет не тягать из памяти 90% весов. Разреженность в 90% даёт ускорение инференса на 65% на CPU. На GPU надо ещё как-то сделать вычисления достаточно предсказуемыми, чтобы балансировать нагрузку между CUDA тредами. Вот эта часть вообще одна из самых интересных, но деталей тут не очень много. Как именно реализовали вычисления на CPU? Если боттлнек -- доступ к памяти, то всё равно ведь сначала надо прочитать, чтобы понять, что там ноль? Либо сразу делать sparse вычисления и для конкретных умножений использовать какую-то библиотеку для разреженной линейной алгебры с правильным форматом хранения. Была ли процедура конвертации dense модели в частично sparse для инференса? Упоминают хранение разных матриц по строкам или столбцам, но хочется мяса про sparse FFN. Интересно, что при файнтюнинге, если использовать одновременно Swi+FT и StochA, то в момент переключения на RELU есть выброс на графике лосса, но далее он уходит и финальное качество модели выше, чем если бы изначально обучалась на RELU. При этом если использовать только Swi+FT, то итоговый результат хуже. И они всё равно хуже детерминированного SILU. Другое любопытное замечание: в тест-тайм можно использовать StochA вместо RELU и без файнтюнинга (!). Оно неплохо работает, результат между RELU и SILU. Можно это использовать для генерации множественных ответов по одному промпту. На downstream задачах похожая картина. Новые методы лучше RELU, но хуже SILU. То есть главный selling point, это потенциальное ускорение за счёт разреженности, 1.65x для CPU (а для GPU ещё надо постараться, но по идее для нвидиевских GPU нескольких последних поколений с поддержкой разреженности в тензорных ядрах должно как-то работать). Если нужно качество, то SILU лучше без вариантов. Ну или популярный SwiGLU, который SILU с гейтом. Есть ещё часто используемый GELU, хотя мне кажется от него стали уходить в SwiGLU (Себастиан подтверждает). Наверное какие-то другие более новые функции активации тоже есть, но я не видел современного сравнения их всех по типу старого доброго для CNN (https://arxiv.org/abs/1505.00853) или исследования Ноама Шазира про трансформеры (https://arxiv.org/abs/2002.05202). Был вот ReLU^2 для разреженных LLM, где он всех побил (https://arxiv.org/abs/2402.03804). Был xIELU (https://arxiv.org/abs/2411.13010), который тоже вроде лучше SwiGLU. Ждём, когда кто-то снова сделает полномасштабное сравнение. Наверное, здесь в очередной раз можно закончить цитатой Ноама Шазира из той работы 2020 года: We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence В общем непонятно, может глобально это всё неважно и мелочи, но может за этим и скрывается что-то фундаментальное, что мы пока ещё не поняли, базовые физические законы. Кстати, у Ноама был кейноут доклад на свежей HotChips: https://www.youtube.com/watch?v=v0beJQZQIGA Всё в его участием смотреть и читать стоит! Напомню также, что он соавтор статьи про трансформер, T5, статей про MoE и т.п.. Пример очень крутого человека без PhD. На этом и закончим.

Из этого канала