"Transformers without Normalization: Многообещающий шаг к более простым и быстрым моделям Название статьи: Transformers without Normalization Авторы: Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu Статья: https://arxiv.org/abs/2503.10622 Код: http://jiachenzhu.github.io/DyT --- В этом обзоре рассматривается статья ""Transformers without Normalization"", в которой исследуется необходимость слоёв нормализации в современных нейронных сетях, особенно в архитектурах трансформеров. Авторы предлагают новую альтернативу, Dynamic Tanh (DyT), стремясь воспроизвести преимущества нормализации без её вычислительных затрат и архитектурной сложности. Слои нормализации, такие как Layer Normalization (LN) (Ba et al., 2016) и Batch Normalization (BN) (Ioffe and Szegedy, 2015), стали повсеместным компонентом в глубоком обучении, во многом благодаря их способности стабилизировать обучение и ускорять сходимость. Однако авторы данной статьи ставят под сомнение эту парадигму, демонстрируя, что трансформеры могут достигать сопоставимой, а иногда и улучшенной производительности без явных слоёв нормализации. Их ключевое нововведение, Dynamic Tanh (DyT), представляет собой простую поэлементную операцию, определяемую как DyT(x) = γ * tanh(ax) + β, где 'a' - это обучаемый скалярный параметр, а γ и β - обучаемые параметры масштабирования и сдвига для каждого канала, соответственно. Этот подход мотивирован наблюдением, что слои LN в обученных трансформерах часто демонстрируют tanh-подобное отображение входа-выхода, что предполагает, что их основная роль может быть аппроксимирована масштабированной нелинейностью. Методология сосредоточена вокруг замены стандартных слоёв нормализации (LN или RMSNorm) в различных моделях на основе трансформеров, включая Vision Transformers (ViT), ConvNeXt, Diffusion Transformers (DiT) и Large Language Models (LLMs) вроде LLaMA, на DyT. В экспериментах с LLM авторы добавляют обучаемый скаляр сразу после слоя эмбеддингов, инициализированный как sqrt(d), где d - размерность эмбеддинга модели. Без этого масштабирующего скаляра модель не может нормально сходиться. Параметр γ DyT инициализируется вектором из единиц, а параметр β - вектором из нулей. Авторы сохраняют большинство гиперпараметров из оригинальных моделей, демонстрируя plug-and-play характер предложенного ими метода. Эмпирическая валидация охватывает широкий спектр задач, включая распознавание изображений, self-supervised learning, генерацию изображений, языковое моделирование и speech pretraining. Сила этого подхода заключается в его простоте и широкой эмпирической проверке. DyT требует минимальных архитектурных изменений и, по-видимому, хорошо обобщается на различные модальности и задачи. Авторы тщательно сравнивают модели, оснащённые DyT, с их нормализованными аналогами, а также с другими техниками, не использующими нормализацию, такими как Fixup (Zhang et al., 2019), SkipInit (De and Smith, 2020) и Reparam (Zhai et al., 2023). Подробные инструкции по воспроизведению результатов приведены в Приложении A статьи. Однако методология также имеет некоторые ограничения. Хотя статья предоставляет убедительные доказательства эффективности DyT в трансформерах, его производительность при замене BatchNorm в традиционных CNN-архитектурах, таких как ResNet-50 и VGG19, приводит к снижению производительности. Это говорит о том, что DyT может быть не универсальной заменой для всех типов нормализации во всех архитектурах. Кроме того, оценка, хотя и обширная, в основном фокусируется на показателях производительности, таких как точность и FID. Статистическая значимость сообщаемых улучшений оценивается не всегда, что затрудняет определение того, насколько действительно надежны наблюдаемые улучшения."
"Transformers without Normalization: Многообещающий шаг к более простым и…
Из этого канала
- #3479"Экспериментальные результаты, суммированные в многочисленных таблицах, в целом…
"Экспериментальные результаты, суммированные в многочисленных таблицах, в целом подтверждают утверждения авторов.
- #3480"Just for fun продолжаю автоматическую публикацию обзоров статей, которые…
"Just for fun продолжаю автоматическую публикацию обзоров статей, которые вручную разбирать всё равно не буду.
- #3481Интересная тема: “Moore’s Law for AI agents” Как со временем растёт длина…
Интересная тема: “Moore’s Law for AI agents” Как со временем растёт длина задач, с которыми могут работать агенты.
- #3477Экспериментирую с заменой себя и обкатываю первую версию мультиагентной системы…
Экспериментирую с заменой себя и обкатываю первую версию мультиагентной системы для разбора статей.
- #3466Но предварительные эксперименты на ResNet показали, что прямая замена BN там не…
Но предварительные эксперименты на ResNet показали, что прямая замена BN там не очень работает, требует отдельного разбирательства. Короче, назад, к основам! 🙂