"Экспериментальные результаты, суммированные в многочисленных таблицах, в целом… — @gonzo_ML

"Экспериментальные результаты, суммированные в многочисленных таблицах, в целом подтверждают утверждения авторов. В задачах контролируемой классификации изображений на ImageNet-1K, ViT и ConvNeXt модели, оснащённые DyT, достигают сопоставимой или немного лучшей точности top-1, чем их аналоги с LN. В сценариях self-supervised learning (MAE и DINO) модели DyT поддерживают или незначительно улучшают производительность. Diffusion models (DiT), использующие DyT, демонстрируют сопоставимые или немного улучшенные оценки FID, за исключением DiT-XL, где наблюдается незначительное ухудшение. Примечательно, что в больших языковых моделях (LLaMA) DyT достигает производительности на уровне RMSNorm для различных размеров моделей, предлагая при этом значительное сокращение задержек при выводе и обучении при использовании BF16 precision. Ablation studies дополнительно подтверждают необходимость как tanh-нелинейности, так и обучаемого параметра масштабирования в DyT. Однако важно отметить, что прирост производительности часто является скромным, с типичными улучшениями в точности top-1 в диапазоне от 0,1% до 0,5%, и в отсутствие отчётов о статистической значимости практическая значимость этих небольших улучшений может быть оспорена в некоторых приложениях. Потенциальное влияние этого исследования заключается в его способности упростить сетевые архитектуры и потенциально повысить вычислительную эффективность. Авторы пишут, что ""предварительные измерения показывают, что DyT повышает скорость обучения и вывода, что делает его кандидатом для ориентированного на эффективность проектирования сети"". Удаление слоёв нормализации может привести к более быстрому выводу и обучению, что демонстрируется измерениями задержек авторов в LLM. Это особенно актуально для сред с ограниченными ресурсами и крупномасштабных развёртываний. Результаты статьи также вносят вклад в более глубокое понимание роли слоёв нормализации, предполагая, что их основная функциональность может быть аппроксимирована простой, обучаемой нелинейностью. Будущие направления исследований, предложенные авторами, включают в себя изучение адаптивности DyT к другим типам нормализации и изучение его ограничений в различных архитектурных контекстах, особенно в CNN, где он в настоящее время уступает Batch Normalization. Было бы также ценно дополнительно исследовать теоретические основы эффективности DyT и изучить потенциальные стратегии настройки гиперпараметров для более широкой применимости. Авторы признают ограничение DyT, заключающееся в том, что он приводит к снижению производительности при прямой замене BN в ResNet-50 и VGG19. Это важный момент, который правильно определяет рамки их вклада. Кроме того, хотя статья исследует применение DyT в различных архитектурах трансформеров и задачах, она могла бы выиграть от более тщательного исследования чувствительности DyT к различным настройкам гиперпараметров и схемам инициализации, помимо тех, которые уже изучены, особенно за пределами домена LLM, где была обнаружена важность настройки инициализации α. В заключение, эта статья представляет убедительный аргумент в пользу жизнеспособности Transformers без нормализации посредством введения Dynamic Tanh. Хотя DyT может и не быть универсальной drop-in replacement для всех слоёв нормализации в каждой архитектуре, его продемонстрированная эффективность в трансформерах, в сочетании с его простотой и потенциалом повышения эффективности, делает его значительным вкладом в эту область. Эта статья предлагает ценный вклад в эту область и открывает многообещающие пути для будущих исследований более простых и эффективных моделей глубокого обучения. Хотя необходимы дальнейшие исследования для полного понимания его ограничений и оптимальных сценариев применения, DyT представляет собой примечательный шаг к оспариванию установленных норм в проектировании нейронных сетей."

Из этого канала