В MoonshotAI изобрели новый вид аттеншена В трансформерах есть важная штука под… — @data_secrets

В MoonshotAI изобрели новый вид аттеншена В трансформерах есть важная штука под названием residual connection. Ее суть: вместо того, чтобы каждый слой полностью переписывал предыдущий, вход слоя добавляется к его выходу. Тем самым сигнал и градиенты не теряются по дороге, а плавно протекают сквозь глубину сетки без резких искажений. Эта идея – одна из ключевых во всей архитектуре трансформера. Тезис исследователей из Moonshot (это, напоминаем, создатели Kimi K2): обычные residual слишком тупы. Они полезны, но на самом деле бездумно накапливают все прошлые выходы слоя за слоем, из-за чего с ростом глубины вклад каждого отдельного слоя размывается, а величины hidden states растут бесконтрольно. В качестве улучшения предлагают Attention Residuals: пусть слой сам решает, на какие прошлые выходы слоев по глубине ему смотреть. По сути это привычный нам механизм внимания, но не на токенах, а но слоях нейросети. Теперь вместо того, чтобы получать всю предыдущую информацию от коллег-слоев одной кучей, каждый слой получает взвешенную сумму этих знаний, нужную именно на данном этапе обработки. Теоретически это звучит очень осмысленно. Если обычный аттеншен так хорошо выбирает релевантные токены, то почему бы не дать модели так же выбирать релевантные предыдущие выходы слоев? Правда, есть нюанс: технически эта идея требует память большого порядка. Поэтому инженерия немного подправлена, и сеть на самом деле делят на блоки, внутри блока оставляют обычное residual-накопление, а attention применяют только между блоками. На тестах идея действительно демонстрирует вычислительно более эффективную модель: Block AttnRes достигает лосса, сравнимого с бэйзлайном, обученным с 1.25× большим компьютом. Проще говоря, Attention Residuals быстрее сходятся. Авторы также утверждают, что механизм улучшает саму динамику обучения и делает его более стабильным. Работа выглядит очень интересной и потенциально важной. Надо будет последить, станут ли применять. https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

Из этого канала