В MoonshotAI изобрели новый вид аттеншена В трансформерах есть важная штука под названием residual connection. Ее суть: вместо того, чтобы каждый слой полностью переписывал предыдущий, вход слоя добавляется к его выходу. Тем самым сигнал и градиенты не теряются по дороге, а плавно протекают сквозь глубину сетки без резких искажений. Эта идея – одна из ключевых во всей архитектуре трансформера. Тезис исследователей из Moonshot (это, напоминаем, создатели Kimi K2): обычные residual слишком тупы. Они полезны, но на самом деле бездумно накапливают все прошлые выходы слоя за слоем, из-за чего с ростом глубины вклад каждого отдельного слоя размывается, а величины hidden states растут бесконтрольно. В качестве улучшения предлагают Attention Residuals: пусть слой сам решает, на какие прошлые выходы слоев по глубине ему смотреть. По сути это привычный нам механизм внимания, но не на токенах, а но слоях нейросети. Теперь вместо того, чтобы получать всю предыдущую информацию от коллег-слоев одной кучей, каждый слой получает взвешенную сумму этих знаний, нужную именно на данном этапе обработки. Теоретически это звучит очень осмысленно. Если обычный аттеншен так хорошо выбирает релевантные токены, то почему бы не дать модели так же выбирать релевантные предыдущие выходы слоев? Правда, есть нюанс: технически эта идея требует память большого порядка. Поэтому инженерия немного подправлена, и сеть на самом деле делят на блоки, внутри блока оставляют обычное residual-накопление, а attention применяют только между блоками. На тестах идея действительно демонстрирует вычислительно более эффективную модель: Block AttnRes достигает лосса, сравнимого с бэйзлайном, обученным с 1.25× большим компьютом. Проще говоря, Attention Residuals быстрее сходятся. Авторы также утверждают, что механизм улучшает саму динамику обучения и делает его более стабильным. Работа выглядит очень интересной и потенциально важной. Надо будет последить, станут ли применять. https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
В MoonshotAI изобрели новый вид аттеншена В трансформерах есть важная штука под…
Из этого канала
- #8871OpenClaw, датацентры в космосе и фабрики токенов – Дженсен Хуанг выступил с…
OpenClaw, датацентры в космосе и фабрики токенов – Дженсен Хуанг выступил с двухчасовой речью на GTC 2026 Дальше небольшой разбор важных моментов из нее: ➖…
- #8872Вайбкодинг в бигтехе: как происходит внедрение ИИ-агентов Разговоров про…
Вайбкодинг в бигтехе: как происходит внедрение ИИ-агентов Разговоров про кодинг-агентов становится все больше, но мало кто понимает, что внедрение таких систем…
- #8875Google DeepMind заплатит от 10 до 25 тысяч долларов тому, кто придумает лучший…
Google DeepMind заплатит от 10 до 25 тысяч долларов тому, кто придумает лучший бенчмарк для AGI В 2026 году мы все еще не понимаем, как оценить, насколько…
- #8867Кстати, на днях 3 года исполнилось Claude За эти три года у Anthropic произошел…
Кстати, на днях 3 года исполнилось Claude За эти три года у Anthropic произошел буквально экспоненциальный рост выручки.
- #8865Сэм Альтман сказал, что в будущем ИИ будет продаваться людям по счетчику, как…
Сэм Альтман сказал, что в будущем ИИ будет продаваться людям по счетчику, как электричество или вода Точнее, он выразился так: «Люди будут покупать ИИ у нас,…