Эволюция residual connections — не держим единый residual стрим, потому что там накапливается шум, а разбиваем каналы входного сигнала на группы и постепенно добавляем их к более глубоким слоям. ResNet -> StepsNet. Step by Step Network Dongchen Han, Tianzhu Ye, Zhuofan Xia, Kaiyi Chen, Yulin Wang, Hanting Chen, Gao Huang Статья: https://arxiv.org/abs/2511.14329 Ревью: https://arxiviq.substack.com/p/step-by-step-network # TL;DR ЧТО сделали? Авторы предложили StepsNet — новую макро-архитектуру, которая меняет подход к построению глубоких сетей. Вместо одновременной обработки всех входных каналов, StepsNet использует каскадную схему «шаг за шагом»: вход расщепляется, часть каналов обрабатывается сразу, а остальные постепенно вводятся в более глубокие слои. ЗАЧЕМ это нужно? Это решает проблему «деградации шорткатов» (shortcut degradation), из-за которой в сверхглубоких сетях (сотни слоёв) сигнал тонет в шуме. Сохраняя «чистые» пути для сигнала в глубину и ломая привычный компромисс между шириной и глубиной, StepsNet позволяет масштабировать модели почти до 500 слоёв. При этом метрики на ImageNet и COCO растут, а количество параметров не увеличивается. Подробнее: https://t.me/gonzo_ML_podcasts/1452
Эволюция residual connections — не держим единый residual стрим, потому что там…
Из этого канала
- #4269Извинити )) [А Васе Ложкину отдельный респект]
Извинити )) [А Васе Ложкину отдельный респект]
- #4271Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards.…
Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей.
- #4274"Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award.…
"Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award. Теперь про архитектуры.
- #4263Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer…
Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer и Gemma 3n? А теперь работа от Нвидии про SSM-гибрид с длинным контекстом для…
- #4262Ну вы поняли...
Ну вы поняли...