Ещё одна красивая история про забывание, но теперь с другой стороны — делаем… — @gonzo_ML

Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning. Learning to Forget: Continual Learning with Adaptive Weight Decay __Aditya A. Ramesh, Alex Lewandowski, Jürgen Schmidhuber__ Статья: https://arxiv.org/abs/2604.27063v1 Код: https://github.com/Aditya-Ramesh-10/Fade Ревью: https://arxiviq.substack.com/p/learning-to-forget-continual-learning # TL;DR ЧТО сделали: Авторы предлагают Forgetting through Adaptive DEcay (FADE) — online-алгоритм метаобучения (meta-learning), который назначает динамический коэффициент weight decay (затухания весов) индивидуально для каждого параметра сети. Используя forward-mode дифференцирование, FADE избирательно регулирует скорость, с которой конкретные веса забывают прошлые состояния, на основе ошибки предсказания. ПОЧЕМУ это важно: В сценариях continual learning с нестационарными потоками данных и конечной емкостью модели возникает дилемма стабильности-пластичности (stability-plasticity trade-off). Стандартный скалярный weight decay работает как глобальный регуляризатор, равномерно стирая как устаревшие отображения, так и стабильные знания. FADE решает эту проблему, автоматизируя разумное забывание для каждого параметра. Это существенно повышает качество работы и предотвращает потерю пластичности без усложнения архитектуры. Для практиков: Статья предлагает крайне эффективный метод с вычислительной сложностью `O(d)` для автоматизации попараметрического забывания в нейросетях. Превращая weight decay из статического штрафа в динамический механизм, алгоритм вдвое снижает ошибку отслеживания (tracking error) по сравнению со стандартными оптимизаторами вроде AdamW. Это фундаментальная техника для агентов с ограниченной емкостью, работающих в средах с непрерывным обучением, где границы задач неизвестны, а данные полностью нестационарны. Подзабывать здесь: https://t.me/gonzo_ML_podcasts/3536

Из этого канала