Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning. Learning to Forget: Continual Learning with Adaptive Weight Decay __Aditya A. Ramesh, Alex Lewandowski, Jürgen Schmidhuber__ Статья: https://arxiv.org/abs/2604.27063v1 Код: https://github.com/Aditya-Ramesh-10/Fade Ревью: https://arxiviq.substack.com/p/learning-to-forget-continual-learning # TL;DR ЧТО сделали: Авторы предлагают Forgetting through Adaptive DEcay (FADE) — online-алгоритм метаобучения (meta-learning), который назначает динамический коэффициент weight decay (затухания весов) индивидуально для каждого параметра сети. Используя forward-mode дифференцирование, FADE избирательно регулирует скорость, с которой конкретные веса забывают прошлые состояния, на основе ошибки предсказания. ПОЧЕМУ это важно: В сценариях continual learning с нестационарными потоками данных и конечной емкостью модели возникает дилемма стабильности-пластичности (stability-plasticity trade-off). Стандартный скалярный weight decay работает как глобальный регуляризатор, равномерно стирая как устаревшие отображения, так и стабильные знания. FADE решает эту проблему, автоматизируя разумное забывание для каждого параметра. Это существенно повышает качество работы и предотвращает потерю пластичности без усложнения архитектуры. Для практиков: Статья предлагает крайне эффективный метод с вычислительной сложностью `O(d)` для автоматизации попараметрического забывания в нейросетях. Превращая weight decay из статического штрафа в динамический механизм, алгоритм вдвое снижает ошибку отслеживания (tracking error) по сравнению со стандартными оптимизаторами вроде AdamW. Это фундаментальная техника для агентов с ограниченной емкостью, работающих в средах с непрерывным обучением, где границы задач неизвестны, а данные полностью нестационарны. Подзабывать здесь: https://t.me/gonzo_ML_podcasts/3536
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем…
Из этого канала
- #5334Recursion strikes back Тема про рекурсию активно развивается в последний год.…
Recursion strikes back Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного…
- #53352) test-time scaling из коробки — часто можно погонять рекурсию поглубже для…
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата.
- #5337"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep…
"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep Learning Elon Litman, Gabe Guo Статья: https://arxiv.org/abs/2605.01172v1 Ревью:…
- #5327"Развитие тем покойного Нафтали Тишби…
"Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw). Learning Is Forgetting: LLM Training as Lossy Compression Henry C.
- #5323Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in…
Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu,…