Правильная дистилляция помогает избавиться от лишнего запоминания моделью! Memorization Dynamics in Knowledge Distillation for Language Models __Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano__ Статья: https://arxiv.org/abs/2601.15394 Ревью: https://arxiviq.substack.com/p/memorization-dynamics-in-knowledge # TL;DR ЧТО сделали: Систематически изучили проблему запоминания обучающих данных (memorization) в LLM, обученных с помощью дистилляции знаний (Knowledge Distillation, KD). Сравнив дистиллированные модели («студентов») с независимо зафайнтюненными бейзлайнами и исходными «учителями» (семейства Pythia, OLMo-2, Qwen-3), авторы обнаружили, что дистилляция снижает запоминание тренировочных данных более чем на 50%. ПОЧЕМУ это важно: Работа опровергает устоявшееся мнение, что модели-студенты неизбежно наследуют уязвимости приватности своих учителей. Исследование показывает, что KD действует как регуляризатор, который избирательно отфильтровывает высокоэнтропийный «шум» (сложные для обучения примеры), сохраняя при этом обобщающую способность. Кроме того, авторы показали, что запоминание отлично предсказывается с помощью метрик сжатия (zlib), что позволяет проводить санитарную обработку данных (data sanitation) ещё до начала обучения. Подробнее: https://t.me/gonzo_ML_podcasts/2336