"Следующая работа с NeurIPS 2025 Best Paper Award. Про динамику обучения… — @gonzo_ML

"Следующая работа с NeurIPS 2025 Best Paper Award. Про динамику обучения диффузионок. Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training __Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard__ Статья: https://openreview.net/forum?id=BSZqpqgqM0, https://arxiv.org/abs/2505.17638 Код: https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize Ревью: https://arxiviq.substack.com/p/neurips-2025-why-diffusion-models # TL;DR ЧТО сделали: Авторы провели теоретический и эмпирический анализ динамики обучения score-based диффузионных моделей. Понимая, что модели в конечном итоге могут переобучиться, исследователи выделили два различных временных масштаба: `tau_gen`, когда модель учится генерировать валидные сэмплы, и `tau_mem`, когда она начинает запоминать конкретные примеры из обучения. Работа получила Best Paper Award на NeurIPS 2025. ПОЧЕМУ это важно: Статья разрешает парадокс: почему перепараметризованные диффузионные модели обладают хорошей обобщающей способностью, хотя имеют ёмкость для идеального запоминания обучающих данных. Доказав, что время начала запоминания `tau_mem` растёт линейно с размером датасета `n`, а время обучения генерации `tau_gen` остаётся константой, авторы утверждают: ""ранняя остановка"" (early stopping) — это не просто эвристика, а структурная необходимость, обусловленная неявной динамической регуляризацией. Это объясняет, почему увеличение датасетов расширяет ""безопасное окно"" для обучения, позволяя огромным моделям надёжно обобщать данные. Подробнее: https://t.me/gonzo_ML_podcasts/1504"

Из этого канала