"Ещё одна работа на близкую тему. Здесь не самодистилляция, а использование умного учителя для переписывания обучающих данных низкого качества. Но по сути очень похоже на предыдущую работу (https://t.me/gonzo_ML/4687) — заменяем SFT на RL, причём делаем это так, что появляется плавная интерполяция между этими двумя режимами — начинаем с клонирования хороших примеров, постепенно переходим на улучшение собственных роллаутов. Все эти работы последних дней любопытны тем, что переосмысливают процесс предобучения и файнтюнинга, он становится более активным и динамическим и в большей степени RL. Это интересный движ, я ожидаю его усиление. Self-Improving Pretraining: using post-trained models to pretrain better models __Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar, Jason Weston, Olga Golovneva__ Статья: https://arxiv.org/abs/2601.21343 Ревью: https://arxiviq.substack.com/p/self-improving-pretraining-using # TL;DR ЧТО сделали: Авторы предлагают Self-Improving Pretraining — метод, заменяющий стандартное предсказание следующего токена на онлайн-цикл обучения с подкреплением (RL) прямо на этапе предобучения. Вместо пассивного поглощения ""сырых"" корпусов текста, модель использует сильного ""учителя"" (post-trained модель), который на лету переписывает низкокачественные данные и оценивает генерации самой модели-ученика. В итоге модель учится на отфильтрованном, качественном сигнале, состоящем из ""переписанных"" текстов и её собственных лучших роллаутов. ПОЧЕМУ это важно: Подход ломает догму о том, что alignment (безопасность, фактология) — это забота исключительно этапа пост-тренировки (SFT/RLHF). Интегрируя обучение на предпочтениях (preference learning) в сам субстрат предобучения, метод не даёт модели ""запечь"" в веса токсичность или галлюцинации из сырых данных. Показано, что модели могут учиться быть безопасными даже на небезопасных данных, если целевая функция активно уводит их от грязи. Прирост win rate составляет до 86.3% по сравнению с базовыми методами. Подробнее: https://t.me/gonzo_ML_podcasts/2300"
"Ещё одна работа на близкую тему. Здесь не самодистилляция, а использование…
Из этого канала
- #4696Сегодня пост про поделку от Лёши Тихонова, одного из основателей этого канала и…
Сегодня пост про поделку от Лёши Тихонова, одного из основателей этого канала и когда-то его регулярного автора.
- #4697Как я и обещал Грише, напишу поподробнее на русском про мою попытку беглого…
Как я и обещал Грише, напишу поподробнее на русском про мою попытку беглого анализа Moltbook.
- #4698Не буду утяжелять рассказ цитатами из найденных постов. Если вам такое надо,…
Не буду утяжелять рассказ цитатами из найденных постов. Если вам такое надо, почитайте какую-нибудь из уже существующих подборок такого плана (на английском).
- #4687"Продолжим выходные самодистилляции. Другая работа, очень похожая на предыдущую…
"Продолжим выходные самодистилляции. Другая работа, очень похожая на предыдущую разобранную (Reinforcement Learning via Self-Distillation), вышла даже чуть…
- #4681"Сейчас одновременно вышло сразу несколько работ про само-дистилляцию, эта одна…
"Сейчас одновременно вышло сразу несколько работ про само-дистилляцию, эта одна из них. Работа любопытная, в ней сразу несколько идей.