"Фильтрация на уровне токенов при обучении даёт сильно более безопасные модели, чем другие способы. Shaping capabilities with token-level data filtering __Neil Rathi, Alec Radford__ Статья: https://arxiv.org/abs/2601.21571 Ревью: https://arxiviq.substack.com/p/shaping-capabilities-with-token-level Код: https://github.com/neilrathi/token-filtering Модель: Custom Transformers (up to 1.8B) # TL;DR ЧТО сделали: Предложили метод потокенной фильтрации данных (token-level data filtering) для хирургического удаления конкретных способностей модели (на примере медицинских знаний) на этапе предобучения. Обучая легковесные классификаторы находить и маскировать специфические токены, авторы не дают модели выучивать опасные концепты, сохраняя при этом соседние общие знания. ПОЧЕМУ это важно: Это сдвиг парадигмы от безопасности ""постфактум"" (RLHF/Unlearning) к безопасности ""ab initio"" (изначальной). Результаты впечатляют: потокенная фильтрация масштабируется значительно лучше, чем удаление целых документов, создавая замедление в 7000 раз (по вычислительным затратам), необходимое модели для повторного обретения забытых знаний на масштабе 1.8B параметров. Кроме того, среди авторов — Алек Рэдфорд (создатель GPT-2 и GPT-3), что сигнализирует о серьезном повороте индустрии в сторону курирования данных как главного рычага безопасности. Подробнее: https://t.me/gonzo_ML_podcasts/2319"