"Фильтрация на уровне токенов при обучении даёт сильно более безопасные модели, чем другие способы. Shaping capabilities with token-level data filtering __Neil Rathi, Alec Radford__ Статья: https://arxiv.org/abs/2601.21571 Ревью: https://arxiviq.substack.com/p/shaping-capabilities-with-token-level Код: https://github.com/neilrathi/token-filtering Модель: Custom Transformers (up to 1.8B) # TL;DR ЧТО сделали: Предложили метод потокенной фильтрации данных (token-level data filtering) для хирургического удаления конкретных способностей модели (на примере медицинских знаний) на этапе предобучения. Обучая легковесные классификаторы находить и маскировать специфические токены, авторы не дают модели выучивать опасные концепты, сохраняя при этом соседние общие знания. ПОЧЕМУ это важно: Это сдвиг парадигмы от безопасности ""постфактум"" (RLHF/Unlearning) к безопасности ""ab initio"" (изначальной). Результаты впечатляют: потокенная фильтрация масштабируется значительно лучше, чем удаление целых документов, создавая замедление в 7000 раз (по вычислительным затратам), необходимое модели для повторного обретения забытых знаний на масштабе 1.8B параметров. Кроме того, среди авторов — Алек Рэдфорд (создатель GPT-2 и GPT-3), что сигнализирует о серьезном повороте индустрии в сторону курирования данных как главного рычага безопасности. Подробнее: https://t.me/gonzo_ML_podcasts/2319"
"Фильтрация на уровне токенов при обучении даёт сильно более безопасные модели,…
Из этого канала
- #4716Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику,…
Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику, Epiplexity (https://t.me/gonzoML/4543).
- #4719Правильная дистилляция помогает избавиться от лишнего запоминания моделью!…
Правильная дистилляция помогает избавиться от лишнего запоминания моделью! Memorization Dynamics in Knowledge Distillation for Language Models Jaydeep Borkar,…
- #4725"Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI Существует…
"Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI Существует легенда о том, что однажды Джон Кармак (создатель id Software, коим мы благодарны за…
- #4709В последнее время было возрождение интереса к эволюционным стратегиям (1, 2).…
В последнее время было возрождение интереса к эволюционным стратегиям (1, 2). Они работают, но с засадой.
- #4708Абляция с заменой FA и SA слоёв.
Абляция с заменой FA и SA слоёв.