Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep Network Features Represent Data __Thomas Walker, Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk__ Статья: https://arxiv.org/abs/2604.11962 Код: https://github.com/ThomasWalker1/LinearCentroidsHypothesis Ревью: https://arxiviq.substack.com/p/the-linear-centroids-hypothesis-how # TL;DR ЧТО сделали: Авторы предлагают гипотезу линейных центроидов (Linear Centroids Hypothesis, LCH) — новый фреймворк для механистической интерпретируемости. Вместо анализа фичей как линейных направлений в латентном пространстве активаций модели, LCH ищет фичи, опираясь на геометрию входного пространства сети. Вычисляя «центроиды» — векторные репрезентации, полученные через якобиан входа-выхода и описывающие функциональное отображение локальной области сети, исследователи предлагают более строгий метод для извлечения фичей, поиска внутренних схем (circuits) и построения карт салиентности. ПОЧЕМУ это важно: Текущие подходы к интерпретируемости сильно опираются на гипотезу линейного представления. Её слабое место — склонность находить «паразитные» (spurious) фичи: модель их выучивает, но фактически не использует в своём графе вычислений. LCH привязывает поиск фичей к реальной функциональной геометрии модели. Для практиков: Метод работает как drop-in замена латентным активациям. Он даёт гораздо более чистые словари фичей, радикально повышает устойчивость линейных пробов на out-of-distribution данных и естественным образом связывает конкретные фичи с функциональными схемами на разных слоях сети. Изучать репрезентации тут: https://t.me/gonzo_ML_podcasts/3361
Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep…
Из этого канала
- #5266"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач.…
"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач. Задним умом идея настолько простая, что странно, что раньше не добавили.
- #5270"Я тут в свободное время продолжаю интересные мне эксперименты и решил вот…
"Я тут в свободное время продолжаю интересные мне эксперименты и решил вот развить давние темы Миши Бурцева про Memory Transformer…
- #5271"Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе…
"Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе и рекурсивными циклами рассуждений, эта статья подсвечивает критическое…
- #5255И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There…
И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There Will Be a Scientific Theory of Deep Learning Jamie Simon, Daniel Kunin, Alexander…
- #5247Интересное на подумать. Generalization at the Edge of Stability Mario Tuci,…
Интересное на подумать. Generalization at the Edge of Stability Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal Статья:…