Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep Network Features Represent Data __Thomas Walker, Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk__ Статья: https://arxiv.org/abs/2604.11962 Код: https://github.com/ThomasWalker1/LinearCentroidsHypothesis Ревью: https://arxiviq.substack.com/p/the-linear-centroids-hypothesis-how # TL;DR ЧТО сделали: Авторы предлагают гипотезу линейных центроидов (Linear Centroids Hypothesis, LCH) — новый фреймворк для механистической интерпретируемости. Вместо анализа фичей как линейных направлений в латентном пространстве активаций модели, LCH ищет фичи, опираясь на геометрию входного пространства сети. Вычисляя «центроиды» — векторные репрезентации, полученные через якобиан входа-выхода и описывающие функциональное отображение локальной области сети, исследователи предлагают более строгий метод для извлечения фичей, поиска внутренних схем (circuits) и построения карт салиентности. ПОЧЕМУ это важно: Текущие подходы к интерпретируемости сильно опираются на гипотезу линейного представления. Её слабое место — склонность находить «паразитные» (spurious) фичи: модель их выучивает, но фактически не использует в своём графе вычислений. LCH привязывает поиск фичей к реальной функциональной геометрии модели. Для практиков: Метод работает как drop-in замена латентным активациям. Он даёт гораздо более чистые словари фичей, радикально повышает устойчивость линейных пробов на out-of-distribution данных и естественным образом связывает конкретные фичи с функциональными схемами на разных слоях сети. Изучать репрезентации тут: https://t.me/gonzo_ML_podcasts/3361