"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что… — @gonzo_ML

"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово пространство не работает. Другая похожая работа была про геометрию счёта от Антропика. И вообще за последнее время было уже столько работ про геометрию (вот, например, ещё похожая, поищите просто по слову геометрия), что неевклидовость давно уже должна стать дефолтом. Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior __Daniel Wurgaft, Can Rager, Matthew Kowal, Vasudev Shyam, Sheridan Feucht, Usha Bhalla, Tal Haklay, Eric Bigelow, Raphael Sarfati, Thomas McGrath, Owen Lewis, Jack Merullo, Noah D. Goodman, Thomas Fel, Atticus Geiger, Ekdeep Singh Lubana__ Статья: https://arxiv.org/abs/2605.05115v1 Код: https://github.com/goodfire-ai/causalab/tree/manifold_steering Ревью: https://arxiviq.substack.com/p/manifold-steering-reveals-the-shared Модели: LLaMA 3.1 8B, LLaMA 3.1 70B # TL;DR ЧТО сделали: Авторы предложили manifold steering — метод интервенций, который движется по искривлённым, нелинейным геометрическим структурам нейросетевых репрезентаций (вместо того чтобы полагаться на плоское евклидово скрытое пространство). Аппроксимируя сплайнами как внутренние активации, так и внешние распределения выходов, они показывают двунаправленную изометрию между этими двумя пространствами. Управление моделями вдоль этих внутренних кривых приводит к плавным, естественным траекториям в поведении. ПОЧЕМУ это важно: Работа бросает вызов популярной гипотезе линейных репрезентаций (Linear Representation Hypothesis), которая гласит, что концепты кодируются прямыми векторами. Доказывая, что учёт внутренней геометрии необходим для когерентных каузальных интервенций, исследователи дают инструмент для борьбы с ""телепортацией"" (резкими скачками через неестественные промежуточные состояния) и коллапсом разнообразия. Главный вывод: правильной единицей анализа в foundation-моделях является не линейное направление, а внутренняя координата на многообразии репрезентаций. Для практиков: Исторически управление ИИ-моделями опиралось на сдвиг их внутренних состояний по прямым линиям, что часто загоняло генерацию в ошибочные состояния. Статья доказывает, что нейросети организуют концепты в виде изогнутых многообразий. Если строго следовать этим внутренним кривым, можно плавно и надёжно контролировать модели, прокачивая AI alignment без слома внутренней логики. Гулять по многообразию тут: https://t.me/gonzo_ML_podcasts/3574"

Из этого канала