Tversky Neural Networks: Psychologically Plausible Deep Learning with Differentiable Tversky Similarity __Moussa Koulako Bala Doumbouya, Dan Jurafsky, Christopher D. Manning__ Статья: https://arxiv.org/abs/2506.11035 Раз в год обязательно появляется какая-то интересная архитектура, где меняют какой-то фундаментальный блок. Так было с KAN в прошлом году (https://t.me/gonzo_ML/2598), где изменили параметризацию функции активации нейрона (непонятно правда какой выхлоп через год -- работ-развитий вроде много появилось, но KAN’ы нигде пока никого не вытеснили). Так есть и в текущей работе, где изменяют функцию определения близости, с классического скалярного произведения как в трансформере (или косинусной близости, что примерно то же) на более хитрую несимметричную функцию имени Амоса Тверски. Журафски с Маннингом в соавторах (а в KAN’ах был соавтором Тегмарк), так что не совсем левые люди. В чём идея? Современные архитектуры глубокого обучения, от CNN до трансформеров, строятся на фундаментальном, но часто упускаемом из виду предположении: сходство между понятиями можно измерить геометрически с помощью таких функций, как скалярное произведение или косинусное сходство. Хотя такой подход удобен вычислительно, в когнитивной психологии давно известно, что эта геометрическая модель плохо отражает человеческие суждения о сходстве. Как отметил Амос Тверски в своей знаковой работе 1977 года (https://psycnet.apa.org/doi/10.1037/0033-295X.84.4.327), человеческое восприятие сходства часто асимметрично — мы говорим, что сын похож на отца больше, чем отец на сына. Эта асимметрия нарушает метрические свойства, присущие геометрическим моделям. Тверски предложил альтернативу: модель сопоставления признаков, где сходство является функцией общих и отличительных черт. Несмотря на свою психологическую правдоподобность, эта модель опиралась на дискретные операции над множествами, что делало её несовместимой с дифференцируемой, основанной на градиентах оптимизацией, которая лежит в основе современного глубокого обучения. Авторам этой статьи удалось изящно преодолеть этот разрыв. Ключевое нововведение — это дифференцируемая параметризация сходства по Тверски. Авторы предлагают двойное представление, где объекты являются одновременно и векторами (как обычно, R^d), и множествами признаков (это новое). Признак (из заданного конечного множества Ω) считается «присутствующим» в объекте, если скалярное произведение вектора объекта и вектора признака положительно. Эта конструкция позволяет переформулировать традиционно дискретные операции пересечения и разности множеств в виде дифференцируемых функций. Функция сходства Тверски определяется как: S(a, b) = θf(A ∩ B) − αf(A − B) − βf(B − A), где A и B это множества признаков объектов a и b, а {θ, α, β} -- обучаемые параметры. В этой формуле первое слагаемое отвечает за общие признаки, второе за отличительных признаки объекта a, и третье за отличительные признаки объекта b. Для признаков определены следующие функции: Заметность (salience) или выраженность фич объекта А, является суммой положительных скалярных произведений для присутствующих у объекта признаков. Менее заметный объект (например, сын) более похож на более заметный объект (отец), чем наоборот. Пересечение (общие признаки) объектов A и B определяется через функцию Ψ, агрегирующую присутствующие у обоих объектов признаки. В качестве Ψ пробовали min, max, product, mean, gmean, softmin. Разность (признаки имеющиеся у первого объекта, но отсутствующие у второго) определена двумя способами. Первый, `ignorematch`, учитывает только признаки, присутствующие в A, но не в B. Другой метод, `subtractmatch`, также учитывает признаки, присутствующие в обоих объектах, но более выраженные в A. Далее определяются нейросети Тверски на базе двух новых строительных блоков: * Tversky Similarity Layer, аналог функций метрической близости типа скалярного произведения или косинусной близости. Определяет похожесть объектов a∈R^d и b∈R^d через вышеупомянутую функцию с {θ, α, β}. Возвращает скаляр.
Tversky Neural Networks: Psychologically Plausible Deep Learning with…
Из этого канала
- #3933 Tversky Projection Layer, аналог полносвязного слоя. Нелинейная проекция…
Tversky Projection Layer, аналог полносвязного слоя. Нелинейная проекция вектора a∈R^d, вычисляющая похожесть входа a на каждый из p прототипов, каждый их…
- #3934Прикольная работа в общем. Просится распространение на трансформер и механизм…
Прикольная работа в общем. Просится распространение на трансформер и механизм внимания. В работе только к блокам projection применяли.
- #3944Прикольный доклад сегодня на AGI-25. В контексте свежих речей Самы про то, что…
Прикольный доклад сегодня на AGI-25. В контексте свежих речей Самы про то, что AGI уже плохой концепт.
- #3931Первый кейноут -- Тани!
Первый кейноут -- Тани!
- #3930Ну а если серьёзно, то недостающие слайды вот ^
Ну а если серьёзно, то недостающие слайды вот ^