⚪️ DeepSeek - Conditional Memory Пока мы все ждем R2/V4 от предводителей… — @deksden_notes

⚪️ DeepSeek - Conditional Memory Пока мы все ждем R2/V4 от предводителей китового семейства, Дипсики разродились интереснейшей статьей про архитектуру моделей. 🔗 Папир тут: https://arxiv.org/html/2601.07372v1 Общая идея проста и занимательна: модель вынуждена часть своих параметров тратить на запоминание простых фактов, вместо выучивания сложных логических концепций. А это тратит дорогой ресурс gpu memory на хранение этого всего простого материала. Что если взять и выделить кусок, который отвечает за память, в отдельную сущность (engram назовем). Ее еще и в cpu memory хранить, и запросы делать по фактам, а в gpu memory отдавать только результаты. В итоге мы высвобождаем ресурсы модели, ее внимания и параметров для логической работы (думания). Выяснили что лучше всего работает передача 20-25% ресурса разряженных параметров в пользу памяти, оставив на размышление 75-80% (логика). Мы ещё и логику бустим за счет высвобождения ресурса внимание на построение более сложных логических конструкций гораздо раньше, на нижних ранних слоях матрицы. В общем, и экономия, и буст воможностей! Прям бинго. В идентичных моделях (тестировали 27B модельки с engram архитектурой и классическое moe) буст на целых 2-5% (АБСОЛЮТНЫХ!!!) в задачах на логику, и громадный рост точности в задачах длинного контекста - иголки искались вместо 84% аж с 97% (!!!) точностью! omfg Крутой папир, крутой подход. Неужели увидим в новом дипсике? Сомневаюсь, очень уж свежая мысль, но это тянет на некоторый прорыв. А схема заюзать CPU память для хранения фактов открывает дорогу к более дешевому инференсу. Короче, как не посмотреть - везде плюсы. Молодцы дипсики, респект! Не то что скрытные фронтирные буржуи, которые давно ничем архитектурным особо не делились. #post (ц) такое меня впечатляет! Upd 1️⃣ : да, статья не самая новая - январь 2026, но глаза прочитать закладки дошли только сейчас. Кому важно, имейте ввиду)) @deksden_notes

Из этого канала