⚪️ DeepSeek - Conditional Memory Пока мы все ждем R2/V4 от предводителей китового семейства, Дипсики разродились интереснейшей статьей про архитектуру моделей. 🔗 Папир тут: https://arxiv.org/html/2601.07372v1 Общая идея проста и занимательна: модель вынуждена часть своих параметров тратить на запоминание простых фактов, вместо выучивания сложных логических концепций. А это тратит дорогой ресурс gpu memory на хранение этого всего простого материала. Что если взять и выделить кусок, который отвечает за память, в отдельную сущность (engram назовем). Ее еще и в cpu memory хранить, и запросы делать по фактам, а в gpu memory отдавать только результаты. В итоге мы высвобождаем ресурсы модели, ее внимания и параметров для логической работы (думания). Выяснили что лучше всего работает передача 20-25% ресурса разряженных параметров в пользу памяти, оставив на размышление 75-80% (логика). Мы ещё и логику бустим за счет высвобождения ресурса внимание на построение более сложных логических конструкций гораздо раньше, на нижних ранних слоях матрицы. В общем, и экономия, и буст воможностей! Прям бинго. В идентичных моделях (тестировали 27B модельки с engram архитектурой и классическое moe) буст на целых 2-5% (АБСОЛЮТНЫХ!!!) в задачах на логику, и громадный рост точности в задачах длинного контекста - иголки искались вместо 84% аж с 97% (!!!) точностью! omfg Крутой папир, крутой подход. Неужели увидим в новом дипсике? Сомневаюсь, очень уж свежая мысль, но это тянет на некоторый прорыв. А схема заюзать CPU память для хранения фактов открывает дорогу к более дешевому инференсу. Короче, как не посмотреть - везде плюсы. Молодцы дипсики, респект! Не то что скрытные фронтирные буржуи, которые давно ничем архитектурным особо не делились. #post (ц) такое меня впечатляет! Upd 1️⃣ : да, статья не самая новая - январь 2026, но глаза прочитать закладки дошли только сейчас. Кому важно, имейте ввиду)) @deksden_notes
⚪️ DeepSeek - Conditional Memory Пока мы все ждем R2/V4 от предводителей…
Из этого канала
- #589привет. через 20 минут будет вебинар…
привет. через 20 минут будет вебинар https://academy.openai.com/home/clubs/work-users-ynjqu/events/codex-for-admins-and-team-leads-b9lap056m0
- #590⚪️ Google AI Studio Buld vNext Новый релиз вайбкодинга от студии гугла: теперь…
⚪️ Google AI Studio Buld vNext Новый релиз вайбкодинга от студии гугла: теперь феллстек с интеграцией firebase, с next js, с антигравити под капотом.
- #591⚪️ Stripe: Machine Payment Protocol Stripe нам не особо актуален, но меня…
⚪️ Stripe: Machine Payment Protocol Stripe нам не особо актуален, но меня впечатлила тенденция - предложен протокол которым будут пользоваться (и уже…
- #587⚪️ Проблемы фронта и useEffect Я нечасто про фронт упоминаю, но, если вы из…
⚪️ Проблемы фронта и useEffect Я нечасто про фронт упоминаю, но, если вы из своих CLI / TUI помните - есть такая штука как GUI и часто она на веб технологиях,…
- #586⚪️ Gpt 5.4 mini / nano Вам все про них расскажут и в других местах,…
⚪️ Gpt 5.4 mini / nano Вам все про них расскажут и в других местах, повторяться не буду - скажу только что уже набирается куча претендентов на кодинговый эвал!…