Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в миллион токенов V4 требует всего 27% FLOPs при инференсе одного токена и лишь 10% KV-кэша от объёмов V3.2. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence __DeepSeek-AI__ Paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf Code: https://github.com/deepseek-ai/DeepGEMM Model: https://huggingface.co/collections/deepseek-ai/deepseek-v4 Review: https://arxiviq.substack.com/p/deepseek-v4-towards-highly-efficient # TL;DR ЧТО сделали: DeepSeek-AI представили серию моделей DeepSeek-V4 (включая Pro-версию на 1.6T параметров и Flash на 284B). Авторы разработали новую гибридную архитектуру внимания, внедрили residual connections, ограниченные многообразием, и оптимизатор Muon, чтобы нативно и эффективно поддерживать окно контекста в миллион токенов. ПОЧЕМУ это важно: Квадратичная сложность механизма внимания и линейный рост KV-кэша долгое время оставались главным боттлнеком для длинного контекста. За счёт уменьшения размера KV-кэша на 90% и снижения FLOPs на инференсе на 73% (на отметке в миллион токенов по сравнению с предыдущим поколением), новая архитектура делает масштабный кросс-документный анализ, онлайн-обучение и постоянные агентские рассуждения вычислительно и экономически оправданными. Для практиков: DeepSeek-V4 объединяет недавние достижения в масштабировании MoE, обучении с подкреплением и системной инженерии. Для инженеров и стратегов выход V4 доказывает: барьер для работы с экстремально длинным контекстом больше не упирается исключительно в железо. Его можно планомерно преодолеть с помощью алгоритмической компрессии, специализированных ядер и строгой post-training дистилляции, достигая при этом качества на уровне топовых проприетарных моделей. Глубоко искать здесь: https://t.me/gonzo_ML_podcasts/3324
Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в…
Из этого канала
- #5247Интересное на подумать. Generalization at the Edge of Stability Mario Tuci,…
Интересное на подумать. Generalization at the Edge of Stability Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal Статья:…
- #5255И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There…
И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There Will Be a Scientific Theory of Deep Learning Jamie Simon, Daniel Kunin, Alexander…
- #5260Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep…
Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep Network Features Represent Data Thomas Walker, Ahmed Imtiaz Humayun, Randall…
- #5236Про важность харнесса на примере Клод Кода:…
Про важность харнесса на примере Клод Кода: https://www.anthropic.com/engineering/april-23-postmortem Продолжение темы https://t.me/gonzoML/5209
- #5235Свежак от DeepSeek https://github.com/deepseek-ai/TileKernels Tile Kernels…
Свежак от DeepSeek https://github.com/deepseek-ai/TileKernels Tile Kernels Optimized GPU kernels for LLM operations, built with TileLang.