Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в… — @gonzo_ML

Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в миллион токенов V4 требует всего 27% FLOPs при инференсе одного токена и лишь 10% KV-кэша от объёмов V3.2. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence __DeepSeek-AI__ Paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf Code: https://github.com/deepseek-ai/DeepGEMM Model: https://huggingface.co/collections/deepseek-ai/deepseek-v4 Review: https://arxiviq.substack.com/p/deepseek-v4-towards-highly-efficient # TL;DR ЧТО сделали: DeepSeek-AI представили серию моделей DeepSeek-V4 (включая Pro-версию на 1.6T параметров и Flash на 284B). Авторы разработали новую гибридную архитектуру внимания, внедрили residual connections, ограниченные многообразием, и оптимизатор Muon, чтобы нативно и эффективно поддерживать окно контекста в миллион токенов. ПОЧЕМУ это важно: Квадратичная сложность механизма внимания и линейный рост KV-кэша долгое время оставались главным боттлнеком для длинного контекста. За счёт уменьшения размера KV-кэша на 90% и снижения FLOPs на инференсе на 73% (на отметке в миллион токенов по сравнению с предыдущим поколением), новая архитектура делает масштабный кросс-документный анализ, онлайн-обучение и постоянные агентские рассуждения вычислительно и экономически оправданными. Для практиков: DeepSeek-V4 объединяет недавние достижения в масштабировании MoE, обучении с подкреплением и системной инженерии. Для инженеров и стратегов выход V4 доказывает: барьер для работы с экстремально длинным контекстом больше не упирается исключительно в железо. Его можно планомерно преодолеть с помощью алгоритмической компрессии, специализированных ядер и строгой post-training дистилляции, достигая при этом качества на уровне топовых проприетарных моделей. Глубоко искать здесь: https://t.me/gonzo_ML_podcasts/3324

Из этого канала