DeepSeek-V4：迈向高效的百万 Token 长上下文智能

作者：DeepSeek-AI 联系方式：research@deepseek.com 模型权重：https://huggingface.co/collections/deepseek-ai/deepseek-v4

本文档为 DeepSeek-V4 技术报告的中文翻译版本。原文为英文，本翻译在保留技术术语英文形式的基础上进行意译，以便中文读者理解。文中所有与其他模型的对比、上代模型的提升等关键信息均已标注和突出。

📋 摘要

DeepSeek-V4 系列是本次发布的预览版本，包含两款强大的 Mixture-of-Experts（MoE）语言模型：

DeepSeek-V4-Pro：总参数 1.6T，激活参数 49B
DeepSeek-V4-Flash：总参数 284B，激活参数 13B

两款模型均原生支持 1M（一百万）token 上下文长度。

核心架构与优化升级

DeepSeek-V4 系列在架构和优化上引入了三项关键升级：

混合注意力架构：结合 Compressed Sparse Attention（CSA，压缩稀疏注意力）和 Heavily Compressed Attention（HCA，重压缩注意力），大幅提升长上下文效率。
Manifold-Constrained Hyper-Connections（mHC，流形约束超连接）：强化传统残差连接。
Muon 优化器：收敛更快，训练稳定性更强。

训练规模

两款模型预训练数据量均超过 32T tokens（DeepSeek-V4-Flash 为 32T，DeepSeek-V4-Pro 为 33T）。
随后经过完整的后训练管线解锁并进一步增强模型能力。

🎯 与 DeepSeek-V3.2 的效率对比（1M-token 上下文）

指标	DeepSeek-V4-Pro vs V3.2	DeepSeek-V4-Flash vs V3.2
单 token 推理 FLOPs	仅为 27%（3.7× 降低）	仅为 10%（9.8× 降低）
KV Cache 大小	仅为 10%（9.5× 缩小）	仅为 7%（13.7× 缩小）

这使得 DeepSeek-V4 能够常规支持百万 token 级上下文，让长程任务和进一步的 test-time scaling 更为可行。

🏆 核心性能对比（DeepSeek-V4-Pro-Max）

在 DeepSeek-V4-Pro 的最大推理努力模式（Pro-Max）下，与顶级模型的关键对比：

基准测试	DS-V4-Pro-Max	Claude-Opus-4.6-Max	GPT-5.4-xHigh	Gemini-3.1-Pro-High
SimpleQA Verified	57.9	46.2	45.3	75.6 🥇
HLE	37.7	40.0	39.8	44.4 🥇
Apex Shortlist	90.2 🥇	85.9	78.1	89.1
Codeforces (Rating)	3206 🥇	—	3168	3052
SWE Verified (Resolved)	80.6	80.8 🥇	—	80.6
Terminal-Bench 2.0	67.9	65.4	75.1 🥇	68.5
Toolathlon	51.8	47.2	54.6 🥇	48.8

1. 引言

推理模型（DeepSeek-R1, OpenAI o 系列）的出现建立了 test-time scaling 的新范式，显著提升了大语言模型（LLM）的性能。然而，这一扩展范式从根本上受制于 vanilla attention 机制的二次计算复杂度，使超长上下文和推理过程成为难以逾越的瓶颈。

与此同时，长程任务（从复杂 agent 工作流到大规模跨文档分析）的兴起也让对超长上下文的高效支持成为未来发展的关键。尽管近期开源工作（Kimi、DeepSeek-V3、MiniMax、Qwen 等）在通用能力上有所推进，但在处理超长序列方面的核心架构效率问题仍是主要障碍，限制了 test-time scaling 的进一步收益，并阻碍了对长程任务的深入探索。

1.1 DeepSeek-V4 系列的架构创新

为打破超长上下文的效率瓶颈，我们开发了 DeepSeek-V4 系列。与 DeepSeek-V3 相比，V4 保留了以下设计：

DeepSeekMoE 框架
Multi-Token Prediction（MTP） 策略

同时引入了以下关键创新：

混合注意力机制（CSA + HCA）：CSA 在序列维度上压缩 KV cache，再执行 DeepSeek Sparse Attention（DSA）；HCA 则对 KV cache 进行更激进的压缩，但保持 dense attention。
Manifold-Constrained Hyper-Connections（mHC）：升级传统的残差连接。
Muon 优化器：提升训练收敛速度和稳定性。

1.2 基础设施优化

为支持 V4 的高效训练、推理和产品化开发，我们引入了多项基础设施优化：

MoE 模块单融合内核：在单个 kernel 中完全重叠计算、通信和内存访问。
TileLang：使用领域专用语言（DSL）平衡开发效率和运行时性能。
批次不变、确定性内核库：确保训练和推理之间的 bitwise 可复现性。
FP4 量化感知训练（QAT）：针对 MoE 专家权重和 indexer QK 路径。
训练框架扩展：包括 Muon 优化器的混合 ZeRO 策略、mHC 的 cost-effective 实现、两阶段上下文并行。
推理框架：异构 KV cache 结构与磁盘存储策略，实现高效的 shared-prefix 复用。

1.3 核心评估结果总结

知识能力：DeepSeek-V4-Pro-Max 在 SimpleQA 和 Chinese-SimpleQA 上显著超越领先开源模型。在 MMLU-Pro、HLE、GPQA 等教育知识类基准上相对开源对手略有领先。虽仍落后于 Gemini-3.1-Pro，但差距已大幅缩小。
推理能力：通过扩展推理 token，V4-Pro-Max 在标准推理基准上超越 GPT-5.2 和 Gemini-3.0-Pro，但略逊于 GPT-5.4 和 Gemini-3.1-Pro，整体发展轨迹滞后前沿模型约 3-6 个月。V4-Flash-Max 在复杂推理任务上达到了与 GPT-5.2 和 Gemini-3.0-Pro 相当的性能，是一款高性价比的架构。
Agent 能力：V4-Pro-Max 在公开基准上与 Kimi-K2.6、GLM-5.1 等领先开源模型持平，但略逊于前沿闭源模型。在内部评测中，V4-Pro-Max 超越了 Claude Sonnet 4.5，接近 Opus 4.5 水平。
长上下文：V4-Pro-Max 在 1M 上下文窗口的合成和真实用例中表现强劲，在学术基准上甚至超越了 Gemini-3.1-Pro。
Pro vs Flash：Flash-Max 因参数规模较小，在知识评估中表现稍弱；但给予更大思考预算时，在推理任务上可达到相当水平。在 agent 评测中，Flash-Max 在部分基准上与 Pro-Max 相当，但在高难度任务上仍落后。

2. 架构

DeepSeek-V4 系列整体上保留了 Transformer 架构和 MTP 模块。相比 DeepSeek-V3，关键升级有三点：

引入 mHC（Manifold-Constrained Hyper-Connections）强化残差连接；
设计混合注意力架构（CSA + HCA），大幅提升长上下文效率；
采用 Muon 优化器。

MoE 组件仍沿用 DeepSeekMoE 架构（仅对 V3 做了小幅调整）。MTP 配置与 V3 相同。其他未明确说明的细节均遵循 V3 的设置。

2.1 继承自 DeepSeek-V3 的设计

Mixture-of-Experts（MoE）

V4 系列采用 DeepSeekMoE 范式，设置细粒度路由专家 + 共享专家。与 V3 的差异：

激活函数变更：从 Sigmoid(·) 改为 Sqrt(Softplus(·)) 来计算亲和度得分。
负载均衡：采用 auxiliary-loss-free 策略，辅以序列级平衡损失，防止单序列内极端不均衡。
路由节点限制移除：V4 移除了路由目标节点数量限制，并重新设计了并行策略以维持训练效率。
Hash 路由：初始几个 Transformer block 中的 dense FFN 层被替换为采用 Hash 路由的 MoE 层，该策略根据 token ID 的哈希函数决定目标专家。

Multi-Token Prediction（MTP）

沿用 V3 策略，未做修改。

2.2 Manifold-Constrained Hyper-Connections（mHC）

mHC 是对传统残差连接的强化。相比朴素 Hyper-Connections（HC），其核心思想是将残差映射约束在特定流形上，从而在保持模型表达能力的同时提升跨层信号传播的稳定性。

标准 Hyper-Connections（HC）

HC 将残差流的宽度扩展 $n_{hc}$ 倍，从 $\mathbb{R}^d$ 扩展为 $\mathbb{R}^{n_{hc} \times d}$。它引入三个线性映射：

输入映射 $A_l \in \mathbb{R}^{1 \times n_{hc}}$
残差变换 $B_l \in \mathbb{R}^{n_{hc} \times n_{hc}}$
输出映射 $C_l \in \mathbb{R}^{n_{hc} \times 1}$

残差状态更新公式：

$$X_{l+1} = B_l X_l + C_l F_l(A_l X_l)$$

其中 $F_l$ 表示第 $l$ 层（如 MoE 层）。HC 解耦了残差宽度与实际 hidden size，提供了一个互补的扩展维度，计算开销很小。但堆叠多层后，训练常出现数值不稳定。

流形约束残差映射

mHC 的核心创新是将残差映射矩阵 $B_l$ 约束在双随机矩阵流形（Birkhoff 多面体）上：

$$B_l \in \mathcal{M} := {M \in \mathbb{R}^{n \times n} | M\mathbf{1}_n = \mathbf{1}_n, \mathbf{1}_n^T M = \mathbf{1}_n^T, M \geq 0}$$

关键性质：

谱范数 $|B_l|_2$ 被约束 ≤ 1，保证残差变换非扩张（non-expansive），提升前向传播和反向传播的数值稳定性。
集合 $\mathcal{M}$ 在乘法下封闭，保证深层堆叠的稳定性。
输入变换 $A_l$ 和输出变换 $C_l$ 通过 Sigmoid 约束为非负且有界，避免信号抵消风险。

动态参数化

三个线性映射的参数动态生成，分解为动态（依赖输入）+ 静态（不依赖输入） 两个分量。给定输入 $X_l$，先扁平化并归一化：$\hat{X}_l = \text{RMSNorm}(\text{vec}(X_l))$。然后生成未约束的原始参数：

$$\tilde{A}_l = \alpha_l^{pre} \cdot (\hat{X}_l W_l^{pre}) + S_l^{pre}$$ $$\tilde{B}_l = \alpha_l^{res} \cdot \text{Mat}(\hat{X}_l W_l^{res}) + S_l^{res}$$ $$\tilde{C}_l = \alpha_l^{post} \cdot (\hat{X}_l W_l^{post})^T + S_l^{post}$$

其中 $\alpha_l^{pre}, \alpha_l^{res}, \alpha_l^{post}$ 是初始化为小值的可学习门控因子。

参数约束应用

输入/输出映射：使用 Sigmoid 保证非负有界：$A_l = \sigma(\tilde{A}_l)$，$C_l = 2\sigma(\tilde{C}_l)$。
残差映射：通过 Sinkhorn-Knopp 算法投影到双随机矩阵流形。先应用指数函数保证正性 $M^{(0)} = \exp(\tilde{B}_l)$，然后迭代执行行列归一化：

$$M^{(t)} = T_r(T_c(M^{(t-1)}))$$

实践中选择 $t_{\max} = 20$。

2.3 混合注意力：CSA 与 HCA

当上下文长度达到极端规模时，注意力机制成为主要计算瓶颈。V4 设计了两种高效注意力架构并交错混合：

CSA（Compressed Sparse Attention）：先将每 $m$ 个 token 的 KV cache 压缩为 1 个条目，再应用 DSA（DeepSeek Sparse Attention），让每个 query token 只关注 $k$ 个压缩 KV 条目。
HCA（Heavily Compressed Attention）：更激进的压缩，将每 $m'$（$\gg m$）个 token 的 KV cache 合并为 1 个条目。

这种混合架构显著改善了长上下文效率，使得 1M token 上下文在实践中可行。

2.3.1 Compressed Sparse Attention（CSA）

压缩 KV 条目

给定输入 hidden states $H \in \mathbb{R}^{n \times d}$，CSA 首先计算两组 KV 条目和对应的压缩权重：

$$C^a = H \cdot W^{aKV}, \quad C^b = H \cdot W^{bKV}$$ $$Z^a = H \cdot W^{aZ}, \quad Z^b = H \cdot W^{bZ}$$

然后每 $m$ 个 KV 条目压缩为一个：

$$[S^a_{mi:m(i+1)-1}; S^b_{m(i-1):mi-1}] = \text{Softmax}{row}([Z^a{mi:m(i+1)-1} + B^a; Z^b_{m(i-1):mi-1} + B^b])$$

$$C_i^{\text{Comp}} = \sum_{j=mi}^{m(i+1)-1} S^a_j \odot C^a_j + \sum_{j=m(i-1)}^{mi-1} S^b_j \odot C^b_j$$

注意：每个 $C_i^{\text{Comp}}$ 派生自 $2m$ 个 KV 条目，但存在重叠，因此 CSA 实际将序列长度压缩为 $1/m$。

Lightning Indexer 稀疏选择

获得压缩 KV 条目后，CSA 应用 DSA 策略选择 top-k 条目进行核心注意力。先生成压缩 indexer keys $K^{\text{IComp}} \in \mathbb{R}^{\frac{n}{m} \times c^I}$。对于 query token $t$，以低秩方式生成 indexer queries：

$$c_t^Q = h_t \cdot W^{DQ}$$ $$[q_{t,1}^I; \ldots; q_{t,n_h^I}^I] = q_t^I = c_t^Q \cdot W^{IUQ}$$

索引得分 $I_{t,s}$ 定义为：

$$I_{t,s} = \sum_{h=1}^{n_h^I} w_{t,h}^I \cdot \text{ReLU}(q_{t,h}^I \cdot K_s^{\text{IComp}})$$

使用 top-k selector 保留稀疏 KV 条目子集用于核心注意力。

共享 KV 多查询注意力（Shared KV MQA）

选定稀疏 KV 条目后，CSA 以 MQA 方式执行核心注意力，每个压缩 KV 条目同时作为 key 和 value。query 与 indexer query 共享潜在向量 $c_t^Q$。

分组输出投影（Grouped Output Projection）

V4 中 $c \cdot n_h$ 较大，直接投影到 $d$ 维会带来巨大计算开销。设计分组投影策略：先将 $n_h$ 个输出分为 $g$ 组，每组投影到 $d_g$ 维中间输出，最后再投影到最终 $d$ 维。

2.3.2 Heavily Compressed Attention（HCA）

HCA 采用更大的压缩率 $m' \gg m$，且不执行重叠压缩：

$$C = H \cdot W^{KV}, \quad Z = H \cdot W^Z$$ $$S_{m'i:m'(i+1)-1} = \text{Softmax}{row}(Z{m'i:m'(i+1)-1} + B)$$ $$C_i^{\text{Comp}} = \sum_{j=m'i}^{m'(i+1)-1} S_j \odot C_j$$

HCA 将序列长度压缩为 $1/m'$。同样采用共享 KV MQA 和分组输出投影。

2.3.3 其他关键细节

Query 与 KV 归一化：在核心注意力之前，对 queries 的每个 head 和压缩 KV 条目的单一 head 额外执行 RMSNorm，避免注意力 logits 爆炸，提升训练稳定性。
部分旋转位置编码（Partial RoPE）：对 query 和 KV 条目向量的最后 64 维应用 RoPE。由于 KV 条目同时作为 key 和 value，核心注意力输出会携带绝对位置嵌入（来自 KV 条目的加权和）。作为应对，对每个 $o_{t,i}$ 的最后 64 维也应用位置为 $-i$ 的 RoPE，使输出携带相对位置信息。
滑动窗口注意力补充分支：为严格保留 CSA 和 HCA 的因果性，每个 query 只关注之前的压缩 KV 块，因此无法访问其自身压缩块内的其他 token 信息。而最近的 token 对 query 通常具有更高相关性。为此，CSA 和 HCA 均引入滑动窗口分支，为每个 query token 额外产生 $n_{\text{win}}$ 个未压缩 KV 条目。
Attention Sink：设置可学习的 sink logits ${z_1', \ldots, z_{n_h}'}$，其指数项加到注意力得分的分母中：

$$s_{h,i,j} = \frac{\exp(z_{h,i,j})}{\sum_k \exp(z_{h,i,k}) + \exp(z_h')}$$

允许 query head 调整总注意力得分，甚至接近 0。

2.3.4 效率讨论

由于采用混合 CSA + HCA 以及低精度计算存储，V4 注意力模块在长上下文场景中实现了卓越的效率：

混合存储格式：RoPE 维度使用 BF16，其余维度使用 FP8，相比纯 BF16 存储，KV cache 大小减半。
Lightning Indexer 中的 FP4：注意力计算在 FP4 精度下进行，加速超长上下文下的注意力操作。
更小的 top-k：相比 DeepSeek-V3.2，V4 使用更小的 top-k，提升短中长度文本的效率。
最重要的是：压缩注意力和混合注意力技术大幅降低 KV cache 大小和计算 FLOPs。

关键对比：以 BF16 GQA8（头维度 128）作为基准，V4 的 KV cache 大小在 1M 上下文下可降至基准的约 **2%**。即使与已经高效的 V3.2 相比，V4 仍有显著优势（见 Figure 1）。

2.4 Muon 优化器

V4 系列对大多数模块使用 Muon 优化器，因其收敛更快、训练更稳定。

基本配置：

AdamW：用于 embedding 模块、预测头模块、mHC 的静态偏置和门控因子、所有 RMSNorm 模块的权重。
Muon：更新其他所有模块。应用权重衰减，使用 Nesterov 技巧，对更新矩阵的 RMS 进行 rescale 以复用 AdamW 超参数。与 Liu et al. (2025) 的不同在于使用混合 Newton-Schulz 迭代进行正交化。

混合 Newton-Schulz 迭代：

Newton-Schulz 迭代的目标是将矩阵 $M = U\Sigma V^T$ 近似正交化为 $UV^T$。V4 的混合方案执行 10 次迭代、分两阶段：

前 8 步使用 $(a, b, c) = (3.4445, -4.7750, 2.0315)$ 驱动快速收敛。
后 2 步使用 $(a, b, c) = (2, -1.5, 0.5)$ 精确稳定奇异值在 1。

避免注意力 logits 爆炸：V4 的注意力架构允许直接对 query 和 KV 条目应用 RMSNorm，有效防止 logits 爆炸，因此不需要使用 QK-Clip 技术。

3. 通用基础设施

3.1 专家并行中的细粒度通信-计算重叠

MoE 可通过专家并行（EP）加速，但 EP 需要复杂的节点间通信，对互联带宽和延迟有极高要求。为缓解 EP 中的通信瓶颈，V4 提出细粒度 EP 方案，将通信和计算融合到单个流水线 kernel 中。

通信延迟可以被隐藏

V4 中，每个 MoE 层主要可分为 4 个阶段：通信绑定的 Dispatch 和 Combine，计算绑定的 Linear-1 和 Linear-2。Profiling 表明：单个 MoE 层的总通信时间小于总计算时间。因此，将通信和计算融合到统一流水线后，计算仍是主导瓶颈，意味着系统可容忍更低的互联带宽而不会降低端到端性能。

细粒度 EP 方案

进一步将专家分成多个 wave 调度。每个 wave 包含少量专家。一旦 wave 内所有专家完成通信，计算立即开始而无需等待其他专家。稳态下，当前 wave 的计算、下一 wave 的 token 传输、已完成专家的结果发送全部并发进行。

性能对比：

方案	理论加速比
Naive Solution	1.0×（基准）
Comet	1.42×
V4（本工作）	1.92× 🏆

实测数据：

一般推理工作负载：1.50–1.73× 加速。
延迟敏感场景（RL rollout、高速 agent 服务）：最高 1.96× 加速。

CUDA 版 mega-kernel 名为 MegaMoE，已开源于 DeepGEMM。

给硬件厂商的观察与建议

计算-通信比：全重叠取决于计算-通信比，而非单纯带宽。对于 DeepSeek-V4-Pro，每个 token-expert 对需 $6hd$ FLOPs（SwiGLU gate/up/down 投影），但只需 $3h$ 字节通信（FP8 Dispatch + BF16 Combine），简化为：$C/B \leq 2d = 6144$ FLOPs/Byte。即每 GBps 互联带宽足以隐藏 6.1 TFLOP/s 计算。超过此阈值后，继续增加带宽收益递减。
功耗预算：极致 kernel 融合会同时高负载驱动计算、内存、网络，功耗限流是关键性能限制。
通信原语：V4 采用 pull-based 方案，每个 GPU 主动从远程 GPU 读取数据，避免 fine-grained push 带来的高通知延迟。
激活函数：建议用低成本的 element-wise 激活函数替换 SwiGLU，避免指数和除法。

3.2 使用 TileLang 灵活高效地开发 Kernel

V4 精巧的模型架构本会产生数百个细粒度 Torch ATen 算子。V4 采用 TileLang 作为 DSL 开发一套融合 kernel 替换大部分算子，在实现最佳性能的同时降低开发工作量。

通过 Host Codegen 降低调用开销

随着加速器性能持续增长，CPU 侧编排开销越来越突出。V4 通过 Host Codegen 缓解此开销：

在 IR 级别协同生成设备 kernel 和轻量级 host launcher。
嵌入必要的元数据（数据类型、rank/shape 约束、stride/layout 假设）。
Launcher 降级为基于 TVM-FFI 的 host 源码。

实测结果：CPU 侧验证开销从数十/数百微秒降至每次调用不到 1 微秒。

SMT 求解器辅助的形式化整数分析

V4 将 Z3 SMT 求解器集成到 TileLang 的代数系统中。将 TileLang 整数表达式翻译为 Z3 的无量词非线性整数算术（QF_NIA）。在合理资源限制下，Z3 提升整体优化性能，同时将编译时开销限制在几秒内。

数值精度与 bitwise 可复现性

V4 默认优先保证精度：

编译器级关闭 fast-math 优化。
精度影响类近似仅作为显式前端算子提供（如 T.__exp、T.__log、T.__sin）。
需严格 IEEE-754 语义时，提供具有显式 rounding 模式的 IEEE-compliant intrinsics。
通过 T.annotate_layout 等布局标注，可固定 layout 相关的降级决策，保持计算和累加顺序与参考 CUDA 实现一致，实现 bit-identical 输出。

3.3 高性能批次不变性与确定性内核库

为支持高效训练和推理，V4 开发了一套高性能计算内核，除满足基本功能和硬件利用率最大化外，另一关键设计目标是保证训练可复现性以及预训练、后训练、推理管线之间的 bitwise 对齐。

批次不变性（Batch Invariance）

确保任意 token 的输出在批次中位置无关保持 bitwise 一致。主要挑战：

注意力：不能使用 split-KV 方法（会将单序列的注意力计算分布到多个 SM 上平衡负载）。放弃此技术会导致严重的 wave-quantization 问题。V4 开发了双 kernel 策略：第一个 kernel 在单个 SM 内计算整个序列的注意力输出（高吞吐）；第二个 kernel 使用多个 SM 处理最终部分填充的 wave（降低延迟）。两个 kernel 通过精心设计计算路径保证相同累加顺序，第二个 kernel 利用 thread-block cluster 内的 distributed shared memory 实现跨 SM 高速数据交换。
矩阵乘法：传统 cuBLAS 无法实现批次不变。V4 端到端替换为 DeepGEMM。对于小 batch size，传统实现常用 split-k 提升性能，但 split-k 无法保证批次不变。V4 在大多数场景放弃 split-k，并引入一组优化使矩阵乘实现在大多数主要场景下匹配甚至超越标准 split-k 性能。

确定性（Determinism）

确定性训练对调试硬件/软件问题极有帮助。当训练出现 loss spike 等异常时，确定性使研究人员更易定位数值原因。非确定性通常源于非确定性累加顺序（常由原子加指令导致），主要发生在反向传播的以下部分：

注意力反向：传统稀疏注意力反向使用 atomicAdd 累加 KV token 梯度，由于浮点加法的非结合性引入非确定性。V4 为每个 SM 分配独立累加缓冲区，再跨所有缓冲区做全局确定性求和。
MoE 反向：多个来自不同 rank 的 SM 并发向同一接收 rank 的缓冲区写入时，协商写入位置也引入非确定性。V4 在单 rank 内设计 token 顺序预处理机制，跨多 rank 采用缓冲区隔离。
mHC 矩阵乘法：mHC 涉及输出维度仅为 24 的矩阵乘法，小 batch 下必须使用 split-k。V4 让每个 split 部分单独输出，后续 kernel 进行确定性 reduction，同时保留性能和确定性。

3.4 FP4 量化感知训练

为在部署时加速推理并节省内存，V4 在后训练阶段引入 Quantization-Aware Training（QAT）。应用 FP4（MXFP4） 量化到两个组件：

MoE 专家权重（GPU 内存占用的主要来源）
CSA indexer 的 QK 路径（QK 激活完全以 FP4 缓存、加载、相乘，加速超长上下文的注意力得分计算）

此外，进一步将 index scores 从 FP32 量化到 BF16。此优化为 top-k selector 带来 2× 加速，同时保持 KV 条目 99.7% 的召回率。

MoE 专家权重

遵循 QAT 常规做法，FP32 master weight 先量化为 FP4，再反量化为 FP8 供计算使用。值得注意的是，FP4 到 FP8 的反量化是无损的（因为 FP8 E4M3 比 FP4 E2M1 多 2 个指数位，动态范围更大）。只要 FP4 子块（1×32 tile）在 FP8 量化块（128×128 tile）内的最大/最小 scale factor 比值不超过某个阈值，细粒度 scale 信息可完全被 FP8 动态范围吸收。这使整个 QAT 管线完全复用现有 FP8 训练框架，无需任何修改。

反向传播中，梯度相对于前向 FP8 权重计算，直接传递回 FP32 master 权重——等效于通过量化操作应用直通估计器（STE），也避免了重新量化转置权重。

RL 训练的推理和 rollout 阶段（不涉及反向）直接使用真实 FP4 量化权重而非模拟量化，确保采样行为与在线部署完全一致，同时减少 kernel 内存加载、显著降低内存消耗。CSA indexer 的 QK 路径也类似处理。

3.5 训练框架

训练框架基于 V3 的可扩展高效基础设施。为适配 V4 的新架构组件（Muon 优化器、mHC、混合注意力），引入了若干关键创新。

3.5.1 Muon 的高效实现

Muon 需要完整的梯度矩阵来计算参数更新，与 ZeRO 存在冲突（传统 ZeRO 为 AdamW 等 element-wise 优化器设计）。V4 设计混合 ZeRO bucket 分配策略：

Dense 参数：限制 ZeRO 并行最大尺寸，使用背包算法将参数矩阵分配给 rank，确保负载大致均衡。每个 rank 上的 bucket padding 到与最大 bucket 一致。在通常每个 rank 管理不超过 5 个参数矩阵的情况下，padding 开销 < 10%。
MoE 参数：每个专家独立优化。先扁平化所有专家所有层的 SwiGLU down 投影矩阵，然后是扁平化的 up 投影矩阵和 gate 矩阵，padding 后均匀分布到所有 rank。由于专家数量大，MoE 参数不设 ZeRO 并行限制，padding 开销可忽略。

额外优化：

同 rank 上形状相同的连续参数自动合并，使 Newton-Schulz 迭代可批量执行，提升硬件利用率。
Newton-Schulz 迭代用 BF16 矩阵乘仍稳定，因此 V4 以随机舍入方式将跨 DP rank 同步的 MoE 梯度量化到 BF16，通信量减半。
为避免低精度加法器引入的累积误差，用两阶段方法替换传统 tree/ring reduce-scatter：先 all-to-all 交换本地梯度，然后每个 rank 在 FP32 中本地求和。

3.5.2 mHC 的经济高效、内存高效实现

mHC 相比传统残差连接增加了激活内存消耗和流水线阶段间通信量。V4 实施多项优化：

融合 kernel：为训练和推理精心设计并实现 mHC 融合 kernel。
重计算策略：选择性 checkpoint 中间张量，重计算大多数层间 hidden states 和所有归一化层输入，避免重计算计算密集型操作。
DualPipe 1F1B 调整：适配增加的流水线通信，允许 mHC 中部分操作并发执行。

上述优化将 mHC 的 wall-time 开销限制在**重叠 1F1B 流水线阶段的 6.7%**。

3.5.3 长上下文注意力的 Contextual Parallelism

传统 Context Parallelism（CP）在序列维度切分，每个 rank 维护连续 $s$ 个 token。这对 V4 的压缩注意力（CSA、HCA）引入两个挑战：

训练样本由多序列打包，每序列以因子 $m$ 独立压缩，尾部少于 $m$ 的 token 被丢弃。因此压缩后 KV 长度通常少于 $s/m$，且在 rank 间不同。
压缩需要 $m$ 个连续 KV 条目，可能跨越 CP rank 边界。

V4 设计两阶段通信方案：

第一阶段：每个 rank $i$ 将最后 $m$ 个未压缩 KV 条目发送给 rank $i+1$。rank $i+1$ 压缩部分接收条目与其本地 $s$ 个未压缩 KV 条目，产生固定长度 $s/m + 1$ 个压缩条目（含部分 padding）。
第二阶段：all-gather 收集所有 CP rank 的本地压缩 KV 条目。融合的 select-and-pad 算子将其重组为总长度 $\text{cp_size} \cdot s/m$ 的完整压缩 KV 条目集，padding 条目置于尾部。

3.5.4 扩展自动微分以灵活激活检查点

传统激活 checkpoint 实现以整个模块为粒度，导致重计算成本和激活内存之间的次优权衡。另一种方案是手动实现整层前向后向逻辑，虽精细但失去 autograd 便利性。

V4 实现张量级激活 checkpoint 机制并支持自动微分：

开发者只需实现前向传播，并选择性标注需要自动 checkpoint 和重计算的张量。
框架利用 TorchFX 追踪完整计算图，对每个标注张量反向遍历识别最小重计算子图，定义为重计算图并插入到反向逻辑中相应梯度计算之前。
重计算通过直接释放标注张量的 GPU 内存并复用重计算张量的存储指针实现，无 GPU 内存拷贝。
由于图追踪具体执行模型，可追踪每个张量的底层存储指针，实现共享存储张量（如 reshape 的输入输出）重计算的自动去重。

3.6 推理框架

推理框架基本继承自 V3，主要差异在 KV Cache 管理上。

3.6.1 KV Cache 结构与管理

V4 中的异构 KV 条目：

Lightning Indexer 引入的维度（embedding size 与主注意力不同）
CSA 和 HCA 的压缩技术将序列长度分别缩减为 $1/m$ 和 $1/m'$，导致各层 KV cache 大小不同
SWA（Sliding Window Attention）层有独立 KV cache 大小、命中和驱逐策略
压缩分支中，每 $m$ 个 token 生成一个 KV 条目；剩余不足的 token 必须保留在 buffer 中直到可执行压缩操作

挑战：混合注意力违反 PagedAttention 及其变体的基本假设。即使最近的 Jenga、Hymba 等针对一般混合注意力模型或特定结构，仍存在两个主要障碍：

多样的缓存策略（如 SWA）
高性能注意力 kernel 的约束（如对齐要求）

V4 的解决方案：

SWA 与未压缩尾 token 的状态缓存：将 SWA 和压缩分支的未压缩尾 token 视为状态空间模型，其 KV cache 是依赖当前位置的序列特定状态。预分配固定大小的状态缓存池，动态分配给每个序列。
稀疏注意力内核协同设计：通过高性能稀疏注意力 kernel，不同层可支持每 block 可变 token 数而不损失性能。对于压缩率 $m$ 的 CSA 和 $m'$ 的 HCA，每 block 原始 token 数可以是 $\text{lcm}(m, m')$ 的任意倍数。

3.6.2 磁盘 KV Cache 存储

服务 V4 时，利用磁盘 KV cache 存储消除 shared-prefix 请求的重复 prefill。

CSA/HCA 压缩 KV 条目：直接存储所有压缩 KV 条目。命中时读取并复用对应前缀的压缩 KV 条目，直到最后一个完整压缩块。尾部不完整块的前缀 token 仍需重计算以恢复未压缩 KV 条目。

SWA KV 条目：由于未压缩且存在于每一层，体积约比压缩 CSA/HCA KV 条目大 8 倍。V4 设计三种策略权衡存储开销和计算冗余：

策略	存储	计算	说明
Full SWA Caching	存储所有 token 的 SWA KV	零冗余计算	对现代 SSD 存储低效，写密集访问不均衡
Periodic Checkpointing	每 $p$ 个 token 检查一次 SWA KV	加载+尾部重计算	通过 $p$ 可调节存储计算权衡
Zero SWA Caching	不存储 SWA KV	最大重计算（最后 $n_{\text{win}} \cdot L$ 个 token）	利用缓存的 CSA/HCA KV 恢复 SWA KV

根据具体部署场景选择最合适策略。

4. 预训练

4.1 数据构建

在 V3 预训练数据的基础上，V4 构建了更多样化、更高质量、有效上下文更长的训练语料：

网络数据：实施过滤策略移除批量自动生成和模板化内容，降低模型崩塌（model collapse）风险。
数学和编程语料：核心组成部分，并通过在 mid-training 阶段引入 agentic 数据进一步增强编码能力。
多语言数据：为 V4 构建更大语料库，改善对不同文化长尾知识的捕获。
长文档数据：V4 特别强调长文档数据策划，优先选择科学论文、技术报告等反映独特学术价值的材料。

总规模：预训练语料超过 32T tokens。

Tokenizer：在 V3 tokenizer 基础上引入少量特殊 token 用于上下文构造，词表大小仍为 128K。继承 V3 的 token-splitting 和 Fill-in-Middle（FIM）策略。与 V3 不同的是，V4 在预训练中采用样本级注意力掩码。

4.2 预训练设置

4.2.1 模型设置

DeepSeek-V4-Flash

项	值
Transformer 层数	43
Hidden 维度 $d$	4096
前 2 层	纯滑动窗口注意力
后续层	CSA 与 HCA 交错
CSA 压缩率 $m$	4
CSA indexer query head 数 $n_h^I$	64
CSA indexer head 维度 $c^I$	128
CSA attention top-k	512
HCA 压缩率 $m'$	128
Query head 数 $n_h$	64
Head 维度 $c$	512
Query 压缩维度 $d_c$	1024
输出投影分组数 $g$	8
中间注意力输出维度 $d_g$	1024
滑动窗口大小 $n_{\text{win}}$	128
共享专家数	1
路由专家数	256
每个专家中间 hidden 维度	2048
每 token 激活专家数	6
MTP 深度	1
前 3 个 MoE 层	Hash 路由
mHC 扩展因子 $n_{hc}$	4
Sinkhorn-Knopp 迭代数	20
总参数 / 激活参数	284B / 13B

DeepSeek-V4-Pro

项	值
Transformer 层数	61
Hidden 维度 $d$	7168
前 2 层	HCA
后续层	CSA 与 HCA 交错
CSA 压缩率 $m$	4
CSA indexer query head 数 $n_h^I$	64
CSA indexer head 维度 $c^I$	128
CSA attention top-k	1024
HCA 压缩率 $m'$	128
Query head 数 $n_h$	128
Head 维度 $c$	512
Query 压缩维度 $d_c$	1536
输出投影分组数 $g$	16
中间注意力输出维度 $d_g$	1024
滑动窗口大小 $n_{\text{win}}$	128
共享专家数	1
路由专家数	384
每个专家中间 hidden 维度	3072
每 token 激活专家数	6
MTP 深度	1
前 3 个 MoE 层	Hash 路由
mHC 扩展因子 $n_{hc}$	4
Sinkhorn-Knopp 迭代数	20
总参数 / 激活参数	1.6T / 49B

4.2.2 训练设置

DeepSeek-V4-Flash：

优化器：大部分参数用 Muon，embedding/prediction head/RMSNorm 权重用 AdamW。
AdamW 超参：$\beta_1 = 0.9, \beta_2 = 0.95, \varepsilon = 10^{-20}$, weight_decay = 0.1。
Muon：动量 0.95，权重衰减 0.1，rescale 每个更新矩阵的 RMS 为 0.18。
训练数据：32T tokens。
Batch size：从小值调度到 75.5M tokens，在大部分训练中维持。
学习率：前 2000 步线性 warmup，大部分训练维持在 $2.7 \times 10^{-4}$，最后按 cosine schedule 衰减到 $2.7 \times 10^{-5}$。
序列长度：从 4K 逐步扩展到 16K、64K、1M。
稀疏注意力策略：前 1T tokens 使用 dense 注意力 warmup，在 64K 序列长度引入稀疏注意力并保持到训练结束。
辅助无损负载均衡 bias 更新速度：0.001。
平衡损失权重：0.0001。
MTP 损失权重：大部分训练为 0.3，学习率衰减开始时设为 0.1。

DeepSeek-V4-Pro：

设置与 Flash 基本一致，差异项：
- 训练数据：33T tokens
- 最大 batch size：94.4M tokens
- 峰值学习率：$2.0 \times 10^{-4}$，结束学习率：$2.0 \times 10^{-5}$
- dense 注意力阶段更长
其余与 Flash 相同（起始序列 4K → 16K → 64K → 1M）。

4.2.3 缓解训练不稳定性

训练万亿参数 MoE 模型面临显著稳定性挑战，V4 也不例外。经验性地发现 spike 的发生始终与 MoE 层中的 outlier 相关，路由机制本身似乎加剧这些 outlier 的出现。因此 V4 从两个维度应对：打破路由引起的恶性循环，直接抑制异常值。

Anticipatory Routing（预期路由）

解耦骨干网络和路由网络的同步更新显著提升训练稳定性。在第 $t$ 步，使用当前网络参数 $\theta_t$ 进行特征计算，但路由索引使用历史网络参数 $\theta_{t-\Delta t}$ 计算和应用。为避免两次加载模型参数的开销，在第 $t - \Delta t$ 步提前获取第 $t$ 步的数据，"预期性" 地计算并缓存路由索引。

基础设施级优化：

仔细编排流水线执行和计算与 EP 通信的重叠，Anticipatory Routing 的**额外 wall-clock 开销约为 20%**。
引入自动检测机制：仅在 loss spike 时触发短暂回滚并激活 Anticipatory Routing，运行一段时间后恢复标准训练。动态应用使得可以以可忽略的额外训练开销避免 loss spike，且不损害模型性能。

SwiGLU Clamping

在 V4-Flash 和 V4-Pro 训练中，将 SwiGLU 的线性分量 clamp 到 [-10, 10]，gate 分量上限封顶为 10。经验证明这有效消除 outlier，显著稳定训练过程，且不损害性能。

4.3 评估

4.3.1 评估基准

世界知识：AGIEval、C-Eval、CMMLU、MMLU、MMLU-Redux、MMLU-Pro、MMMLU、MultiLoKo、Simple-QA verified、SuperGPQA、FACTS Parametric、TriviaQA
语言理解与推理：BBH、DROP、HellaSwag、CLUEWSC、WinoGrande
编程与数学：BigCodeBench、HumanEval、GSM8K、MATH、MGSM、CMath
长上下文：LongBench-V2

4.3.2 评估结果 🏆

Table 1：Base 模型对比

差距在 0.3 以内视为同水平。粗体为最高分，下划线为第二。

基准（指标）	# Shots	V3.2 Base (671B / 37B)	V4-Flash Base (284B / 13B)	V4-Pro Base (1.6T / 49B)
🌍 世界知识
AGIEval (EM)	0-shot	80.1	82.6	83.1
MMLU (EM)	5-shot	87.8	88.7	90.1
MMLU-Redux (EM)	5-shot	87.5	89.4	90.8
MMLU-Pro (EM)	5-shot	65.5	68.3	73.5
MMMLU (EM)	5-shot	87.9	88.8	90.3
C-Eval (EM)	5-shot	90.4	92.1	93.1
CMMLU (EM)	5-shot	88.9	90.4	90.8
MultiLoKo (EM)	5-shot	38.7	42.2	51.1
Simple-QA verified (EM)	25-shot	28.3	30.1	55.2
SuperGPQA (EM)	5-shot	45.0	46.5	53.9
FACTS Parametric (EM)	25-shot	27.1	33.9	62.6
TriviaQA (EM)	5-shot	83.3	82.8	85.6
🔤 语言理解与推理
BBH (EM)	3-shot	87.6	86.9	87.5
DROP (F1)	1-shot	88.2	88.6	88.7
HellaSwag (EM)	0-shot	86.4	85.7	88.0
WinoGrande (EM)	0-shot	78.9	79.5	81.5
CLUEWSC (EM)	5-shot	83.5	82.2	85.2
💻 编程与数学
BigCodeBench (Pass@1)	3-shot	63.9	56.8	59.2
HumanEval (Pass@1)	0-shot	62.8	69.5	76.8
GSM8K (EM)	8-shot	91.1	90.8	92.6
MATH (EM)	4-shot	60.5	57.4	64.5
MGSM (EM)	8-shot	81.3	85.7	84.4
CMath (EM)	3-shot	92.6	93.6	90.9
📜 长上下文
LongBench-V2 (EM)	1-shot	40.2	44.7	51.5

🔍 关键对比结论

V4-Flash-Base vs V3.2-Base（激活和总参数都显著更少）：

⭐ 尽管参数规模大幅缩减（激活 13B vs 37B，总计 284B vs 671B），V4-Flash-Base 在大多数基准上仍超越 V3.2-Base，在世界知识和长上下文场景中优势尤为明显。架构改进、数据质量提升和训练优化让更精简的参数预算下交付了更优性能。

V4-Pro-Base vs V3.2-Base / V4-Flash-Base：

🏆 V4-Pro-Base 几乎全方位领先，在几乎所有类别中表现出显著提升，在最具挑战性的基准上达到 DeepSeek base 模型的新高。在知识密集型评估中提升尤为显著，在长上下文理解方面也有实质性进步。在大多数推理和代码基准上也超越前两者。这证实 V4-Pro-Base 是 DeepSeek 系列最强的基础模型。

5. 后训练

5.1 后训练管线

在预训练之后进行后训练以产出 V4 系列最终模型。训练管线大体沿用 V3.2，但做了关键方法替换：混合 RL 阶段被完全替换为 On-Policy Distillation（OPD，策略内蒸馏）。

5.1.1 专家训练（Specialist Training）

每个领域模型通过初始 fine-tuning + RL 顺序优化：

RL 阶段使用 GRPO（Group Relative Policy Optimization）算法。
超参与 DeepSeek-R1、V3 系列保持一致。

推理努力（Reasoning Efforts）

V4-Pro 和 V4-Flash 均支持三种推理努力模式。每种模式在 RL 训练中施加不同的长度惩罚和上下文窗口，产生不同长度的推理输出。使用 <think> 和 </think> 标签划分推理内容。

推理模式	特征	典型场景	响应格式
Non-think	基于习惯或简单规则的快速直觉响应	日常任务、紧急反应、低风险决策	`</think> summary`
Think High	有意识的逻辑分析，较慢但更准确	复杂问题解决、规划、中等风险决策	`<think> thinking tokens </think> summary`
Think Max	将推理推到极致，慢但强大	探索模型推理能力边界	1. 系统提示开头的特殊指令；2. `<think> thinking tokens </think> summary`

Think Max 的系统提示注入指令（翻译摘要）：

推理努力：绝对最大，不允许走捷径。你必须非常彻底地思考并全面分解问题以解决根本原因，针对所有潜在路径、边缘情况和对抗场景严格压力测试你的逻辑。明确写出整个推理过程，记录每个中间步骤、考虑的备选方案和被拒绝的假设，确保没有任何假设未经检验。

生成式奖励模型（Generative Reward Model, GRM）

对于难以验证的任务，V4 摒弃传统的标量奖励模型，转而策划 rubric-guided RL 数据并使用 GRM 评估策略轨迹。关键创新：RL 优化直接应用于 GRM 本身。

Actor 网络原生充当 GRM，联合优化模型的评估（判断）能力与标准生成能力。
统一这两个角色后，模型内部推理能力自然融入评估过程，得到高度稳健的评分。
此方法只需极少量多样化的人工标注即可实现优异性能。

工具调用 Schema 与特殊 Token

V4 使用专用 <think></think> 标签划分推理路径。V4 引入了新的工具调用 schema，采用 |DSML| 特殊 token 和基于 XML 的格式。实验表明 XML 格式有效减少转义失败并降低工具调用错误，为模型-工具交互提供更健壮的接口。

交错思考（Interleaved Thinking）

V3.2 引入了跨工具结果轮次保留推理追踪但在新用户消息到来时丢弃的上下文管理策略。这在复杂 agent 工作流中仍会造成不必要的 token 浪费——每次新用户轮次都会清空所有累积推理内容，强迫模型重建问题解决状态。

V4 利用 1M token 上下文窗口的扩展，进一步优化此机制：

工具调用场景：所有推理内容在整个对话中完整保留，包括跨用户消息边界。这让模型在长程 agent 任务中维持连贯、累积的思维链。
一般对话场景：保留原策略，新用户消息到来时丢弃之前轮次的推理内容，上下文保持简洁。

⚠️ 对于通过用户消息模拟工具交互的 agent 框架（如 Terminus），可能不触发工具调用上下文路径，无法受益于增强的推理持久性。V4 建议此类架构使用 non-think 模型。

Quick Instruction（快速指令）

在 chatbot 场景中，许多辅助任务（判断是否触发 Web 搜索、意图识别等）必须在生成响应前执行，传统由独立小模型处理，存在冗余 prefill。V4 引入 Quick Instruction：

直接将一组专用特殊 token 附加到输入序列，每个 token 对应特定辅助任务。通过直接复用已计算的 KV cache，完全避免冗余 prefill，允许某些任务（如生成搜索查询、判断权威性和领域）并行执行。这显著降低用户感知的 TTFT（time-to-first-token），并消除维护额外小模型的工程开销。

支持的 Quick Instruction 特殊 token：

特殊 Token	说明
`<	action
`<	title
`<	query
`<	authority
`<	domain
`<	extracted_url

5.1.2 On-Policy Distillation（OPD）

通过专门 fine-tuning 和 RL 训练出多个领域专家后，V4 采用多教师 OPD 作为将专家能力合并到最终模型的主要技术。学生通过在自己生成的轨迹上学习教师模型的输出分布实现。

给定 $N$ 个专家模型集合 ${\pi_{E_1}, \ldots, \pi_{E_N}}$，OPD 目标函数定义为：

$$\mathcal{L}{\text{OPD}}(\theta) = \sum{i=1}^{N} w_i \cdot D_{\text{KL}}(\pi_\theta | \pi_{E_i})$$

其中 $w_i$ 是每个专家的权重（通常由相对重要性决定）。计算反向 KL 损失需要从学生 $\pi_\theta$ 采样训练轨迹以维持 on-policy 学习。统一策略 $\pi_\theta$ 会选择性地从与当前任务上下文相关的专家学习（如数学推理任务对齐数学专家，编程任务对齐编程专家）。通过此机制，来自物理上不同专家权重的知识通过 logits 级对齐整合到统一参数空间中，实际规避了传统权重合并或混合 RL 技术中常遇到的性能退化。

此阶段使用超过 10 个覆盖各领域的教师模型蒸馏单个学生模型。

与先前工作将完整词表 KL 损失简化为 token 级 KL 估计的做法不同，V4 采用 完整词表 logit 蒸馏。保留完整 logit 分布计算反向 KL 损失可以产生更稳定的梯度估计，并忠实蒸馏教师知识。

5.2 RL 和 OPD 基础设施

5.2.1 FP4 量化集成

将 FP4（MXFP4）量化应用于加速 rollout 和所有仅推理的前向（包括教师和参考模型），减少内存流量和采样延迟。rollout 和推理阶段直接使用原生 FP4 权重；训练步骤通过无损 FP4 到 FP8 反量化模拟 FP4 量化，无需修改反向管线。

5.2.2 完整词表 OPD 的高效教师调度

V4 框架支持完整词表 OPD，理论上教师数量不受限制，每个教师可能有万亿参数。技术细节：

权重卸载：所有教师权重卸载到集中式分布式存储，在教师前向时按需加载，采用 ZeRO 样参数分片减轻 I/O 和 DRAM 压力。
Hidden state 缓存：由于词表 $|V| > 100k$，同时为所有教师物化 logits 成本过高（即使 spool 到磁盘也不行）。V4 前向时仅在集中式缓冲区缓存最后一层教师 hidden states，训练时通过对应 prediction head 模块实时重构完整 logits。重计算开销可忽略，完全规避显式 logits 物化的内存负担。
教师调度：按教师索引排序训练样本分发，确保每个不同教师 head 每个 mini-batch 只加载一次，任何时刻至多一个教师 head 驻留设备内存。
异步 I/O：所有参数和 hidden state 加载/卸载操作在后台异步进行，不阻塞关键路径计算。
KL 计算：使用专用 TileLang kernel 计算教师-学生 logits 间的精确 KL 散度，加速计算并减少动态内存分配。

5.2.3 可抢占且容错的 Rollout 服务

GPU 集群采用集群范围抢占式任务调度器，任何运行任务可随时被抢占。V4 实现 token 粒度的 Write-Ahead Log（WAL）：

每次为请求生成新 token 立即追加到该请求的 WAL。
抢占时暂停推理引擎，保存未完成请求的 KV cache。
恢复时使用持久化的 WAL 和保存的 KV cache 继续解码。
发生致命硬件错误时，可使用 WAL 中持久化的 token 重新运行 prefill 阶段重建 KV cache。

重要原理：从头重新生成未完成请求在数学上不正确（会引入长度偏差——较短响应更可能在中断后幸存，使模型在中断发生时更倾向产生较短序列）。

5.2.4 百万 Token 上下文的 RL 框架扩展

针对百万 token 序列的高效 RL 和 OPD 目标优化：

rollout 阶段采用可抢占容错服务（见 5.2.3）。
推理训练阶段，将 rollout 数据格式分解为轻量级元数据和重型每 token 字段。数据分发时，加载整个 rollout 数据的元数据执行全局 shuffle 和 packing layout 计算。
重型每 token 字段通过共享内存数据加载器加载，消除节点内数据冗余，在 mini-batch 粒度消费时立即释放，大幅降低 CPU 和 GPU 内存压力。
设备上 mini-batch 数量根据工作负载动态确定，在计算吞吐和 I/O 重叠间高效权衡。

5.2.5 Agentic AI 的沙箱基础设施

为满足后训练和评估中 agentic AI 的多样化执行需求，V4 构建了生产级沙箱平台 DSec（DeepSeek Elastic Compute）。

DSec 由三个 Rust 组件构成：Apiserver（API 网关）、Edge（每主机代理）、Watcher（集群监控器）。通过自定义 RPC 协议互连，在 3FS 分布式文件系统上水平扩展。生产中单个 DSec 集群管理数十万并发沙箱实例。

DSec 的 4 项核心设计：

一个统一接口背后的四个执行基底：Python SDK libdsec 抽象 4 种基底：
- Function Call：派发无状态调用到预热容器池，消除冷启动开销。
- Container：完全 Docker 兼容，利用 EROFS 按需加载实现高效镜像组装。
- microVM：基于 Firecracker，为安全敏感高密度部署添加 VM 级隔离。
- fullVM：基于 QEMU，支持任意客户操作系统。
- 四者共享通用 API surface（命令执行、文件传输、TTY 访问），切换只需参数更改。
通过分层存储实现快速镜像加载：
- 容器：基础镜像和文件系统提交存储为 3FS 支持的只读 EROFS 层，直接挂载到 overlay lowerdirs。文件元数据在挂载时在本地磁盘立即可用；数据块按需从 3FS 获取。
- microVM：使用 overlaybd 磁盘格式。只读基础层驻留在 3FS 上供跨实例共享，写入本地 copy-on-write 层。
大规模并发下的密度优化：
- 缓解虚拟化环境中重复的 page-cache 占用，并应用内存回收实现安全超分配。
- 缓解容器运行时中的 spinlock 竞争，降低每沙箱 CPU 开销，显著提高每主机打包密度。
轨迹日志和抢占安全恢复：每个沙箱维护全局有序轨迹日志，持久记录每次命令调用及结果。三个用途：
- 客户端快速前进：训练任务被抢占时沙箱资源保留，恢复时 DSec 重放先前完成命令的缓存结果加速恢复。
- 细粒度溯源：每个状态变化的来源和对应结果可追溯。
- 确定性回放：任何历史会话可从其轨迹忠实复现。

5.3 标准基准评估

5.3.1 评估设置

知识与推理数据集：MMLU-Pro、GPQA、Human Last Exam（HLE）、Simple-QA Verified、Chinese-SimpleQA、LiveCodeBench-v6、CodeForces（内部基准）、HMMT 2026 Feb、Apex、Apex Shortlist、IMOAnswerBench、PutnamBench。

代码 Codeforces：

收集 2025 年 5 月至 11 月的 14 场 Codeforces Division 1 比赛，共 114 道题。
每题生成 32 个候选方案。
每题独立采样 10 个方案（不放回），随机排序形成提交序列，由领域专家构建的测试套件判题。
采用 OpenAI 的惩罚方案：解题得分为同样失败次数前提下通过同题目的人类参与者的中位数得分。
通过 Codeforces 标准评级系统转换为评级。

推理与知识任务设置：温度 1.0，上下文窗口分别设为 8K（Non-think）、128K（High）、384K（Max）。

数学任务（HMMT、IMOAnswerBench、Apex、HLE）使用模板：

"{question}\nPlease reason step by step, and put your final answer within \boxed{}."

对 V4-Pro-Max 数学任务使用更深推理的模板，要求严格证明。

形式数学任务：在 Lean v4.28.0-rc1 的 agentic 设置下评估，访问 Lean 编译器和语义战术搜索引擎，最多 500 次工具调用，最大推理努力。附加计算密集型管线：候选自然语言方案先由自验证生成和过滤，保留的方案作为指导提供给形式 agent 证明对应 Lean 陈述。

⚠️ 注：K2.6 和 GLM-5.1 的某些条目留空，因其 API 太忙未响应查询。

1M Token 上下文评估：使用 OpenAI MRCR 和 CorpusQA 作为基准。在相同配置下重新评估了 Claude Opus 4.6 和 Gemini 3.1 Pro。GPT-5.4 因 API 对大量查询无响应未评估。

Agent 数据集：Terminal Bench 2.0、SWE-Verified、SWE Multilingual、SWE-Pro、BrowseComp、MCPAtlas 公开评估集、GDPval-AA、Tool-Decathlon。

代码 agent 任务：使用内部开发框架，仅提供最小工具集（bash 工具 + 文件编辑工具），最大交互步数 500，最大上下文 512K tokens。在 Terminal-Bench 2.0 Verified 子集上，V4-Pro 得分约 72.0。
搜索 agent 任务：使用内部 harness，websearch + Python 工具，最大交互步数 500，最大上下文 512K。BrowseComp 使用与 V3.2 相同的 discard-all 上下文管理策略。

5.3.2 评估结果 🏆

Table 6：DeepSeek-V4-Pro-Max vs 闭源/开源领先模型

🥇 粗体为最佳，下划线为第二。"Max"、"xHigh"、"High" 表示推理努力等级。

基准 (指标)	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High	K2.6 Thinking	GLM-5.1 Thinking	DS-V4-Pro Max
🧠 知识与推理
MMLU-Pro (EM)	89.1	87.5	91.0 🥇	87.1	86.0	87.5
SimpleQA-Verified (Pass@1)	46.2	45.3	75.6 🥇	36.9	38.1	57.9
Chinese-SimpleQA (Pass@1)	76.4	76.8	85.9 🥇	75.9	75.0	84.4
GPQA Diamond (Pass@1)	91.3	93.0	94.3 🥇	90.5	86.2	90.1
HLE (Pass@1)	40.0	39.8	44.4 🥇	36.4	34.7	37.7
LiveCodeBench (Pass@1)	88.8	—	91.7	89.6	—	93.5 🥇
Codeforces (Rating)	—	3168	3052	—	—	3206 🥇
HMMT 2026 Feb (Pass@1)	96.2	97.7 🥇	94.7	92.7	89.4	95.2
IMOAnswerBench (Pass@1)	75.3	91.4 🥇	81.0	86.0	83.8	89.8
Apex (Pass@1)	34.5	54.1	60.9 🥇	24.0	11.5	38.3
Apex Shortlist (Pass@1)	85.9	78.1	89.1	75.5	72.4	90.2 🥇
LongMRCR 1M (MMR)	92.9 🥇	—	76.3	—	—	83.5
CorpusQA 1M (ACC)	71.7 🥇	—	53.8	—	—	62.0
🤖 Agentic
Terminal Bench 2.0 (Acc)	65.4	75.1 🥇	68.5	66.7	63.5	67.9
SWE Verified (Resolved)	80.8 🥇	—	80.6	80.2	—	80.6
SWE Pro (Resolved)	57.3	57.7	54.2	58.6 🥇	58.4	55.4
SWE Multilingual (Resolved)	77.5 🥇	—	—	76.7	73.3	76.2
BrowseComp (Pass@1)	83.7	82.7	85.9 🥇	83.2	79.3	83.4
HLE w/ tools (Pass@1)	53.1	52.0	51.6	54.0 🥇	50.4	48.2
GDPval-AA (Elo)	1619	1674 🥇	1314	1482	1535	1554
MCPAtlas Public (Pass@1)	73.8 🥇	67.2	69.2	66.6	71.8	73.6
Toolathlon (Pass@1)	47.2	54.6 🥇	48.8	50.0	40.7	51.8

Table 7：V4-Flash 和 V4-Pro 不同模式对比

基准（指标）	V4-Flash Non-Think	V4-Flash High	V4-Flash Max	V4-Pro Non-Think	V4-Pro High	V4-Pro Max
🧠 知识与推理
MMLU-Pro (EM)	83.0	86.4	86.2	82.9	87.1	87.5
SimpleQA-Verified (Pass@1)	23.1	28.9	34.1	45.0	46.2	57.9
Chinese-SimpleQA (Pass@1)	71.5	73.2	78.9	75.8	77.7	84.4
GPQA Diamond (Pass@1)	71.2	87.4	88.1	72.9	89.1	90.1
HLE (Pass@1)	8.1	29.4	34.8	7.7	34.5	37.7
LiveCodeBench (Pass@1-COT)	55.2	88.4	91.6	56.8	89.8	93.5
Codeforces (Rating)	—	2816	3052	—	2919	3206
HMMT 2026 Feb (Pass@1)	40.8	91.9	94.8	31.7	94.0	95.2
IMOAnswerBench (Pass@1)	41.9	85.1	88.4	35.3	88.0	89.8
Apex (Pass@1)	1.0	19.1	33.0	0.4	27.4	38.3
Apex Shortlist (Pass@1)	9.3	72.1	85.7	9.2	85.5	90.2
📜 长上下文
MRCR 1M (MMR)	37.5	76.9	78.7	44.7	83.3	83.5
CorpusQA 1M (ACC)	15.5	59.3	60.5	35.6	56.5	62.0
🤖 Agentic
Terminal Bench 2.0 (Acc)	49.1	56.6	56.9	59.1	63.3	67.9
SWE Verified (Resolved)	73.7	78.6	79.0	73.6	79.4	80.6
SWE Pro (Resolved)	49.1	52.3	52.6	52.1	54.4	55.4
SWE Multilingual (Resolved)	69.7	70.2	73.3	69.8	74.1	76.2
BrowseComp (Pass@1)	—	53.5	73.2	—	80.4	83.4
HLE w/ tools (Pass@1)	—	40.3	45.1	—	44.7	48.2
MCPAtlas Public (Pass@1)	64.0	67.4	69.0	69.4	74.2	73.6
GDPval-AA (Elo)	—	—	1395	—	—	1554
Toolathlon (Pass@1)	40.7	43.5	47.8	46.3	49.0	51.8

🔍 结果深度解读

🌍 知识评估：

V4-Pro-Max 在 SimpleQA-Verified 上领先所有开源基线 20 绝对百分点，但仍落后领先闭源模型 Gemini-3.1-Pro。
在教育知识和推理（MMLU-Pro、GPQA、HLE）上，V4-Pro-Max 略超 Kimi 和 GLM，但落后顶级闭源模型。
V4-Pro-Max 标志着开源模型世界知识能力的重大里程碑。
V4-Flash 在知识任务上与 V4-Pro 存在明显差距（符合预期，参数越大知识保留越多）；更高推理努力可提升两者在知识基准的表现。

🧮 推理能力：

V4-Pro-Max 在推理基准上超越所有先前开源模型，在许多指标上匹配 SOTA 闭源模型。
V4-Flash-Max 在代码和数学推理任务上超越了之前最佳开源模型 K2.6-Thinking。
在编程竞赛中，V4-Pro 和 V4-Flash 表现出色。性能与 GPT-5.4 相当——这是开源模型首次在此任务上匹配闭源模型。
V4-Pro-Max 在 Codeforces 排行榜上当前排名人类选手中第 23 位。
V4 在形式数学任务上也表现强劲，在 agentic 设置下 SOTA，超越 Seed Prover 等先前模型；在计算密集型管线下进一步提升，超越 Aristotle 等系统。

Figure 8：形式推理对比

实用体制（Putnam-200 Pass@8）：

模型	得分
Seed-1.5-Prover	26.50
Gemini-3-Pro	26.50
Seed-2.0-Pro	35.50
DeepSeek-V4-Flash-Max	81.00 🏆

前沿体制（Putnam-2025，混合形式-非形式推理）：

模型	得分
Aristotle	100/120
Seed-1.5-Prover	110/120
Axiom	120/120
DeepSeek-V4	120/120 🏆

🤖 Agent 能力：

V4-Pro 在代码 agent 任务上与 K2.6 和 GLM-5.1 相当，但所有开源模型仍落后闭源对手。
V4-Flash 在编程任务上弱于 V4-Pro，特别是 Terminal Bench 2.0。
V4-Pro 在 MCPAtlas 和 Toolathlon（包含大量工具和 MCP 服务的评估测试集）上表现良好，表明 V4 具有卓越的泛化能力，不只在内部框架上表现好。

📜 1M Token 上下文：

V4-Pro 在 MRCR 任务（测量上下文检索）上超越 Gemini-3.1-Pro，但仍落后 Claude Opus 4.6。
128K 以内上下文检索性能高度稳定。超过 128K 后出现性能下降，但 1M token 下的检索能力与闭源和开源对手相比仍非常强。
与 MRCR 不同，CorpusQA 更接近真实场景。在该基准上 V4-Pro 也优于 Gemini-3.1-Pro。

⚡ 推理努力：

Max 模式（使用更长上下文和 RL 中更低长度惩罚）在最具挑战性任务上超越 High 模式。
通过扩展 test-time 计算，V4 相对前代实现显著提升。
在 HLE 等推理任务上，V4-Pro 展现出比 V3.2 更高的 token 效率。

5.4 真实世界任务性能

标准化基准常难以捕获多样真实任务的复杂性，造成测试结果与实际用户体验的差距。V4 开发了专有内部指标，优先关注真实使用模式。

5.4.1 中文写作

功能写作（Table 12 摘要）

V4-Pro vs Gemini-3.1-Pro（Gemini-3.1-Pro 是 V4 评估中外部模型中文写作表现最佳的）：

大类	样本数	DS 胜率	Gemini 胜率	平局
办公文本	1349	65.16%	32.32%	2.52%
媒体文本	666	57.96%	38.44%	3.60%
生活文本	390	69.49%	25.90%	4.62%
口头文本	319	58.62%	37.62%	3.76%
公文文本	230	54.78%	42.17%	3.04%
学术文本	216	63.43%	32.87%	3.70%
总计	3170	62.65% 🏆	34.10%	3.25%

📝 V4-Pro 以 62.65% 总体胜率击败 Gemini-3.1-Pro。主要因为 Gemini 在中文写作场景下有时会让其固有的风格偏好凌驾于用户的明确需求之上。

创意写作（Table 13 摘要）

沿两个维度评估：指令遵循和写作质量。

维度	V4-Pro 胜率	Gemini 胜率	平局
指令遵循	60.03%	39.44%	0.53%
写作质量	77.48% 🏆	22.35%	0.18%

✨ V4-Pro 在指令遵循上略有提升，在写作质量上大幅领先。

挑战性提示（Table 14）

V4-Pro vs Claude-Opus-4.5（复杂指令跟随和多轮写作）：

类别	#	V4-Pro 胜	Opus 胜	平局	V4-Pro%	Opus%	平局%
复杂指令跟随	49	23	26	0	46.9%	53.1%	0.0%
多轮写作	147	67	76	4	45.6%	51.7%	2.7%
总计	196	90	102	4	45.9%	52.0%	2.0%

⚠️ 在高复杂度约束或多轮场景的最具挑战性提示下，Claude Opus 4.5 仍对 V4-Pro 保有性能优势（52.0% vs 45.9%）。

5.4.2 搜索

检索增强搜索（RAG）

V4-Pro vs V3.2 在搜索 Q&A 任务上的比较（Table 11 摘要）：

类别	子类别	#	V4-Pro%	V3.2%	平局%
客观问答	单值信息查找（单值搜索）	95	37.9%	10.5%	51.6%
客观问答	实体信息查找	99	24.2%	7.1%	68.7%
客观问答	枚举型信息查找	95	20.0%	8.4%	71.6%
主观问答	原因分析	100	28.0%	5.0%	67.0%
主观问答	对比	96	29.2%	20.8%	50.0%
主观问答	寻求建议	92	25.0%	8.7%	66.3%
主观问答	推荐	95	27.4%	20.0%	52.6%
主观问答	攻略计划	92	34.8%	12.0%	53.3%
主观问答	评价看法	96	31.2%	8.3%	60.4%
主观问答	趋势分析	96	24.0%	3.1%	72.9%
总计		956	28.1%	10.4%	61.5%

🔎 V4-Pro 显著超越 V3.2，在单值搜索和攻略计划任务上提升最显著，表明 V4-Pro 擅长定位精确事实答案和从检索上下文中合成结构化计划。V3.2 在对比和推荐任务上仍相对有竞争力，暗示 V4-Pro 在需要平衡、多视角推理搜索结果的场景上仍有改进空间。

Agentic 搜索

不同于标准 RAG，agentic 搜索允许模型按查询迭代调用搜索和抓取工具，显著提升整体搜索性能。

Agentic Search vs RAG 成本对比（V4-Pro）：

版本	工具调用数	Prefill (tokens)	输出 (tokens)
V4 Agentic Search	16.2	13649	1526
V4 RAG	—	10453	1308

💡 Agentic 搜索的成本仅略高于标准 RAG（大部分工具调用并行执行）。

Agentic Search vs RAG 性能对比：

难度	类别	#	Agent%	RAG%	平局%
Easy	客观问答	196	56.1%	21.9%	21.9%
Easy	主观问答	321	61.7%	17.4%	20.9%
Hard	客观问答	168	60.7%	19.6%	19.6%
Hard	主观问答	184	68.5%	14.7%	16.8%
总计		869	61.7% 🏆	18.3%	20.0%

⭐ Agentic 搜索在复杂任务上尤其明显地优于 RAG。

5.4.3 白领任务

为严格评估模型在复杂企业生产力场景中的实用性，V4 构建了 30 个高级中文专业任务，涵盖：

13 个关键行业（金融、教育、法律、科技等）
高层次认知需求：深入信息分析、全面文档生成、细致文档编辑

使用配备基本工具（Bash + Web 搜索）的内部 agent harness 进行评估。由于任务开放性，采用人工盲评对比 V4-Pro-Max 和 Opus-4.6-Max，四个维度：

任务完成度：是否成功解决核心问题。
指令遵循：遵守特定约束和指令的程度。
内容质量：事实准确性、逻辑连贯性、专业基调。
格式美感：布局可读性和视觉呈现。

分类胜率对比（Figure 11）

类别	V4-Pro-Max 胜率	平局	Opus-4.6-Max 胜率
分析	55.0%	8.0%	37.0%
生成	52.0%	10.0%	38.0%
编辑	47.0%	18.0%	35.0%
总体	53.0% 🏆	10.0%	37.0%

🎯 **V4-Pro-Max 整体非输率达 63%**（53% 胜 + 10% 平局），在分析、生成、编辑任务上均有一致优势。

详细维度得分（Figure 12）

维度	V4-Pro-Max	Opus-4.6-Max
任务完成度	98.32 🏆	96.68
指令遵循	87.76	88.88 🥇
内容质量	83.32 🏆	78.00
格式美感	76.68 🏆	72.68
总体	86.52 🏆	84.06

🔍 V4-Pro-Max 的主要优势在任务完成度和内容质量：

主动预期隐含用户意图，频繁提供补充见解和自验证步骤。

擅长长篇生成，交付有深度、连贯的叙述，而非 Opus-4.6-Max 常产出的过于简化的项目列表。

严格遵循正式专业规范，如标准化中文层级编号。

不足：

指令遵循方面偶尔忽略特定格式约束，略逊 Opus。

对冗长文本输入的简洁总结能力较弱。

格式美感方面，演示文稿的整体视觉设计仍有明显改进空间。

5.4.4 代码 Agent

为基准测试编码 agent 能力，V4 从真实内部 R&D 工作负载中策划任务：

从 50+ 内部工程师收集 约 200 个挑战性任务
涵盖 feature 开发、bug 修复、重构、诊断
多样技术栈：PyTorch、CUDA、Rust、C++
每个任务附带原始仓库、对应执行环境、人工标注评分 rubrics
经过严格质量过滤后保留 30 个任务作为评估集

Table 8：R&D 编程基准对比

模型	Pass Rate (%)
Haiku 4.5	13
Sonnet 4.5	47
DeepSeek-V4-Pro-Max	67
Opus 4.5	70
Opus 4.5 Thinking	73
Opus 4.6 Thinking	80 🥇

🎯 V4-Pro 显著超越 Claude Sonnet 4.5，接近 Claude Opus 4.5 水平。

开发者调研（N=85）

询问 DeepSeek 开发者和研究员（均有日常 agentic 编码使用 V4-Pro 经验）V4-Pro 是否已准备好作为与其他前沿模型相比的默认主编程模型：

52% 肯定
39% 倾向肯定
< 9% 否定

受访者反馈：V4-Pro 在大多数任务上交付满意结果，但注意到一些细节错误、对模糊提示的误解、偶尔过度思考。

6. 结论、局限性与未来方向

本文提出 DeepSeek-V4 系列的预览版本，旨在打造新一代突破超长上下文处理效率瓶颈的大语言模型。通过结合 CSA + HCA 的混合注意力架构，V4 在长序列效率上实现飞跃。架构创新与广泛的基础设施优化共同支持百万 token 上下文的原生高效支持，为未来的 test-time scaling、长程任务以及在线学习等新兴范式奠定了必要基础。

核心成就总结

🏆 V4-Pro-Max 重新定义开源模型 SOTA：
- 在知识基准上显著超越先前开源模型
- 接近前沿闭源模型的推理性能
- 交付具有竞争力的 agent 能力
🏆 V4-Flash-Max 实现与领先闭源模型相当的推理性能，同时保持高性价比架构
🏆 为开源模型开启百万级上下文的新时代

局限性与未来工作方向

架构复杂性：为追求极致长上下文效率，V4 采取了大胆架构设计。为最小化风险，保留了许多初步验证过的组件和技巧，这虽然有效但也使架构相对复杂。未来将进行更全面、有原则的研究，将架构提炼到最本质的设计，使其更优雅而不损失性能。
训练稳定性的理论理解：尽管 Anticipatory Routing 和 SwiGLU Clamping 已被证明有效缓解训练不稳定，但其底层原理仍理解不足。未来将积极研究训练稳定性的基础问题并加强内部指标监控，追求更有原则、更具预测性的大规模稳定训练方法。
稀疏性的新维度：除 MoE 和稀疏注意力外，V4 还将主动探索模型稀疏性的新维度——如更稀疏的 embedding 模块（Cheng et al., 2026）——进一步提升计算和内存效率而不损害能力。
低延迟架构：将持续研究低延迟架构和系统技术，使长上下文部署和交互更具响应性。
长程、多轮 agent 任务：认识到长程多轮 agent 任务的重要性和实际价值，将继续在该方向迭代探索。
多模态能力：正在为模型加入多模态能力。
数据策略：致力于开发更好的数据策划和合成策略，在日益广泛的场景和任务中持续增强模型智能、稳健性和实用性。

📎 附录

作者列表

作者按名字字母顺序排列。带 * 标记的名字表示已从团队离职的成员。（完整列表见原文）

研究与工程：Anyi Xu、Bangcai Lin、Bing Xue、Bingxuan Wang、Bingzheng Xu、Bochao Wu、Bowei Zhang、Chaofan Lin、Chen Dong、Chengda Lu、Chenggang Zhao、Chengqi Deng、Chenhao Xu、Chenze Shao、Chong Ruan 等近 300 人。

商业与合规：Chenchen Ling、Chengyu Hou、Dongjie Ji、Fang Wei 等。