问答社区

原创作者: 图龙网络科技发布时间： 2023-09-23 286.12K 人阅读

deepseek-v4模型推理

太极混元发布于 1个月前分类：语言模型

DeepSeek-V4 在模型推理上，可以说进行了一场“效率革命”。它不再单纯追求在标准测试中拿高分，而是更注重在真实业务场景中的工程可用性和运行效率，尤其是在处理超长上下文和复杂的智能体任务时。

V4 系列的推理能力不仅在测试中实现跃升，更通过高低搭配让强大性能变得普惠。

测评得分显著提升：V4-Pro 版在数学推理能力上比前代 V3.2 提升了近 10 分，指令遵循能力提升近 12 分-。在 GSM8K 数学推理和 HumanEval 代码生成基准测试中，V4 的得分率分别从 V3 的 54.7% 和 42.1%，大幅提升至 71.3% 和 58.9%。
开源顶尖、比肩闭源：在 Apex Shortlist 编程基准测试中，V4-Pro-Max以 90.2% 的得分率位居开源领先-，并拥有高达 3206 的 Codeforces 评级。官方指出，其在数学、STEM和竞赛代码等“硬核推理”测试中，已超越所有开源模型，成绩与顶尖闭源模型相当。
Flash版：性能不打折，效率更极致：V4-Flash 并非简单的“阉割版”，它在保持轻量级的同时，实现了智能体能力与数学推理能力的显著跃升-。它能以更低的成本和更快的响应速度，提供接近 V4-Pro 的推理能力，极大地降低了先进 AI 的门槛-。

DeepSeek-V4能实现效率与性能的巨大飞跃，源于以下几项核心架构创新：

混合注意力机制 (CSA + HCA)：这是解决长上下文灾难性平方级计算成本的关键。
- CSA：将相邻 token 的键值对（KV）进行压缩，再进行稀疏选择，像在精读前先速览摘要-1。
- HCA：将大量 token 的 KV 对高度压缩，像提炼中心思想，虽牺牲部分细节，但能高效捕捉全局脉络。
  两者结合，使 V4-Pro 在 100 万 token 上下文下，KV Cache 仅为上一代 V3.2 的 10%；Flash 版更激进，仅为基准的 2% 左右。
流形约束超连接 (mHC)：为解决深层 Transformer 模型训练不稳定的问题，mHC 将残差连接扩展为多条并行通道，并引入“双随机矩阵”约束，防止信号爆炸或消失，为重架构创新提供基础。
Muon 优化器：V4 系列将大部分参数的优化器从 AdamW 替换为 Muon 优化器，能更好地适配 MoE（混合专家）架构和低精度训练，加速模型收敛。

除了核心架构，DeepSeek-V4 在工程优化上同样不遗余力：

极致压缩与量化：引入原生 FP4 精度量化感知训练，在保持精度的同时大幅减少模型体积和内存占用。
算子融合与内存复用：能降低 FP16 精度下 40% 的显存占用-，并通过流水线并行使单卡吞吐量提升 2.8 倍。
PD 分离与连续批处理：将推理过程拆分为 Prefill 和 Decode 两个独立阶段并针对性优化，再结合连续批处理技术提高 GPU 利用率-。
批次不变性设计：通过精巧设计，确保无论请求如何被批处理，同一问题的推理结果都能逐比特一致，为系统稳定性和可调试性提供了关键保障。

极致的效率优化直接体现在极具竞争力的成本上。

推理成本大幅降低：V4-Flash 处理 100 万 token 的输入成本仅约 1 元人民币-，V4-Pro 的输出定价也远低于同类竞品。在处理超长文本时，整体推理加速最高可达 2 倍。
硬件生态广泛支持：V4 已获多家硬件平台支持，并在华为昇腾 NPU 上实现了 1.50-1.73 倍的推理加速比。本地部署也非常方便，可通过 vLLM 和 SGLang 等框架实现-。