阅读时间 7 分钟

DeepSeek V4 发布:百万上下文普惠时代到来,双模型策略解析

2026 年 4 月 23 日,深度求索(DeepSeek)正式发布 DeepSeek-V4 预览版,并同步开源模型权重。这是继 V3 系列之后,DeepSeek 在 MoE(Mixture-of-Experts)架构上的又一次重大迭代。官方将其定位为"迈入百万上下文普惠时代",1M token 上下文长度成为所有官方服务的标配。

本文基于官方发布信息、API 文档、HuggingFace 技术报告以及 V2EX 等中文技术社区的初步讨论,对 V4 的核心技术特点、产品策略和早期市场反馈进行梳理。


一、双模型策略:Pro 与 Flash 的分工

DeepSeek-V4 采用双版本并行策略,覆盖不同场景的性能与成本需求:

维度 DeepSeek-V4-Pro DeepSeek-V4-Flash
总参数量 1.6T 284B
激活参数量 49B 13B
上下文长度 1M 1M
最大输出长度 384K 384K
精度 FP8 Mixed FP4+FP8 Mixed
输入定价(缓存命中/百万 tokens) 1 元 0.2 元
输入定价(缓存未命中/百万 tokens) 12 元 1 元
输出定价(百万 tokens) 24 元 2 元

Pro 版本面向需要最强推理和知识能力的场景,Flash 版本则主打性价比和快速响应。官方在微信公众号文章中提到,Pro 版本的 Agentic Coding 能力已超越 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式仍存在一定差距。


二、三大架构创新

根据 HuggingFace 技术报告,V4 系列引入了以下关键架构升级:

1. 混合注意力机制(CSA + HCA)

V4 设计了结合 Compressed Sparse Attention(CSA)Heavily Compressed Attention(HCA) 的混合注意力架构,在 1M token 长上下文场景下实现了显著的效率提升。技术报告显示,DeepSeek-V4-Pro 在该场景下的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存仅为 10%

2. Manifold-Constrained Hyper-Connections(mHC)

mHC 用于强化传统的残差连接,在保持模型表达能力的同时,增强跨层信号传播的稳定性。

3. Muon Optimizer

训练阶段采用 Muon 优化器,官方称其在收敛速度和训练稳定性方面优于传统方案。


三、训练与后训练范式

V4 系列的预训练数据量超过 32T token。后训练采用两阶段范式:

  1. 独立培养领域专家:通过 SFT 和 GRPO(Group Relative Policy Optimization)强化学习,分别训练不同领域的专家能力
  2. 统一模型整合:通过 on-policy distillation 将各领域专家能力蒸馏整合到单一模型中

这种"先分后合"的策略,旨在让最终模型在代码、推理、知识等多个领域同时达到高水平。


四、API 与产品变化

模型名更新

API 调用时,base_url 保持不变(https://api.deepseek.com),model 参数需更新为:

  • deepseek-v4-pro
  • deepseek-v4-flash

旧模型名 deepseek-chatdeepseek-reasoner 将于 2026 年 7 月 24 日 废弃。出于兼容考虑,二者目前分别映射到 Flash 的非思考模式和思考模式。

思考模式(Thinking Mode)

V4 两个版本均支持思考模式,默认开启。API 通过以下参数控制:

  • thinking: {type: "enabled/disabled"} — 思考模式开关
  • reasoning_effort: "high/max" — 思考强度控制

思考内容通过 reasoning_content 字段返回,与 content 同级。需要注意的是,思考模式下不支持 temperaturetop_ppresence_penaltyfrequency_penalty 参数。

详细文档可参考 DeepSeek 思考模式指南


五、社区初步反馈

V4 发布后,V2EX deepseek 节点 和 HuggingFace 讨论区迅速出现大量讨论。以下是截至 4 月 24 日中午的主要反馈类型:

正面评价

  • 期待兑现:"从去年 12 月就开始传,终于正式发布"
  • 架构认可:1.6T 参数规模配合 MoE 架构,被认为"值得探索其逻辑潜力"
  • 开源态度:HuggingFace 讨论区大量用户打卡支持,"源神牛逼"、"国货之光"等评价集中出现
  • 长上下文普惠:1M 上下文成为标配,被视作降低长文本应用门槛的积极信号

质疑与担忧

  • 定价争议:Pro 版本定价(输入 12 元/百万 tokens、输出 24 元/百万 tokens)被部分用户认为偏高,"只能用得起 Flash"成为常见说法
  • 与闭源差距:官方自身承认与 Opus 4.6 思考模式存在差距;社区有用户直言"刚出来就被 GPT-5.5 当头一棒"
  • Web 版实际体验:有用户指出官方 Web 端给普通用户实际使用的是 Flash 版本,"专家模式"也并非 Pro 版,前几周 Web 体验"绝对性能没达到期待"
  • 实用性存疑:"Pro 版本似乎贵了挺多,但也没多好用"——部分早期体验者的直观感受

技术讨论

  • 本地部署硬件需求成为热点话题,FP8/FP4 量化方案引发讨论
  • 推理框架适配:社区关注 vLLM、SGLang 等框架何时支持 V4
  • 昇腾支持:有用户提到"支持了昇腾",但具体适配情况尚不明确

六、昇腾支持现状

关于华为昇腾(Ascend)芯片的适配情况,目前的信息较为有限:

  • 官方立场:DeepSeek 官方目前未在其公开仓库中提供对昇腾芯片的正式支持或适配计划。在 GitHub 相关 issue 中,官方贡献者曾回应用户"请向华为昇腾寻求更多支持",暗示当前主要由第三方或社区驱动适配
  • 社区动态:V2EX 讨论中有用户提到 V4 "支持了昇腾",但缺乏具体的技术细节(如支持的昇腾型号、推理框架、性能数据等)
  • 媒体层面:截至发稿,尚未发现国内主流科技媒体有关于 DeepSeek V4 正式适配昇腾的深度报道或性能评测

若业务依赖昇腾部署,建议关注华为昇腾官方社区(MindSpore 或 Ascend 开发者社区)是否有相关的推理适配方案,而非等待 DeepSeek 官方提供原生支持。


七、小结

DeepSeek-V4 的发布延续了该团队"开源 + 高性价比"的核心策略。1M 上下文普惠化、MoE 架构效率优化、以及 Pro/Flash 的双版本覆盖,构成了其产品竞争力的基本面。

不过,从社区早期反馈来看,以下几点值得关注:

  1. 定价敏感度:Pro 版本定价较 V3 时代有明显提升,用户是否会为此买单,取决于其实际性能能否在复杂任务中体现出与 Flash 的显著差异
  2. 与闭源模型的竞争:官方承认与 Opus 4.6 思考模式存在差距,而 GPT-5.5 等闭源模型的迭代速度仍在加快
  3. 生态适配:昇腾支持、推理框架集成等生态建设尚处于早期,可能影响企业级用户的采纳决策

深度实测对比(与 GPT-5.x、Claude Opus 4.x、GLM-5.1 等)预计将在未来 1-3 天内陆续出现,届时可对 V4 的真实竞争力做出更准确的判断。


参考来源