24 Apr 2026 阅读时间 7 分钟产品观察

DeepSeek V4 发布：百万上下文普惠时代到来，双模型策略解析

2026 年 4 月 23 日，深度求索（DeepSeek）正式发布 DeepSeek-V4 预览版，并同步开源模型权重。这是继 V3 系列之后，DeepSeek 在 MoE（Mixture-of-Experts）架构上的又一次重大迭代。官方将其定位为"迈入百万上下文普惠时代"，1M token 上下文长度成为所有官方服务的标配。

本文基于官方发布信息、API 文档、HuggingFace 技术报告以及 V2EX 等中文技术社区的初步讨论，对 V4 的核心技术特点、产品策略和早期市场反馈进行梳理。

一、双模型策略：Pro 与 Flash 的分工

DeepSeek-V4 采用双版本并行策略，覆盖不同场景的性能与成本需求：

维度	DeepSeek-V4-Pro	DeepSeek-V4-Flash
总参数量	1.6T	284B
激活参数量	49B	13B
上下文长度	1M	1M
最大输出长度	384K	384K
精度	FP8 Mixed	FP4+FP8 Mixed
输入定价（缓存命中/百万 tokens）	1 元	0.2 元
输入定价（缓存未命中/百万 tokens）	12 元	1 元
输出定价（百万 tokens）	24 元	2 元

Pro 版本面向需要最强推理和知识能力的场景，Flash 版本则主打性价比和快速响应。官方在微信公众号文章中提到，Pro 版本的 Agentic Coding 能力已超越 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但与 Opus 4.6 思考模式仍存在一定差距。

二、三大架构创新

根据 HuggingFace 技术报告，V4 系列引入了以下关键架构升级：

1. 混合注意力机制（CSA + HCA）

V4 设计了结合 Compressed Sparse Attention（CSA） 与 Heavily Compressed Attention（HCA） 的混合注意力架构，在 1M token 长上下文场景下实现了显著的效率提升。技术报告显示，DeepSeek-V4-Pro 在该场景下的单 token 推理 FLOPs 仅为 V3.2 的 27%，KV 缓存仅为 10%。

2. Manifold-Constrained Hyper-Connections（mHC）

mHC 用于强化传统的残差连接，在保持模型表达能力的同时，增强跨层信号传播的稳定性。

3. Muon Optimizer

训练阶段采用 Muon 优化器，官方称其在收敛速度和训练稳定性方面优于传统方案。

三、训练与后训练范式

V4 系列的预训练数据量超过 32T token。后训练采用两阶段范式：

独立培养领域专家：通过 SFT 和 GRPO（Group Relative Policy Optimization）强化学习，分别训练不同领域的专家能力
统一模型整合：通过 on-policy distillation 将各领域专家能力蒸馏整合到单一模型中

这种"先分后合"的策略，旨在让最终模型在代码、推理、知识等多个领域同时达到高水平。

四、API 与产品变化

模型名更新

API 调用时，base_url 保持不变（https://api.deepseek.com），model 参数需更新为：

deepseek-v4-pro
deepseek-v4-flash

旧模型名 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日 废弃。出于兼容考虑，二者目前分别映射到 Flash 的非思考模式和思考模式。

思考模式（Thinking Mode）

V4 两个版本均支持思考模式，默认开启。API 通过以下参数控制：

thinking: {type: "enabled/disabled"} — 思考模式开关
reasoning_effort: "high/max" — 思考强度控制

思考内容通过 reasoning_content 字段返回，与 content 同级。需要注意的是，思考模式下不支持 temperature、top_p、presence_penalty、frequency_penalty 参数。

详细文档可参考 DeepSeek 思考模式指南。

五、社区初步反馈

V4 发布后，V2EX deepseek 节点和 HuggingFace 讨论区迅速出现大量讨论。以下是截至 4 月 24 日中午的主要反馈类型：

正面评价

期待兑现："从去年 12 月就开始传，终于正式发布"
架构认可：1.6T 参数规模配合 MoE 架构，被认为"值得探索其逻辑潜力"
开源态度：HuggingFace 讨论区大量用户打卡支持，"源神牛逼"、"国货之光"等评价集中出现
长上下文普惠：1M 上下文成为标配，被视作降低长文本应用门槛的积极信号

质疑与担忧

定价争议：Pro 版本定价（输入 12 元/百万 tokens、输出 24 元/百万 tokens）被部分用户认为偏高，"只能用得起 Flash"成为常见说法
与闭源差距：官方自身承认与 Opus 4.6 思考模式存在差距；社区有用户直言"刚出来就被 GPT-5.5 当头一棒"
Web 版实际体验：有用户指出官方 Web 端给普通用户实际使用的是 Flash 版本，"专家模式"也并非 Pro 版，前几周 Web 体验"绝对性能没达到期待"
实用性存疑："Pro 版本似乎贵了挺多，但也没多好用"——部分早期体验者的直观感受

技术讨论

本地部署硬件需求成为热点话题，FP8/FP4 量化方案引发讨论
推理框架适配：社区关注 vLLM、SGLang 等框架何时支持 V4
昇腾支持：有用户提到"支持了昇腾"，但具体适配情况尚不明确

六、昇腾支持现状

关于华为昇腾（Ascend）芯片的适配情况，目前的信息较为有限：

官方立场：DeepSeek 官方目前未在其公开仓库中提供对昇腾芯片的正式支持或适配计划。在 GitHub 相关 issue 中，官方贡献者曾回应用户"请向华为昇腾寻求更多支持"，暗示当前主要由第三方或社区驱动适配
社区动态：V2EX 讨论中有用户提到 V4 "支持了昇腾"，但缺乏具体的技术细节（如支持的昇腾型号、推理框架、性能数据等）
媒体层面：截至发稿，尚未发现国内主流科技媒体有关于 DeepSeek V4 正式适配昇腾的深度报道或性能评测

若业务依赖昇腾部署，建议关注华为昇腾官方社区（MindSpore 或 Ascend 开发者社区）是否有相关的推理适配方案，而非等待 DeepSeek 官方提供原生支持。

七、小结

DeepSeek-V4 的发布延续了该团队"开源 + 高性价比"的核心策略。1M 上下文普惠化、MoE 架构效率优化、以及 Pro/Flash 的双版本覆盖，构成了其产品竞争力的基本面。

不过，从社区早期反馈来看，以下几点值得关注：

定价敏感度：Pro 版本定价较 V3 时代有明显提升，用户是否会为此买单，取决于其实际性能能否在复杂任务中体现出与 Flash 的显著差异
与闭源模型的竞争：官方承认与 Opus 4.6 思考模式存在差距，而 GPT-5.5 等闭源模型的迭代速度仍在加快
生态适配：昇腾支持、推理框架集成等生态建设尚处于早期，可能影响企业级用户的采纳决策

深度实测对比（与 GPT-5.x、Claude Opus 4.x、GLM-5.1 等）预计将在未来 1-3 天内陆续出现，届时可对 V4 的真实竞争力做出更准确的判断。

一、双模型策略：Pro 与 Flash 的分工

二、三大架构创新

1. 混合注意力机制（CSA + HCA）

2. Manifold-Constrained Hyper-Connections（mHC）

3. Muon Optimizer

三、训练与后训练范式

四、API 与产品变化

模型名更新

思考模式（Thinking Mode）

五、社区初步反馈

正面评价

质疑与担忧

技术讨论

六、昇腾支持现状

七、小结

参考来源

You might also like...

从 DeepSeek 的一份 Agent PM 招聘看行业风向

从 Reddit 挖需求到免费流量：一套可复用的 GEO 内容方法论

京东 TGT 2026 顶尖青年技术天才计划：AI 人才争夺战的又一枚棋子

第一性原理思维：为什么大多数人只是在复制别人

FDE 前沿部署工程师：AI 时代最稀缺的新角色