DeepSeek V4 编码强过 GPT-5.5，价格仅 1/8

DeepSeek V4 是个狠角色——代码和Agent能力冲到了开源最前排，价格低到让闭源厂商坐不住，但如果你想拿它写诗、做高难度推理，大概率会失望。

这篇文章是写给谁的？
如果你在用Claude、GPT做开发，每个月API账单上万，或者团队在纠结要不要自托管一个大模型，那么V4给你提供了第三个选项——一个便宜、开源、代码强但感情弱的“工具人”模型。如果你只关心创意写作或需要多模态能力，请先跳过。

先看价格，再看成绩

V4这次搞了双版本：Pro（1.6万亿参数，激活490亿）和Flash（2840亿参数，激活130亿）。两个版本都支持100万token上下文，MIT开源。

价格有多离谱？直接上对比：

模型	输出价格（每百万token）
DeepSeek V4 Pro	$3.48
DeepSeek V4 Flash	$0.28
GPT-5.5	$30
Claude Opus 4.7	$75

Flash比Claude Opus 4.7便宜 99%以上。Pro是GPT-5.5的1/8，是Claude Opus 4.7的1/21。这已经不是“性价比”，而是“掀桌子”。

价格这么低，性能还在线吗？第三方评测给了一半肯定一半怼。

能力强项：

LiveCodeBench (Pro)：93.5，开源最高分之一。
SWE-Bench Verified：80.6，Agent编码能力接近Claude。
Codeforces评分3206，人类排名23。你没看错，它打败了绝大多数人类程序员。
Putnam 2025 形式化数学：满分120/120，数学证明这块硬骨头啃下来了。
Vals AI Vibe Code基准：开源加权第一，综合第二（只差闭源老大0.07%）。
Arena.ai代码竞技场：开源第3、总榜第14，领先Gemini 3.1 Pro。

短板明显：

HLE测试（Pro-Max）：37.7，落后Gemini 3.1 Pro约7分。
Terminal-Bench：67.9，低于GPT-5.5约15分。
SimpleQA-Verified：57.9，知识问答还不够稳。
官方自己都承认：知识与推理能力落后闭源顶尖模型3~6个月。

我看了下海外开发者社区的反馈，多数人惊叹Flash版的价格，但实测下来觉得Flash并没有明显超过V3.2。Pro版呢？吞吐量受限于高端算力，实际部署体验参差不齐。有人吐槽“便宜是便宜，但慢到想砸键盘”。

架构上的野心

V4不只是在价格上卷，技术上也下了猛料。

最大的亮点是混合压缩稀疏注意力（CSA+HCA）：在100万token上下文下，推理FLOPs只有V3.2的27%，KV缓存占用只有V3.2的10%。这意味着什么？之前跑不起的超长文档处理，现在可以跑了，而且更省显存。

还有个叫Engram的静态记忆机制，能在常数时间内检索信息，推理开销不到3%。加上流形约束超连接（mHC）稳定训练，整体工程非常扎实。

另外，V4是全球首个在华为昇腾芯片上完成训练和推理的万亿参数开源模型。在昇腾上获得了1.5∼1.73倍的推理加速，下半年昇腾950节点量产后，Pro版价格可能还会再降。这是国产AI芯片的重要里程碑，但也有人质疑：昇腾能稳定量产吗？当前Pro版吞吐量受限的问题能解决吗？

Agent能力是最大亮点

内部编程测试Pass Rate达到67%，接近Claude Opus 4.6 Thinking的80%。Agentic Coding评测开源最佳，超九成开发者认为可以当首选编码模型。

但前端代码质量和创造力依然不足。在真实的多文件推理任务中，V4的表现还需要更多验证。简单说：写后端脚本、做代码审查、自动化测试，V4很适合；设计交互精美的页面，还是留给专业模型。

最大的雷：泄露数据是假的

2026年2月，网上流传了一份V4的“提前泄露基准”，包括SWE-bench 83.7%、AIME 99.4%、FrontierMath 23.5%等数据，后来被Epoch AI确认为伪造，连AIME的评分范围都超出了系统极限。正式发布后，所有基准都低于泄露值。如果你之前看到过那些数据，赶紧忘掉。

另外，V4目前仅支持文本，没有多模态。有些旧文章说支持原生多模态，不靠谱，请以最新官方信息为准。

那到底该不该用？

推荐场景：

高容量的编码Agent（代码生成、补全、重构）
大批量文档分析（100万token长上下文）
成本敏感型应用（每天调用数十万次）
想自托管、不想被闭源API绑死

不推荐场景：

创意写作、诗歌、情感对话（文字能力一般）
需要最高推理质量的任务（数学竞赛已满分，但常识推理差点）
欧洲消费者应用（GDPR合规风险未在资料中确认）
需要多模态或图像输入的任务

V4的成功在于：在开源世界里，第一次有人把“性能接近闭源”和“价格低到离谱”同时做到了。但它不是万能钥匙。它像一把锋利的瑞士军刀，但不是激光手术刀。

问题留给你：如果你的团队今天要选下一代编码模型，你会用V4替换现有的Claude/GPT吗？在什么场景下你会考虑自托管V4？评论区聊聊。

DeepSeek V4 编码强过 GPT-5.5，价格仅 1/8

DeepSeek V4 编码强过 GPT-5.5，价格仅 1/8

先看价格，再看成绩

架构上的野心

Agent能力是最大亮点

最大的雷：泄露数据是假的

那到底该不该用？

参考来源

相关文章