
DeepSeek V4 编码强过 GPT-5.5,价格仅 1/8
对比 DeepSeek V4 的编码能力、上下文和 API 定价,判断它是否值得替代高价闭源模型。
DeepSeek V4 编码强过 GPT-5.5,价格仅 1/8
DeepSeek V4 是个狠角色——代码和Agent能力冲到了开源最前排,价格低到让闭源厂商坐不住,但如果你想拿它写诗、做高难度推理,大概率会失望。
这篇文章是写给谁的?
如果你在用Claude、GPT做开发,每个月API账单上万,或者团队在纠结要不要自托管一个大模型,那么V4给你提供了第三个选项——一个便宜、开源、代码强但感情弱的“工具人”模型。如果你只关心创意写作或需要多模态能力,请先跳过。
先看价格,再看成绩
V4这次搞了双版本:Pro(1.6万亿参数,激活490亿)和Flash(2840亿参数,激活130亿)。两个版本都支持100万token上下文,MIT开源。
价格有多离谱?直接上对比:
| 模型 | 输出价格(每百万token) |
|---|---|
| DeepSeek V4 Pro | $3.48 |
| DeepSeek V4 Flash | $0.28 |
| GPT-5.5 | $30 |
| Claude Opus 4.7 | $75 |
Flash比Claude Opus 4.7便宜 99%以上。Pro是GPT-5.5的1/8,是Claude Opus 4.7的1/21。这已经不是“性价比”,而是“掀桌子”。
价格这么低,性能还在线吗?第三方评测给了一半肯定一半怼。
能力强项:
- LiveCodeBench (Pro):93.5,开源最高分之一。
- SWE-Bench Verified:80.6,Agent编码能力接近Claude。
- Codeforces评分3206,人类排名23。你没看错,它打败了绝大多数人类程序员。
- Putnam 2025 形式化数学:满分120/120,数学证明这块硬骨头啃下来了。
- Vals AI Vibe Code基准:开源加权第一,综合第二(只差闭源老大0.07%)。
- Arena.ai代码竞技场:开源第3、总榜第14,领先Gemini 3.1 Pro。
短板明显:
- HLE测试(Pro-Max):37.7,落后Gemini 3.1 Pro约7分。
- Terminal-Bench:67.9,低于GPT-5.5约15分。
- SimpleQA-Verified:57.9,知识问答还不够稳。
- 官方自己都承认:知识与推理能力落后闭源顶尖模型3~6个月。
我看了下海外开发者社区的反馈,多数人惊叹Flash版的价格,但实测下来觉得Flash并没有明显超过V3.2。Pro版呢?吞吐量受限于高端算力,实际部署体验参差不齐。有人吐槽“便宜是便宜,但慢到想砸键盘”。
架构上的野心
V4不只是在价格上卷,技术上也下了猛料。
最大的亮点是混合压缩稀疏注意力(CSA+HCA):在100万token上下文下,推理FLOPs只有V3.2的27%,KV缓存占用只有V3.2的10%。这意味着什么?之前跑不起的超长文档处理,现在可以跑了,而且更省显存。
还有个叫Engram的静态记忆机制,能在常数时间内检索信息,推理开销不到3%。加上流形约束超连接(mHC)稳定训练,整体工程非常扎实。
另外,V4是全球首个在华为昇腾芯片上完成训练和推理的万亿参数开源模型。在昇腾上获得了1.5∼1.73倍的推理加速,下半年昇腾950节点量产后,Pro版价格可能还会再降。这是国产AI芯片的重要里程碑,但也有人质疑:昇腾能稳定量产吗?当前Pro版吞吐量受限的问题能解决吗?
Agent能力是最大亮点
内部编程测试Pass Rate达到67%,接近Claude Opus 4.6 Thinking的80%。Agentic Coding评测开源最佳,超九成开发者认为可以当首选编码模型。
但前端代码质量和创造力依然不足。在真实的多文件推理任务中,V4的表现还需要更多验证。简单说:写后端脚本、做代码审查、自动化测试,V4很适合;设计交互精美的页面,还是留给专业模型。
最大的雷:泄露数据是假的
2026年2月,网上流传了一份V4的“提前泄露基准”,包括SWE-bench 83.7%、AIME 99.4%、FrontierMath 23.5%等数据,后来被Epoch AI确认为伪造,连AIME的评分范围都超出了系统极限。正式发布后,所有基准都低于泄露值。如果你之前看到过那些数据,赶紧忘掉。
另外,V4目前仅支持文本,没有多模态。有些旧文章说支持原生多模态,不靠谱,请以最新官方信息为准。
那到底该不该用?
推荐场景:
- 高容量的编码Agent(代码生成、补全、重构)
- 大批量文档分析(100万token长上下文)
- 成本敏感型应用(每天调用数十万次)
- 想自托管、不想被闭源API绑死
不推荐场景:
- 创意写作、诗歌、情感对话(文字能力一般)
- 需要最高推理质量的任务(数学竞赛已满分,但常识推理差点)
- 欧洲消费者应用(GDPR合规风险未在资料中确认)
- 需要多模态或图像输入的任务
V4的成功在于:在开源世界里,第一次有人把“性能接近闭源”和“价格低到离谱”同时做到了。但它不是万能钥匙。它像一把锋利的瑞士军刀,但不是激光手术刀。
问题留给你:如果你的团队今天要选下一代编码模型,你会用V4替换现有的Claude/GPT吗?在什么场景下你会考虑自托管V4?评论区聊聊。
参考来源
相关文章
拆解 MiMo V2.5 系列、Token Plan 和 Agent 生态合作,对开发者是否值得投入给出判断。
用 API 定价、上下文和 benchmark 数据解释 GPT-5.5 为什么更贵,但在高强度 agent 任务上可能更省。
解释 GitHub Copilot 从请求额度转向 token 计费后,个人和团队的真实成本会怎样变化。
拆解 GitHub Copilot 在 2026 年 4 月的限额调整与默认训练数据政策,说明对个人开发者和团队治理的直接影响。