ChainBox
DeepSeek V4 编码能力与 API 定价主题配图
作者: ChainBox.AppAI 工具与开发工作流

DeepSeek V4 编码强过 GPT-5.5,价格仅 1/8

对比 DeepSeek V4 的编码能力、上下文和 API 定价,判断它是否值得替代高价闭源模型。

DeepSeek V4 编码强过 GPT-5.5,价格仅 1/8

DeepSeek V4 是个狠角色——代码和Agent能力冲到了开源最前排,价格低到让闭源厂商坐不住,但如果你想拿它写诗、做高难度推理,大概率会失望。


这篇文章是写给谁的?
如果你在用Claude、GPT做开发,每个月API账单上万,或者团队在纠结要不要自托管一个大模型,那么V4给你提供了第三个选项——一个便宜、开源、代码强但感情弱的“工具人”模型。如果你只关心创意写作或需要多模态能力,请先跳过。


先看价格,再看成绩

V4这次搞了双版本:Pro(1.6万亿参数,激活490亿)和Flash(2840亿参数,激活130亿)。两个版本都支持100万token上下文,MIT开源。

价格有多离谱?直接上对比:

模型输出价格(每百万token)
DeepSeek V4 Pro$3.48
DeepSeek V4 Flash$0.28
GPT-5.5$30
Claude Opus 4.7$75

Flash比Claude Opus 4.7便宜 99%以上。Pro是GPT-5.5的1/8,是Claude Opus 4.7的1/21。这已经不是“性价比”,而是“掀桌子”。

价格这么低,性能还在线吗?第三方评测给了一半肯定一半怼。

能力强项

  • LiveCodeBench (Pro):93.5,开源最高分之一。
  • SWE-Bench Verified:80.6,Agent编码能力接近Claude。
  • Codeforces评分3206,人类排名23。你没看错,它打败了绝大多数人类程序员。
  • Putnam 2025 形式化数学:满分120/120,数学证明这块硬骨头啃下来了。
  • Vals AI Vibe Code基准:开源加权第一,综合第二(只差闭源老大0.07%)。
  • Arena.ai代码竞技场:开源第3、总榜第14,领先Gemini 3.1 Pro。

短板明显

  • HLE测试(Pro-Max):37.7,落后Gemini 3.1 Pro约7分。
  • Terminal-Bench:67.9,低于GPT-5.5约15分。
  • SimpleQA-Verified:57.9,知识问答还不够稳。
  • 官方自己都承认:知识与推理能力落后闭源顶尖模型3~6个月

我看了下海外开发者社区的反馈,多数人惊叹Flash版的价格,但实测下来觉得Flash并没有明显超过V3.2。Pro版呢?吞吐量受限于高端算力,实际部署体验参差不齐。有人吐槽“便宜是便宜,但慢到想砸键盘”。

架构上的野心

V4不只是在价格上卷,技术上也下了猛料。

最大的亮点是混合压缩稀疏注意力(CSA+HCA):在100万token上下文下,推理FLOPs只有V3.2的27%,KV缓存占用只有V3.2的10%。这意味着什么?之前跑不起的超长文档处理,现在可以跑了,而且更省显存。

还有个叫Engram的静态记忆机制,能在常数时间内检索信息,推理开销不到3%。加上流形约束超连接(mHC)稳定训练,整体工程非常扎实。

另外,V4是全球首个在华为昇腾芯片上完成训练和推理的万亿参数开源模型。在昇腾上获得了1.5∼1.73倍的推理加速,下半年昇腾950节点量产后,Pro版价格可能还会再降。这是国产AI芯片的重要里程碑,但也有人质疑:昇腾能稳定量产吗?当前Pro版吞吐量受限的问题能解决吗?

Agent能力是最大亮点

内部编程测试Pass Rate达到67%,接近Claude Opus 4.6 Thinking的80%。Agentic Coding评测开源最佳,超九成开发者认为可以当首选编码模型。

但前端代码质量和创造力依然不足。在真实的多文件推理任务中,V4的表现还需要更多验证。简单说:写后端脚本、做代码审查、自动化测试,V4很适合;设计交互精美的页面,还是留给专业模型。

最大的雷:泄露数据是假的

2026年2月,网上流传了一份V4的“提前泄露基准”,包括SWE-bench 83.7%、AIME 99.4%、FrontierMath 23.5%等数据,后来被Epoch AI确认为伪造,连AIME的评分范围都超出了系统极限。正式发布后,所有基准都低于泄露值。如果你之前看到过那些数据,赶紧忘掉。

另外,V4目前仅支持文本,没有多模态。有些旧文章说支持原生多模态,不靠谱,请以最新官方信息为准。

那到底该不该用?

推荐场景

  • 高容量的编码Agent(代码生成、补全、重构)
  • 大批量文档分析(100万token长上下文)
  • 成本敏感型应用(每天调用数十万次)
  • 想自托管、不想被闭源API绑死

不推荐场景

  • 创意写作、诗歌、情感对话(文字能力一般)
  • 需要最高推理质量的任务(数学竞赛已满分,但常识推理差点)
  • 欧洲消费者应用(GDPR合规风险未在资料中确认)
  • 需要多模态或图像输入的任务

V4的成功在于:在开源世界里,第一次有人把“性能接近闭源”和“价格低到离谱”同时做到了。但它不是万能钥匙。它像一把锋利的瑞士军刀,但不是激光手术刀。


问题留给你:如果你的团队今天要选下一代编码模型,你会用V4替换现有的Claude/GPT吗?在什么场景下你会考虑自托管V4?评论区聊聊。

参考来源

相关文章

查看 ChainBox 首页与站内能力