Skip to main content

编程助手细分:请给我更多 Token

·197 words·1 min

来源: SemiAnalysis
日期: 2026年4月24日
主题: AI 编程助手现状及向代理工作流的转变


我们是否正在进入“代理化”编程时代? #

如果你最近一直在使用 AI 来辅助编程,你可能已经感受到了这种转变。它不再仅仅是帮你写完一段话;而是开始尝试解决整个 Jira 工单。最新的 SemiAnalysis 报告《编程助手细分:请给我更多 Token》揭开了主导我们屏幕的那些尖端模型的神秘面纱:GPT-5.5Claude Opus 4.7DeepSeek V4

核心观点是什么?我们正在跨越“会写代码的聊天机器人”阶段,进入一个自主代理的世界。但最关键的一点是:作为开发人员,我们似乎对“完美的逻辑”不太感冒,反而更看重推理速度Token 效率。为什么?因为没有什么比等待一个缓慢的模型更能破坏“心流状态”了,而“单项任务成本”正在成为真正的北极星指标。


1. 模型评估:前沿已经位移 #

GPT-5.5:OpenAI 的 “Spud” 登场 #

在 Anthropic 领跑数月后,OpenAI 终于凭借 GPT-5.5(代号 “Spud”)重回前沿。

  • 定价: 价格不菲——每百万输入 Token 5 美元,输出 30 美元(比 5.4 贵一倍)。
  • 优先层级: 他们推出了 2.5 倍标价的优先层级,为需要具体 SLA(如 >50 tokens/sec)的用户提供保障。
  • Token 效率: 有趣的是,GPT-5.5 在基准测试中得分更高,但使用的 Token 却比 5.4 更。这对于“单项任务成本”来说是游戏规则的改变。
  • 推理级别: 你现在可以从 xhigh、high、medium、low 和非推理级别中选择——这是成本与能力之间的直接权衡。

Claude Opus 4.7:质量之王(伴随隐形涨价?) #

Anthropic 发布了 Opus 4.7 作为 4.6 的直接替代品,但其中包含了一些“细则”。

  • 新分词器: 4.7 使用了更精细的分词器,这可能会使总 Token 使用量(即价格)增加高达 35%
  • 视觉能力: 它现在支持高分辨率截图用于前端样式调整,相比运行无头浏览器测试,更倾向于视觉审查。
  • 工作流磨合: 团队注意到一个行为转变:模型默认使用更少的工具调用和更多的“推理”。如果你想让它真正干活,你可能得把推理级别调到 “xhigh”。
  • 近期 Bug: Anthropic 最近发布了关于 3 月至 4 月间 3 个 Bug 的回顾,这些 Bug 影响了几乎所有 Claude Code 用户。“成也萧何,败也萧何。”

DeepSeek V4:开源颠覆者 #

DeepSeek 继续以 V4-Pro(总 1.6T / 激活 49B)和 V4-Flash 实现智能的商品化。

  • 100万上下文窗口: 他们的核心进步是长上下文性能。
  • 技术魔法: 通过使用压缩稀疏注意力(CSA)等技术,他们实现了相比 V3.2 90% 的 KV Cache 削减
  • 零时速度: 在 H200 集群上,该模型达到了惊人的 150 tokens/sec 吞吐量。

2. 传统基准测试过时了吗? #

你还相信 SWE-bench 的分数吗?报告建议我们可能不该再盲信了。大多数“已验证”的基准测试仍然充斥着针对特定实现的测试或训练数据的污染。

  • “Expert-SWE” 的震撼: 在一个隐蔽的模型卡披露中,事实证明在 OpenAI 自己的 Expert-SWE 基准测试中,GPT-5.5 实际上被 Opus 4.7 碾压(mogged)了。
  • GDPval (OpenAI): 新的金标准。它在 44 个专业领域测试代理处理“具有经济价值的任务”的能力,使用专家承包商和模拟的企业环境(邮件、Slack 等)。

3. VIBEZ:我们的实测印象 #

你到底应该使用哪个模型?SemiAnalysis 团队已经稳定在了一个混合工作流:

  1. 从 Claude 开始: 用于初始计划、脚手架搭建和第一个“概念验证”(POC)。Claude 更擅长从简洁、混乱的人类指令中推断“真实意图”。
  2. 切换到 Codex (GPT-5.5): 切换到这里来实际解决 Bug 或修复具体问题。Codex 在理解复杂数据结构和对代码结构进行字面推理方面更“聪明”。

“思考”的区别:

“Codex 会从互联网和代码库中提取大量精细的上下文,然后做出针对性的努力……而 Opus 4.7 通常感觉只是快速探索一下,然后就‘听天由命’(yolo)地修改代码。”


4. 战略展望:单项任务成本 #

副标题“请给我更多 Token”指的是代理现在执行的大量内部推理(思考 Token)。展望未来,我们应该停止关注每百万 Token 的价格,而开始关注每次成功 PR 的价格

你怎么看? 你愿意为了保持“心流状态”而为“优先”层级支付 2.5 倍的价格吗?还是你会坚持使用 DeepSeek 的开源力量?


注:本报告是根据 2026 年 4 月 25 日的 SemiAnalysis 通讯合成的摘要。我们利用直接访问完整付费内容的权限丰富了这一概述。