编程助手细分：请给我更多 Token

Table of Contents

来源： SemiAnalysis
日期： 2026年4月24日
主题： AI 编程助手现状及向代理工作流的转变

我们是否正在进入“代理化”编程时代？ #

如果你最近一直在使用 AI 来辅助编程，你可能已经感受到了这种转变。它不再仅仅是帮你写完一段话；而是开始尝试解决整个 Jira 工单。最新的 SemiAnalysis 报告《编程助手细分：请给我更多 Token》揭开了主导我们屏幕的那些尖端模型的神秘面纱：GPT-5.5、Claude Opus 4.7 和 DeepSeek V4。

核心观点是什么？我们正在跨越“会写代码的聊天机器人”阶段，进入一个自主代理的世界。但最关键的一点是：作为开发人员，我们似乎对“完美的逻辑”不太感冒，反而更看重推理速度和Token 效率。为什么？因为没有什么比等待一个缓慢的模型更能破坏“心流状态”了，而“单项任务成本”正在成为真正的北极星指标。

1. 模型评估：前沿已经位移 #

GPT-5.5：OpenAI 的 “Spud” 登场 #

在 Anthropic 领跑数月后，OpenAI 终于凭借 GPT-5.5（代号 “Spud”）重回前沿。

定价： 价格不菲——每百万输入 Token 5 美元，输出 30 美元（比 5.4 贵一倍）。
优先层级： 他们推出了 2.5 倍标价的优先层级，为需要具体 SLA（如 >50 tokens/sec）的用户提供保障。
Token 效率： 有趣的是，GPT-5.5 在基准测试中得分更高，但使用的 Token 却比 5.4 更少。这对于“单项任务成本”来说是游戏规则的改变。
推理级别： 你现在可以从 xhigh、high、medium、low 和非推理级别中选择——这是成本与能力之间的直接权衡。

Claude Opus 4.7：质量之王（伴随隐形涨价？） #

Anthropic 发布了 Opus 4.7 作为 4.6 的直接替代品，但其中包含了一些“细则”。

新分词器： 4.7 使用了更精细的分词器，这可能会使总 Token 使用量（即价格）增加高达 35%。
视觉能力： 它现在支持高分辨率截图用于前端样式调整，相比运行无头浏览器测试，更倾向于视觉审查。
工作流磨合： 团队注意到一个行为转变：模型默认使用更少的工具调用和更多的“推理”。如果你想让它真正干活，你可能得把推理级别调到 “xhigh”。
近期 Bug： Anthropic 最近发布了关于 3 月至 4 月间 3 个 Bug 的回顾，这些 Bug 影响了几乎所有 Claude Code 用户。“成也萧何，败也萧何。”

DeepSeek V4：开源颠覆者 #

DeepSeek 继续以 V4-Pro（总 1.6T / 激活 49B）和 V4-Flash 实现智能的商品化。

100万上下文窗口： 他们的核心进步是长上下文性能。
技术魔法： 通过使用压缩稀疏注意力（CSA）等技术，他们实现了相比 V3.2 90% 的 KV Cache 削减。
零时速度： 在 H200 集群上，该模型达到了惊人的 150 tokens/sec 吞吐量。

2. 传统基准测试过时了吗？ #

你还相信 SWE-bench 的分数吗？报告建议我们可能不该再盲信了。大多数“已验证”的基准测试仍然充斥着针对特定实现的测试或训练数据的污染。

“Expert-SWE” 的震撼： 在一个隐蔽的模型卡披露中，事实证明在 OpenAI 自己的 Expert-SWE 基准测试中，GPT-5.5 实际上被 Opus 4.7 碾压（mogged）了。
GDPval (OpenAI)： 新的金标准。它在 44 个专业领域测试代理处理“具有经济价值的任务”的能力，使用专家承包商和模拟的企业环境（邮件、Slack 等）。

3. VIBEZ：我们的实测印象 #

你到底应该使用哪个模型？SemiAnalysis 团队已经稳定在了一个混合工作流：

从 Claude 开始： 用于初始计划、脚手架搭建和第一个“概念验证”（POC）。Claude 更擅长从简洁、混乱的人类指令中推断“真实意图”。
切换到 Codex (GPT-5.5)： 切换到这里来实际解决 Bug 或修复具体问题。Codex 在理解复杂数据结构和对代码结构进行字面推理方面更“聪明”。

“思考”的区别：

“Codex 会从互联网和代码库中提取大量精细的上下文，然后做出针对性的努力……而 Opus 4.7 通常感觉只是快速探索一下，然后就‘听天由命’（yolo）地修改代码。”

4. 战略展望：单项任务成本 #

副标题“请给我更多 Token”指的是代理现在执行的大量内部推理（思考 Token）。展望未来，我们应该停止关注每百万 Token 的价格，而开始关注每次成功 PR 的价格。

你怎么看？ 你愿意为了保持“心流状态”而为“优先”层级支付 2.5 倍的价格吗？还是你会坚持使用 DeepSeek 的开源力量？

注：本报告是根据 2026 年 4 月 25 日的 SemiAnalysis 通讯合成的摘要。我们利用直接访问完整付费内容的权限丰富了这一概述。