Claude Opus 4.7 重大更新:开发者必须知道的提示词迁移指南
Claude Opus 4.7 于 2026 年 4 月 16 日正式发布,SWE-bench Verified 分数从 Opus 4.6 的 80.8% 跳到 87.6%。但大量开发者在 48 小时内回报「同一组 prompt 产出品质变差」。问题不在模型退步,而在 Opus 4.7 改变了跟开发者互动的方式:它不再帮你脑补模糊指令,逐字照做你写的东西。
这篇文章将深度解析 Opus 4.7 的五项重大变更,并提供具体的提示词修改策略。
一、核心观点:更聪明,也更"字面"
Opus 4.7 的 instruction following 能力大幅提升。根据 Notion 的 AI Lead Sarah Sachs 的测试,这是第一个通过他们「隐性需求测试」的模型,复杂多步骤工作流程比 Opus 4.6 进步 14%,工具调用错误减少三分之二。
但这个优势有代价。过去 Opus 6 会自动「帮你想到」你没说清楚的东西:你说「整理这份文件」,它会顺便修格式、加标题、调排版。Opus 4.7 不会。你说整理,它就只整理。没提到格式,格式不动。
用 X 上 @the_smart_ape 的话说:Opus 4.6 一直在替你的模糊 prompt 兜底,4.7 不干了。
二、三项破坏性 API 变更
2.1 Extended Thinking 预算消失
Opus 4.6 可以设 budget_tokens: 32000 来控制推理深度,4.7 改成自适应思考(adaptive thinking),模型自己决定要想多久。Anthropic 内部测试显示自适应方式表现稳定优于固定预算。
2.2 采样参数被移除
temperature、top_p、top_k 全部被移除,任何非默认值都会返回 400 错误。以前靠 temperature=0 追求确定性的做法要改用 prompt 层面的格式约束,例如指定 JSON schema 或明确的输出模板。
2.3 思考内容默认隐藏
4.7 会在后台跑推理,但除非你主动设定 "display": "summarized",否则用户端只会看到一段沉默后直接跳出答案。做过「展示 AI 推理过程」功能的产品要特别注意。
| 变更项目 | Opus 4.6 | Opus 4.7 |
|---|---|---|
| 推理预算 | budget_tokens: 32000(手动设定) | thinking: {“type”: “adaptive”}(模型自决) |
| 采样参数 | temperature/top_p/top_k 可调 | 移除,返回 400 错误 |
| 思考显示 | 默认显示推理过程 | 默认隐藏,需手动启用 |
| 视觉解析度 | 1568px / 1.15MP | 2576px / 3.75MP |
| Tokenizer | 旧版 | 新版,同样文字约多 1.0–1.35 倍 token |
| Effort 层级 | low / medium / high / max | 新增 xhigh(Claude Code 默认值) |
三、新的 Effort 参数:选错等于浪费钱
Opus 4.7 新增了 xhigh effort 层级,位于 high 跟 max 之间。Claude Code 把所有方案的默认值拉到 xhigh,因为 Anthropic 判断 high 在程序开发场景榨不出够好的品质。
Hex 的 CTO Caitlin Colgrove 在 Anthropic 官方测评中给出的对照:低 effort 的 Opus 4.7 大约等于中 effort 的 Opus 4.6。换句话说,如果你把 effort 设太低,新模型的表现可能还不如旧模型的中等设定。
官方建议:
- 程序开发和 agentic 场景:从 xhigh 起跳
- 智力密集任务:至少用 high
- 简单分类和抽取:用 low
如果你的 prompt 还在写「think step by step」或「reason carefully before responding」,把这些删掉,改用 effort 参数来达成同样效果——那些指令是在补偿 4.6 的推理能力不足,4.7 在高 effort 下原生就有那个推理深度。
四、五个必须改的 Prompt 习惯
根据 Anthropic 官方 prompting best practices 文件、Boris Cherny 的实测心得,以及社区的迁移指南,以下是最影响产出品质的五个调整:
4.1 砍掉模糊语气词
「try to」「if possible」「you might want to」这类语气在 4.6 有用,因为模型会慷慨诠释。4.7 把它们当成弱化指令处理。
改法: 把每句指令写成明确的命令句。
- ❌ 「试着抽取文件中的 email」
- ✅ 「抽取文件中所有 email,回传 JSON 数组,没有就回传空数组」
4.2 删除冗余的长度控制
4.7 会根据任务复杂度自动调整回复长度。简单问题给短答案,复杂问题给长答案。「be concise」这类指令现在大多多余,除非你要覆写自动校准(例如「回复限制在 3 句以内」仍然有效)。
4.3 补上工具使用的硬性规则
中低 effort 下,4.7 偏好用推理取代工具调用。如果你的 agent 升级后突然不用某些工具了,不用重写工具描述,先试着拉高 effort。如果 effort 已经够高但工具仍被忽略,在 system prompt 加上硬性规则:
「任何超过 2 个变量的计算,必须使用 calculator 工具」
4.4 明确指定语气
Opus 4.7 的默认语气比 4.6 直接得多,不再有「好问题!」之类的暖场。客服、教练、心理健康类产品需要在 system prompt 里明确写出你要的语气风格。
4.5 指定子代理(sub-agent)策略
4.7 默认产生更少的 sub-agent。如果你的工作流依赖平行处理,要在 prompt 里写清楚:
「对于研究型任务,当子查询互相独立时,请委派给平行 sub-agent」
五、Token 用量会增加:新 Tokenizer 的影响
Opus 4.7 换了新的 tokenizer,同样的输入文字可能映射到 1.0 到 1.35 倍的 token 数量。部分开发者实测甚至到 1.16–1.51 倍。
定价没变——输入 $5 / 百万 token,输出 $25 / 百万 token——但单次请求的实际成本可能上升。
实务建议:
- 把 max_tokens 参数调高 20–35%,给新 tokenizer 留余裕
- 成本敏感的场域可以搭配新的 task budget 功能(beta),设定整个 agentic 回圈的 token 上限
六、视觉能力:解析度翻 3 倍
Opus 4.7 的图像解析度从 1568px 提升到 2576px(约 3.75 百万像素),是 4.6 的 3.3 倍。坐标现在直接对应实际像素,不用再做缩放换算。
XBOW 的 CEO Oege de Moor 在 Anthropic 官方测评中报告:他们的视觉准确度基准测试从 Opus 4.6 的 54.5% 跳到 4.7 的 98.5%。这对 computer use 场景影响重大——过去因为视觉精度不够而无法处理的整类工作,现在可以交给 Opus 处理。
七、Benchmark 数据一览
| 基准测试 | Opus 4.6 | Opus 4.7 | 变化 |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | +6.8pp |
| SWE-bench Pro | 53.4% | 64.3% | +10.9pp |
| CursorBench | 58% | 70% | +12pp |
| BigLaw Bench(Harvey) | — | 90.9%(high effort) | — |
| XBOW 视觉准确度 | 54.5% | 98.5% | +44pp |
八、谁应该现在升级,谁应该等
立刻升级:
- 工作流是长时间自主运行的 coding agent
- 需要精确 instruction following 的结构化任务
- 依赖视觉理解的 computer use 场景
这三个领域的进步最明确,回报最高。
先等:
- 你的 prompt 大量依赖模型自行推断意图
- 目前的 4.6 表现已经稳定
- 你的成本预算没有 20–35% 的缓冲
Opus 4.7 不是白吃的午餐——它更强,但它要求你也更精准。
一句话总结: Opus 4.7 是一个更聪明也更高效的 Opus 4.6,但你得先调整你跟它说话的方式——砍掉模糊语气词、用 effort 参数替代推理指令、把每个需求写成明确的命令句。