Claude Opus 4.7 重大更新：开发者必须知道的提示词迁移指南

Claude Opus 4.7 于 2026 年 4 月 16 日正式发布，SWE-bench Verified 分数从 Opus 4.6 的 80.8% 跳到 87.6%。但大量开发者在 48 小时内回报「同一组 prompt 产出品质变差」。问题不在模型退步，而在 Opus 4.7 改变了跟开发者互动的方式：它不再帮你脑补模糊指令，逐字照做你写的东西。

这篇文章将深度解析 Opus 4.7 的五项重大变更，并提供具体的提示词修改策略。

一、核心观点：更聪明，也更"字面"

Opus 4.7 的 instruction following 能力大幅提升。根据 Notion 的 AI Lead Sarah Sachs 的测试，这是第一个通过他们「隐性需求测试」的模型，复杂多步骤工作流程比 Opus 4.6 进步 14%，工具调用错误减少三分之二。

但这个优势有代价。过去 Opus 6 会自动「帮你想到」你没说清楚的东西：你说「整理这份文件」，它会顺便修格式、加标题、调排版。Opus 4.7 不会。你说整理，它就只整理。没提到格式，格式不动。

用 X 上 @the_smart_ape 的话说：Opus 4.6 一直在替你的模糊 prompt 兜底，4.7 不干了。

二、三项破坏性 API 变更

2.1 Extended Thinking 预算消失

Opus 4.6 可以设 budget_tokens: 32000 来控制推理深度，4.7 改成自适应思考（adaptive thinking），模型自己决定要想多久。Anthropic 内部测试显示自适应方式表现稳定优于固定预算。

2.2 采样参数被移除

temperature、top_p、top_k 全部被移除，任何非默认值都会返回 400 错误。以前靠 temperature=0 追求确定性的做法要改用 prompt 层面的格式约束，例如指定 JSON schema 或明确的输出模板。

2.3 思考内容默认隐藏

4.7 会在后台跑推理，但除非你主动设定 "display": "summarized"，否则用户端只会看到一段沉默后直接跳出答案。做过「展示 AI 推理过程」功能的产品要特别注意。

变更项目	Opus 4.6	Opus 4.7
推理预算	budget_tokens: 32000（手动设定）	thinking: {“type”: “adaptive”}（模型自决）
采样参数	temperature/top_p/top_k 可调	移除，返回 400 错误
思考显示	默认显示推理过程	默认隐藏，需手动启用
视觉解析度	1568px / 1.15MP	2576px / 3.75MP
Tokenizer	旧版	新版，同样文字约多 1.0–1.35 倍 token
Effort 层级	low / medium / high / max	新增 xhigh（Claude Code 默认值）

三、新的 Effort 参数：选错等于浪费钱

Opus 4.7 新增了 xhigh effort 层级，位于 high 跟 max 之间。Claude Code 把所有方案的默认值拉到 xhigh，因为 Anthropic 判断 high 在程序开发场景榨不出够好的品质。

Hex 的 CTO Caitlin Colgrove 在 Anthropic 官方测评中给出的对照：低 effort 的 Opus 4.7 大约等于中 effort 的 Opus 4.6。换句话说，如果你把 effort 设太低，新模型的表现可能还不如旧模型的中等设定。

官方建议：

程序开发和 agentic 场景：从 xhigh 起跳
智力密集任务：至少用 high
简单分类和抽取：用 low

如果你的 prompt 还在写「think step by step」或「reason carefully before responding」，把这些删掉，改用 effort 参数来达成同样效果——那些指令是在补偿 4.6 的推理能力不足，4.7 在高 effort 下原生就有那个推理深度。

四、五个必须改的 Prompt 习惯

根据 Anthropic 官方 prompting best practices 文件、Boris Cherny 的实测心得，以及社区的迁移指南，以下是最影响产出品质的五个调整：

4.1 砍掉模糊语气词

「try to」「if possible」「you might want to」这类语气在 4.6 有用，因为模型会慷慨诠释。4.7 把它们当成弱化指令处理。

改法： 把每句指令写成明确的命令句。

❌ 「试着抽取文件中的 email」
✅ 「抽取文件中所有 email，回传 JSON 数组，没有就回传空数组」

4.2 删除冗余的长度控制

4.7 会根据任务复杂度自动调整回复长度。简单问题给短答案，复杂问题给长答案。「be concise」这类指令现在大多多余，除非你要覆写自动校准（例如「回复限制在 3 句以内」仍然有效）。

4.3 补上工具使用的硬性规则

中低 effort 下，4.7 偏好用推理取代工具调用。如果你的 agent 升级后突然不用某些工具了，不用重写工具描述，先试着拉高 effort。如果 effort 已经够高但工具仍被忽略，在 system prompt 加上硬性规则：

「任何超过 2 个变量的计算，必须使用 calculator 工具」

4.4 明确指定语气

Opus 4.7 的默认语气比 4.6 直接得多，不再有「好问题！」之类的暖场。客服、教练、心理健康类产品需要在 system prompt 里明确写出你要的语气风格。

4.5 指定子代理（sub-agent）策略

4.7 默认产生更少的 sub-agent。如果你的工作流依赖平行处理，要在 prompt 里写清楚：

「对于研究型任务，当子查询互相独立时，请委派给平行 sub-agent」

五、Token 用量会增加：新 Tokenizer 的影响

Opus 4.7 换了新的 tokenizer，同样的输入文字可能映射到 1.0 到 1.35 倍的 token 数量。部分开发者实测甚至到 1.16–1.51 倍。

定价没变——输入 $5 / 百万 token，输出 $25 / 百万 token——但单次请求的实际成本可能上升。

实务建议：

把 max_tokens 参数调高 20–35%，给新 tokenizer 留余裕
成本敏感的场域可以搭配新的 task budget 功能（beta），设定整个 agentic 回圈的 token 上限

六、视觉能力：解析度翻 3 倍

Opus 4.7 的图像解析度从 1568px 提升到 2576px（约 3.75 百万像素），是 4.6 的 3.3 倍。坐标现在直接对应实际像素，不用再做缩放换算。

XBOW 的 CEO Oege de Moor 在 Anthropic 官方测评中报告：他们的视觉准确度基准测试从 Opus 4.6 的 54.5% 跳到 4.7 的 98.5%。这对 computer use 场景影响重大——过去因为视觉精度不够而无法处理的整类工作，现在可以交给 Opus 处理。

七、Benchmark 数据一览

基准测试	Opus 4.6	Opus 4.7	变化
SWE-bench Verified	80.8%	87.6%	+6.8pp
SWE-bench Pro	53.4%	64.3%	+10.9pp
CursorBench	58%	70%	+12pp
BigLaw Bench（Harvey）	—	90.9%（high effort）	—
XBOW 视觉准确度	54.5%	98.5%	+44pp

八、谁应该现在升级，谁应该等

立刻升级：

工作流是长时间自主运行的 coding agent
需要精确 instruction following 的结构化任务
依赖视觉理解的 computer use 场景

这三个领域的进步最明确，回报最高。

先等：

你的 prompt 大量依赖模型自行推断意图
目前的 4.6 表现已经稳定
你的成本预算没有 20–35% 的缓冲

Opus 4.7 不是白吃的午餐——它更强，但它要求你也更精准。

一句话总结： Opus 4.7 是一个更聪明也更高效的 Opus 4.6，但你得先调整你跟它说话的方式——砍掉模糊语气词、用 effort 参数替代推理指令、把每个需求写成明确的命令句。