Please enable Javascript to view the contents

Claude Opus 4.7 重大更新:开发者必须知道的提示词迁移指南

 ·  ☕ 5 分钟  ·  🪶 VictorHong · 👀... 阅读

Claude Opus 4.7 重大更新:开发者必须知道的提示词迁移指南

Claude Opus 4.7 于 2026 年 4 月 16 日正式发布,SWE-bench Verified 分数从 Opus 4.6 的 80.8% 跳到 87.6%。但大量开发者在 48 小时内回报「同一组 prompt 产出品质变差」。问题不在模型退步,而在 Opus 4.7 改变了跟开发者互动的方式:它不再帮你脑补模糊指令,逐字照做你写的东西

这篇文章将深度解析 Opus 4.7 的五项重大变更,并提供具体的提示词修改策略。

一、核心观点:更聪明,也更"字面"

Opus 4.7 的 instruction following 能力大幅提升。根据 Notion 的 AI Lead Sarah Sachs 的测试,这是第一个通过他们「隐性需求测试」的模型,复杂多步骤工作流程比 Opus 4.6 进步 14%,工具调用错误减少三分之二。

但这个优势有代价。过去 Opus 6 会自动「帮你想到」你没说清楚的东西:你说「整理这份文件」,它会顺便修格式、加标题、调排版。Opus 4.7 不会。你说整理,它就只整理。没提到格式,格式不动。

用 X 上 @the_smart_ape 的话说:Opus 4.6 一直在替你的模糊 prompt 兜底,4.7 不干了。

二、三项破坏性 API 变更

2.1 Extended Thinking 预算消失

Opus 4.6 可以设 budget_tokens: 32000 来控制推理深度,4.7 改成自适应思考(adaptive thinking),模型自己决定要想多久。Anthropic 内部测试显示自适应方式表现稳定优于固定预算。

2.2 采样参数被移除

temperaturetop_ptop_k 全部被移除,任何非默认值都会返回 400 错误。以前靠 temperature=0 追求确定性的做法要改用 prompt 层面的格式约束,例如指定 JSON schema 或明确的输出模板。

2.3 思考内容默认隐藏

4.7 会在后台跑推理,但除非你主动设定 "display": "summarized",否则用户端只会看到一段沉默后直接跳出答案。做过「展示 AI 推理过程」功能的产品要特别注意。

变更项目 Opus 4.6 Opus 4.7
推理预算 budget_tokens: 32000(手动设定) thinking: {“type”: “adaptive”}(模型自决)
采样参数 temperature/top_p/top_k 可调 移除,返回 400 错误
思考显示 默认显示推理过程 默认隐藏,需手动启用
视觉解析度 1568px / 1.15MP 2576px / 3.75MP
Tokenizer 旧版 新版,同样文字约多 1.0–1.35 倍 token
Effort 层级 low / medium / high / max 新增 xhigh(Claude Code 默认值)

三、新的 Effort 参数:选错等于浪费钱

Opus 4.7 新增了 xhigh effort 层级,位于 high 跟 max 之间。Claude Code 把所有方案的默认值拉到 xhigh,因为 Anthropic 判断 high 在程序开发场景榨不出够好的品质。

Hex 的 CTO Caitlin Colgrove 在 Anthropic 官方测评中给出的对照:低 effort 的 Opus 4.7 大约等于中 effort 的 Opus 4.6。换句话说,如果你把 effort 设太低,新模型的表现可能还不如旧模型的中等设定。

官方建议:

  • 程序开发和 agentic 场景:从 xhigh 起跳
  • 智力密集任务:至少用 high
  • 简单分类和抽取:用 low

如果你的 prompt 还在写「think step by step」或「reason carefully before responding」,把这些删掉,改用 effort 参数来达成同样效果——那些指令是在补偿 4.6 的推理能力不足,4.7 在高 effort 下原生就有那个推理深度。

四、五个必须改的 Prompt 习惯

根据 Anthropic 官方 prompting best practices 文件、Boris Cherny 的实测心得,以及社区的迁移指南,以下是最影响产出品质的五个调整:

4.1 砍掉模糊语气词

「try to」「if possible」「you might want to」这类语气在 4.6 有用,因为模型会慷慨诠释。4.7 把它们当成弱化指令处理。

改法: 把每句指令写成明确的命令句。

  • ❌ 「试着抽取文件中的 email」
  • ✅ 「抽取文件中所有 email,回传 JSON 数组,没有就回传空数组」

4.2 删除冗余的长度控制

4.7 会根据任务复杂度自动调整回复长度。简单问题给短答案,复杂问题给长答案。「be concise」这类指令现在大多多余,除非你要覆写自动校准(例如「回复限制在 3 句以内」仍然有效)。

4.3 补上工具使用的硬性规则

中低 effort 下,4.7 偏好用推理取代工具调用。如果你的 agent 升级后突然不用某些工具了,不用重写工具描述,先试着拉高 effort。如果 effort 已经够高但工具仍被忽略,在 system prompt 加上硬性规则:

「任何超过 2 个变量的计算,必须使用 calculator 工具」

4.4 明确指定语气

Opus 4.7 的默认语气比 4.6 直接得多,不再有「好问题!」之类的暖场。客服、教练、心理健康类产品需要在 system prompt 里明确写出你要的语气风格。

4.5 指定子代理(sub-agent)策略

4.7 默认产生更少的 sub-agent。如果你的工作流依赖平行处理,要在 prompt 里写清楚:

「对于研究型任务,当子查询互相独立时,请委派给平行 sub-agent」

五、Token 用量会增加:新 Tokenizer 的影响

Opus 4.7 换了新的 tokenizer,同样的输入文字可能映射到 1.0 到 1.35 倍的 token 数量。部分开发者实测甚至到 1.16–1.51 倍。

定价没变——输入 $5 / 百万 token,输出 $25 / 百万 token——但单次请求的实际成本可能上升。

实务建议:

  • 把 max_tokens 参数调高 20–35%,给新 tokenizer 留余裕
  • 成本敏感的场域可以搭配新的 task budget 功能(beta),设定整个 agentic 回圈的 token 上限

六、视觉能力:解析度翻 3 倍

Opus 4.7 的图像解析度从 1568px 提升到 2576px(约 3.75 百万像素),是 4.6 的 3.3 倍。坐标现在直接对应实际像素,不用再做缩放换算。

XBOW 的 CEO Oege de Moor 在 Anthropic 官方测评中报告:他们的视觉准确度基准测试从 Opus 4.6 的 54.5% 跳到 4.7 的 98.5%。这对 computer use 场景影响重大——过去因为视觉精度不够而无法处理的整类工作,现在可以交给 Opus 处理。

七、Benchmark 数据一览

基准测试 Opus 4.6 Opus 4.7 变化
SWE-bench Verified 80.8% 87.6% +6.8pp
SWE-bench Pro 53.4% 64.3% +10.9pp
CursorBench 58% 70% +12pp
BigLaw Bench(Harvey) 90.9%(high effort)
XBOW 视觉准确度 54.5% 98.5% +44pp

八、谁应该现在升级,谁应该等

立刻升级:

  • 工作流是长时间自主运行的 coding agent
  • 需要精确 instruction following 的结构化任务
  • 依赖视觉理解的 computer use 场景

这三个领域的进步最明确,回报最高。

先等:

  • 你的 prompt 大量依赖模型自行推断意图
  • 目前的 4.6 表现已经稳定
  • 你的成本预算没有 20–35% 的缓冲

Opus 4.7 不是白吃的午餐——它更强,但它要求你也更精准


一句话总结: Opus 4.7 是一个更聪明也更高效的 Opus 4.6,但你得先调整你跟它说话的方式——砍掉模糊语气词、用 effort 参数替代推理指令、把每个需求写成明确的命令句。

参考来源


VictorHong
作者
VictorHong
🔩工具控,⌨️ 后端程序员,🧪AI 探索者