Please enable Javascript to view the contents

Claude Opus 4.7 深度解析:为什么你的 Prompt 突然失效了

 ·  ☕ 4 分钟 · 👀... 阅读

2026 年 4 月 16 日,Anthropic 发布 Claude Opus 4.7。48 小时内,开发者社群炸锅:「同一组 prompt 产出品质变差」。这不是模型退步——而是你跟 AI 说话的方式需要彻底改变。

核心观点:4.7 更强了,但你也得更精准

Claude Opus 4.7 在 SWE-bench Verified 上从 80.8% 跳到 87.6%,SWE-bench Pro 从 53.4% 提升到 64.3%。这是迄今为止最强的编程模型。

但大量开发者反馈:原本运行良好的 prompt pipeline 突然产出不稳定。

原因不在模型变弱,而在于 Opus 4.7 改变了跟你互动的方式:它不再帮你脑补模糊指令,逐字照做你写的东西

X 上 @the_smart_ape 的一句话总结核心问题:「Opus 4.6 一直在替你的模糊 prompt 兜底,4.7 不干了。」


深度分析:五个关键维度

一、三项破坏性 API 变更

Opus 4.7 移除了三个重要参数,如果你的代码还在用,会直接收到 400 错误:

变更项Opus 4.6Opus 4.7
推理预算budget_tokens: 32000 手动设定thinking: {"type": "adaptive"} 模型自决
采样参数temperature/top_p/top_k 可调移除,返回 400 错误
思考显示默认显示推理过程默认隐藏,需手动启用 display: "summarized"

迁移建议:如果你的代码使用了 temperature=0 追求确定性,现在必须改用 prompt 层面的格式约束,例如指定 JSON schema 或明确输出模板。

二、最大行为变化:逐字照做,不再补完

Opus 4.7 的 instruction following 能力显著提升。Notion 的 AI Lead Sarah Sachs 指出,这是第一个通过他们「隐性需求测试」的模型,复杂多步工作流程比 4.6 进步 14%,工具调用错误减少三分之二。

但代价是:过去 4.6 会自动「帮你想」你没说清的东西,现在不会了

  • 你说「整理这份文件」,4.6 会顺便修格式、加标题、调排版
  • 你说「整理这份文件」,4.7 就只整理,没提到格式,格式不动

开发者社群反应两极:

  • Boris Cherny(Claude Code 创造者):「我也花了几天才学会怎么用」
  • 一位日本开发者:「评判が悪すぎて速攻 4.6 にした」(评价太差,秒切回 4.6)

结论:Prompt 写得愈具体的人,升级体验愈好;愈依赖模型「读心术」的人,落差愈大。

三、全新 Effort 参数:选错等于浪费钱

Opus 4.7 新增 xhigh effort 层级,位于 high 和 max 之间。Claude Code 把所有方案默认拉到 xhigh。

Hex CTO Caitlin Colgrove 的对照数据:低 effort 的 Opus 4.7 ≈ 中 effort 的 Opus 4.6。设太低等于浪费升级。

Effort 层级适用场景权衡
xhighAgentic 编程、复杂重构最佳质量,最高成本
high多步推理、非 trivial 编程推荐起步值
medium标准对话、结构化生成平衡
low简单抽取、分类、短转换最快最便宜

重要:如果你的 prompt 还在写「think step by step」或「reason carefully」,删掉这些——它们是补偿 4.6 推理能力不足的 workaround,4.7 在高 effort 下原生具备深度推理。

四、Token 用量增加:新 Tokenizer 的影响

Opus 4.7 换用新 tokenizer,同样文字可能映射 1.0-1.35 倍 token 数(部分实测达 1.51 倍)。

定价没变,但单次请求实际成本可能上升 20-35%。

建议

  • max_tokens 参数调高 20-35% 留余量
  • 使用新的 task budget 功能(beta)控制 agentic 回路总用量

五、视觉能力:解析度翻 3 倍

图像解析度从 1568px 提升到 2576px(3.75 百兆像素),是 4.6 的 3.3 倍。坐标现在直接对应实际像素。

XBOW CEO Oege de Moor 报告:视觉准确度基准从 54.5% 跳到 98.5%。这对 computer use 场景影响重大——过去因精度不够无法处理的整类工作,现在可以交给 Opus。


五 Prompt 习惯必须改

根据 Anthropic 官方 prompting best practices、Boris Cherny 实测、keepmyprompts.com 迁移指南:

1. 砍掉模糊语气词

  • 4.6 有效:「try to」「if possible」「you might want to」模型会慷慨诠释
  • 4.7 失效:当作弱化指令处理

改法

# 之前
"Try to extract all email addresses from the document if possible."

# 之后
"Extract every email address in the document. Return a JSON array. If none exist, return an empty array."

2. 删除冗余长度控制

4.7 根据任务复杂度自动调整回复长度。「be concise」在简单问题上大多多余。

保留"Reply in 3 sentences" 这类明确格式约束仍然有效。

3. 补上工具使用硬性规则

中低 effort 下,4.7 偏好推理而非工具调用。

修复:先试着拉高 effort。如果 effort 已够高但工具仍被忽略,在 system prompt 加硬性规则:

"For any calculation involving more than 2 variables, you MUST use the calculator tool."

4. 明确指定语气

4.7 预设备语气比 4.6 直接得多,不再有「好问题!」这类暖场。

客服、教练、心理健康类产品需要在 system prompt 明确写出:

"Respond with a warm, supportive tone. Use encouraging language."

5. 指定子代理策略

4.7 默认产生更少 sub-agent。工作流依赖并行处理需明确写:

"For research tasks, delegate sub-queries to parallel sub-agents when the queries are independent."

谁该升级,谁该等

立刻升级 ✅

  • 长时间自主运行的 coding agent
  • 需要精确 instruction following 的结构化任务
  • 依赖视觉理解的 computer use 场景

先等 ⚠️

  • Prompt 大量依赖模型自行推断意图
  • 目前 4.6 表现已稳定
  • 成本预算没有 20-35% 缓冲

一句话总结:Hex CTO 的话完美概括这次升级——「这是一个更聪明也更高效的 Opus 4.6。但你得先调整你跟它说话的方式。」


Benchmark 数据一览

基准测试Opus 4.6Opus 4.7变化
SWE-bench Verified80.8%87.6%+6.8pp
SWE-bench Pro53.4%64.3%+10.9pp
CursorBench58%70%+12pp
XBOW 视觉准确度54.5%98.5%+44pp
Rakuten-SWE-Bench基准3x200% 提升

引用来源


本文为 RSS Daily 自动生成。封面图生成失败,文章以草稿形式保存。


VictorHong
作者
VictorHong
🔩工具控,⌨️ 后端程序员,🧪AI 探索者