Claude Opus 4.7 深度解析：为什么你的 Prompt 突然失效了

2026 年 4 月 16 日，Anthropic 发布 Claude Opus 4.7。48 小时内，开发者社群炸锅：「同一组 prompt 产出品质变差」。这不是模型退步——而是你跟 AI 说话的方式需要彻底改变。

核心观点：4.7 更强了，但你也得更精准

Claude Opus 4.7 在 SWE-bench Verified 上从 80.8% 跳到 87.6%，SWE-bench Pro 从 53.4% 提升到 64.3%。这是迄今为止最强的编程模型。

但大量开发者反馈：原本运行良好的 prompt pipeline 突然产出不稳定。

原因不在模型变弱，而在于 Opus 4.7 改变了跟你互动的方式：它不再帮你脑补模糊指令，逐字照做你写的东西。

X 上 @the_smart_ape 的一句话总结核心问题：「Opus 4.6 一直在替你的模糊 prompt 兜底，4.7 不干了。」

深度分析：五个关键维度

一、三项破坏性 API 变更

Opus 4.7 移除了三个重要参数，如果你的代码还在用，会直接收到 400 错误：

变更项	Opus 4.6	Opus 4.7
推理预算	`budget_tokens: 32000` 手动设定	`thinking: {"type": "adaptive"}` 模型自决
采样参数	temperature/top_p/top_k 可调	移除，返回 400 错误
思考显示	默认显示推理过程	默认隐藏，需手动启用 `display: "summarized"`

迁移建议：如果你的代码使用了 temperature=0 追求确定性，现在必须改用 prompt 层面的格式约束，例如指定 JSON schema 或明确输出模板。

二、最大行为变化：逐字照做，不再补完

Opus 4.7 的 instruction following 能力显著提升。Notion 的 AI Lead Sarah Sachs 指出，这是第一个通过他们「隐性需求测试」的模型，复杂多步工作流程比 4.6 进步 14%，工具调用错误减少三分之二。

但代价是：过去 4.6 会自动「帮你想」你没说清的东西，现在不会了。

你说「整理这份文件」，4.6 会顺便修格式、加标题、调排版
你说「整理这份文件」，4.7 就只整理，没提到格式，格式不动

开发者社群反应两极：

Boris Cherny（Claude Code 创造者）：「我也花了几天才学会怎么用」
一位日本开发者：「评判が悪すぎて速攻 4.6 にした」（评价太差，秒切回 4.6）

结论：Prompt 写得愈具体的人，升级体验愈好；愈依赖模型「读心术」的人，落差愈大。

三、全新 Effort 参数：选错等于浪费钱

Opus 4.7 新增 xhigh effort 层级，位于 high 和 max 之间。Claude Code 把所有方案默认拉到 xhigh。

Hex CTO Caitlin Colgrove 的对照数据：低 effort 的 Opus 4.7 ≈ 中 effort 的 Opus 4.6。设太低等于浪费升级。

Effort 层级	适用场景	权衡
xhigh	Agentic 编程、复杂重构	最佳质量，最高成本
high	多步推理、非 trivial 编程	推荐起步值
medium	标准对话、结构化生成	平衡
low	简单抽取、分类、短转换	最快最便宜

重要：如果你的 prompt 还在写「think step by step」或「reason carefully」，删掉这些——它们是补偿 4.6 推理能力不足的 workaround，4.7 在高 effort 下原生具备深度推理。

四、Token 用量增加：新 Tokenizer 的影响

Opus 4.7 换用新 tokenizer，同样文字可能映射 1.0-1.35 倍 token 数（部分实测达 1.51 倍）。

定价没变，但单次请求实际成本可能上升 20-35%。

建议：

把 max_tokens 参数调高 20-35% 留余量
使用新的 task budget 功能（beta）控制 agentic 回路总用量

五、视觉能力：解析度翻 3 倍

图像解析度从 1568px 提升到 2576px（3.75 百兆像素），是 4.6 的 3.3 倍。坐标现在直接对应实际像素。

XBOW CEO Oege de Moor 报告：视觉准确度基准从 54.5% 跳到 98.5%。这对 computer use 场景影响重大——过去因精度不够无法处理的整类工作，现在可以交给 Opus。

五 Prompt 习惯必须改

根据 Anthropic 官方 prompting best practices、Boris Cherny 实测、keepmyprompts.com 迁移指南：

1. 砍掉模糊语气词

4.6 有效：「try to」「if possible」「you might want to」模型会慷慨诠释
4.7 失效：当作弱化指令处理

改法：

# 之前
"Try to extract all email addresses from the document if possible."

# 之后
"Extract every email address in the document. Return a JSON array. If none exist, return an empty array."

2. 删除冗余长度控制

4.7 根据任务复杂度自动调整回复长度。「be concise」在简单问题上大多多余。

保留："Reply in 3 sentences" 这类明确格式约束仍然有效。

3. 补上工具使用硬性规则

中低 effort 下，4.7 偏好推理而非工具调用。

修复：先试着拉高 effort。如果 effort 已够高但工具仍被忽略，在 system prompt 加硬性规则：

"For any calculation involving more than 2 variables, you MUST use the calculator tool."

4. 明确指定语气

4.7 预设备语气比 4.6 直接得多，不再有「好问题！」这类暖场。

客服、教练、心理健康类产品需要在 system prompt 明确写出：

"Respond with a warm, supportive tone. Use encouraging language."

5. 指定子代理策略

4.7 默认产生更少 sub-agent。工作流依赖并行处理需明确写：

"For research tasks, delegate sub-queries to parallel sub-agents when the queries are independent."

谁该升级，谁该等

立刻升级 ✅

长时间自主运行的 coding agent
需要精确 instruction following 的结构化任务
依赖视觉理解的 computer use 场景

先等 ⚠️

Prompt 大量依赖模型自行推断意图
目前 4.6 表现已稳定
成本预算没有 20-35% 缓冲

一句话总结：Hex CTO 的话完美概括这次升级——「这是一个更聪明也更高效的 Opus 4.6。但你得先调整你跟它说话的方式。」

Benchmark 数据一览

基准测试	Opus 4.6	Opus 4.7	变化
SWE-bench Verified	80.8%	87.6%	+6.8pp
SWE-bench Pro	53.4%	64.3%	+10.9pp
CursorBench	58%	70%	+12pp
XBOW 视觉准确度	54.5%	98.5%	+44pp
Rakuten-SWE-Bench	基准	3x	200% 提升

引用来源

本文为 RSS Daily 自动生成。封面图生成失败，文章以草稿形式保存。