2026 年 4 月 16 日,Anthropic 发布 Claude Opus 4.7。48 小时内,开发者社群炸锅:「同一组 prompt 产出品质变差」。这不是模型退步——而是你跟 AI 说话的方式需要彻底改变。
核心观点:4.7 更强了,但你也得更精准
Claude Opus 4.7 在 SWE-bench Verified 上从 80.8% 跳到 87.6%,SWE-bench Pro 从 53.4% 提升到 64.3%。这是迄今为止最强的编程模型。
但大量开发者反馈:原本运行良好的 prompt pipeline 突然产出不稳定。
原因不在模型变弱,而在于 Opus 4.7 改变了跟你互动的方式:它不再帮你脑补模糊指令,逐字照做你写的东西。
X 上 @the_smart_ape 的一句话总结核心问题:「Opus 4.6 一直在替你的模糊 prompt 兜底,4.7 不干了。」
深度分析:五个关键维度
一、三项破坏性 API 变更
Opus 4.7 移除了三个重要参数,如果你的代码还在用,会直接收到 400 错误:
| 变更项 | Opus 4.6 | Opus 4.7 |
|---|---|---|
| 推理预算 | budget_tokens: 32000 手动设定 | thinking: {"type": "adaptive"} 模型自决 |
| 采样参数 | temperature/top_p/top_k 可调 | 移除,返回 400 错误 |
| 思考显示 | 默认显示推理过程 | 默认隐藏,需手动启用 display: "summarized" |
迁移建议:如果你的代码使用了 temperature=0 追求确定性,现在必须改用 prompt 层面的格式约束,例如指定 JSON schema 或明确输出模板。
二、最大行为变化:逐字照做,不再补完
Opus 4.7 的 instruction following 能力显著提升。Notion 的 AI Lead Sarah Sachs 指出,这是第一个通过他们「隐性需求测试」的模型,复杂多步工作流程比 4.6 进步 14%,工具调用错误减少三分之二。
但代价是:过去 4.6 会自动「帮你想」你没说清的东西,现在不会了。
- 你说「整理这份文件」,4.6 会顺便修格式、加标题、调排版
- 你说「整理这份文件」,4.7 就只整理,没提到格式,格式不动
开发者社群反应两极:
- Boris Cherny(Claude Code 创造者):「我也花了几天才学会怎么用」
- 一位日本开发者:「评判が悪すぎて速攻 4.6 にした」(评价太差,秒切回 4.6)
结论:Prompt 写得愈具体的人,升级体验愈好;愈依赖模型「读心术」的人,落差愈大。
三、全新 Effort 参数:选错等于浪费钱
Opus 4.7 新增 xhigh effort 层级,位于 high 和 max 之间。Claude Code 把所有方案默认拉到 xhigh。
Hex CTO Caitlin Colgrove 的对照数据:低 effort 的 Opus 4.7 ≈ 中 effort 的 Opus 4.6。设太低等于浪费升级。
| Effort 层级 | 适用场景 | 权衡 |
|---|---|---|
| xhigh | Agentic 编程、复杂重构 | 最佳质量,最高成本 |
| high | 多步推理、非 trivial 编程 | 推荐起步值 |
| medium | 标准对话、结构化生成 | 平衡 |
| low | 简单抽取、分类、短转换 | 最快最便宜 |
重要:如果你的 prompt 还在写「think step by step」或「reason carefully」,删掉这些——它们是补偿 4.6 推理能力不足的 workaround,4.7 在高 effort 下原生具备深度推理。
四、Token 用量增加:新 Tokenizer 的影响
Opus 4.7 换用新 tokenizer,同样文字可能映射 1.0-1.35 倍 token 数(部分实测达 1.51 倍)。
定价没变,但单次请求实际成本可能上升 20-35%。
建议:
- 把
max_tokens参数调高 20-35% 留余量 - 使用新的 task budget 功能(beta)控制 agentic 回路总用量
五、视觉能力:解析度翻 3 倍
图像解析度从 1568px 提升到 2576px(3.75 百兆像素),是 4.6 的 3.3 倍。坐标现在直接对应实际像素。
XBOW CEO Oege de Moor 报告:视觉准确度基准从 54.5% 跳到 98.5%。这对 computer use 场景影响重大——过去因精度不够无法处理的整类工作,现在可以交给 Opus。
五 Prompt 习惯必须改
根据 Anthropic 官方 prompting best practices、Boris Cherny 实测、keepmyprompts.com 迁移指南:
1. 砍掉模糊语气词
- 4.6 有效:「try to」「if possible」「you might want to」模型会慷慨诠释
- 4.7 失效:当作弱化指令处理
改法:
# 之前
"Try to extract all email addresses from the document if possible."
# 之后
"Extract every email address in the document. Return a JSON array. If none exist, return an empty array."
2. 删除冗余长度控制
4.7 根据任务复杂度自动调整回复长度。「be concise」在简单问题上大多多余。
保留:"Reply in 3 sentences" 这类明确格式约束仍然有效。
3. 补上工具使用硬性规则
中低 effort 下,4.7 偏好推理而非工具调用。
修复:先试着拉高 effort。如果 effort 已够高但工具仍被忽略,在 system prompt 加硬性规则:
"For any calculation involving more than 2 variables, you MUST use the calculator tool."
4. 明确指定语气
4.7 预设备语气比 4.6 直接得多,不再有「好问题!」这类暖场。
客服、教练、心理健康类产品需要在 system prompt 明确写出:
"Respond with a warm, supportive tone. Use encouraging language."
5. 指定子代理策略
4.7 默认产生更少 sub-agent。工作流依赖并行处理需明确写:
"For research tasks, delegate sub-queries to parallel sub-agents when the queries are independent."
谁该升级,谁该等
立刻升级 ✅
- 长时间自主运行的 coding agent
- 需要精确 instruction following 的结构化任务
- 依赖视觉理解的 computer use 场景
先等 ⚠️
- Prompt 大量依赖模型自行推断意图
- 目前 4.6 表现已稳定
- 成本预算没有 20-35% 缓冲
一句话总结:Hex CTO 的话完美概括这次升级——「这是一个更聪明也更高效的 Opus 4.6。但你得先调整你跟它说话的方式。」
Benchmark 数据一览
| 基准测试 | Opus 4.6 | Opus 4.7 | 变化 |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | +6.8pp |
| SWE-bench Pro | 53.4% | 64.3% | +10.9pp |
| CursorBench | 58% | 70% | +12pp |
| XBOW 视觉准确度 | 54.5% | 98.5% | +44pp |
| Rakuten-SWE-Bench | 基准 | 3x | 200% 提升 |
引用来源
- Anthropic — Introducing Claude Opus 4.7
- Anthropic — April 23 Postmortem
- KeepMyPrompts — Claude Opus 4.7 Prompting Guide
- Product Compass — Ultimate Guide to Claude Opus 4.7
- GitHub Changelog — Claude Opus 4.7
本文为 RSS Daily 自动生成。封面图生成失败,文章以草稿形式保存。