Claude Opus 4.7 发布：编程、视觉、指令遵循的三重升级

就在今天，Anthropic 发布了新一代旗舰模型 Claude Opus 4.7。

这是一次小版本升级，不是 Opus 5。但它在写代码这件事上，比上一代 Opus 4.6 强了差不多 11 个百分点 - 这个幅度，在一次小版本升级里其实很夸张。价格完全没变，上下文窗口也还是 100 万 token。

如果你是开发者、在做 Agent、或者在靠 Claude 处理复杂的知识工作，这篇就是给你的；如果你只是日常用 Claude 聊天写文案，可以放心 - 下次打开 Claude.ai 你自然就用上了，不吃亏。

先说结论

一句话总结 Opus 4.7：编程更强、看图更清、更听话。

我把官方发布页里那张综合 benchmark 对比表搬过来：

Opus 4.7 综合 benchmark 对比表

五列分别是 Opus 4.7、Opus 4.6、GPT-5.4、Gemini 3.1 Pro，以及还在预览阶段的 Mythos。橙色框框住的是 Opus 4.7 的成绩。

对于这次升级，官方的一句话是："Opus 4.7 handles complex, long-running tasks with rigor and consistency, pays precise attention to instructions, and devises ways to verify its own outputs before reporting back." 换成人话：能扛得住长时间、多步骤的任务，会严格按你的指令来，并且会自己验证结果再回复。

下面挨个看。

最大的亮点：编程能力

这次 Anthropic 主打的卖点就是编程。

在业界最公认的编程测试 SWE-bench Pro 上，Opus 4.7 拿到 64.3 分，Opus 4.6 只有 53.4。一次小版本升级涨了差不多 11 个点。同场比较，GPT-5.4 是 57.7，Gemini 3.1 Pro 是 54.2 - 已经全面发布的大模型里，Opus 4.7 在这个榜单上重新坐到了头把交椅。

官方另外放了一张 SWE-bench 多语言和多模态的对比图：

SWE-bench Multilingual 和 Multimodal 对比

左边多语言从 77.8 涨到 80.5，右边多模态（看截图改代码）从 27.1 涨到 34.5 - 多模态涨幅最大，这其实跟下一节要讲的"看图能力"是一回事。

更直观的体感是什么？以前让 Claude 改一个跨多个文件的 bug，它经常改着改着就跑偏，或者说"我改完了"结果根本没跑通。Opus 4.7 一个很明显的变化是，它会自己验证结果。做完一件事，它会主动跑一下、查一下，确认真的没问题再告诉你。

这一点在客户反馈里也得到了印证。Cursor 团队说他们的内部 CursorBench 分数从 58% 跳到 70%；Rakuten 说在他们的生产任务基准上，Opus 4.7 能解决的任务量是 4.6 的 3 倍；Cognition 说在他们 93 个编码任务的 benchmark 上涨了 13%。

第一次能把图看清楚

这是 Claude 第一次支持高分辨率图片输入。

以前你截一张稍微密一点的屏幕发给 Claude - 比如一整个 dashboard、一页代码、一张密密麻麻的 Excel 表 - 它经常看不清小字。原因是之前所有 Claude 模型都会把图片压到 115 万像素以内（长边 1,568 px）。

Opus 4.7 把上限提高到 375 万像素（长边 2,576 px），差不多是之前的三倍。这是 Anthropic 第一次把分辨率上限真的放开。

效果有多明显？官方发了一张图，专门测"让模型从截屏里找到那个按钮"这类任务：

ScreenSpot-Pro 视觉导航对比

同样是 Opus 4.7，低分辨率模式下纯视觉识别准确率 69.0%，切到高分辨率直接跳到 79.5% - 就因为它终于能看清了。对比 Opus 4.6 的低清 57.7%，从换代 + 换分辨率算起，涨了将近 22 个百分点。

这对哪些场景最有用？

读长截图、读仪表盘
分析密集的表格和图表
给 AI 做"computer use" - 让它操作你的电脑，这类任务对看清屏幕要求特别高

顺带说一个冷门但数字夸张的指标 - Structural Biology 基准：

生物结构推理对比

74.0 vs 30.9 - 这是所有基准里涨幅最夸张的一项。虽然日常用不上，但它说明 Opus 4.7 在专业视觉 + 推理结合的场景上，几乎是换了一个量级。

它更听话了

这一点没有具体分数，但 Anthropic 在 docs 里专门列了出来，放在"Behavior changes"章节的第一条：

More literal instruction following, particularly at lower effort levels.

Opus 4.7 会更严格地按你的指令来。你说"不要加注释"，它就真的不加；你说"只改这一个函数"，它不会顺手重构周围的代码；你让它"先问再做"，它不会自作主张跳过。

这里有一个副作用要提醒一下 - 如果你之前给 Opus 4.6 写过很详细的 prompt，换到 4.7 可能需要微调。因为它现在会更"字面"地理解你的话。以前某些你写进去是为了防止它过度发挥的"保护性措辞"，在 4.7 上可能反而让它做得太保守。

其他需要知道的

价格没变。 输入每百万 token $5，输出 $25，跟 4.6 完全一样。1 百万 token 上下文也没有额外溢价。

上下文窗口还是 100 万 token。 这个是 4.6 时代就有的能力，4.7 继续保留。最大输出是 128K token。

可用渠道。 API 的 model ID 是 claude-opus-4-7，Claude.ai、Claude Code、AWS Bedrock、Google Vertex、微软 Foundry 都已经上线。

一个行为上的变化叫 Adaptive Thinking。 以前你要手动指定"给模型多少 token 来思考"，现在模型自己根据任务难度决定。简单问题秒答，复杂问题多想一会儿。对 API 使用者来说这是一个 breaking change - 老的 budget_tokens 参数已经不支持了，要换成 thinking: {"type": "adaptive"} + output_config: {"effort": "high"}。

顺便还有一个新的 effort level 叫 xhigh，夹在 high 和 max 中间，官方建议"编程和 agent 任务用 xhigh 起步"。

Claude Code 那边也上了一个新命令 /ultrareview - 一个专门做代码审查的独立会话，会仔细读你的改动并标出 bug 和设计问题。

该不该立刻换

我的建议：

如果你用 Claude Code 写代码，立刻换。10 个点的 SWE-bench 提升是能真实感觉到的。
如果你在做 Agent、自动化任务，立刻换。它会自我验证、更听话、看图更清，这三点对 agent 特别关键。
如果你要处理截图、仪表盘、设计稿，立刻换，并且记得打开高分辨率模式。
如果你只是日常聊天、写文案，不用急，反正价格没涨，下次自然就用上了。

一个小提醒 - 迁移时的 token 账单可能会略贵一些。Opus 4.7 换了新 tokenizer，同样的内容大概多用 1.0 到 1.35 倍 token。不算离谱，但做预算规划时要留意。

最后

这次 Opus 4.7 不是一次革命性升级，Anthropic 自己也没把它吹成"改变一切"。

但在编程、视觉、指令遵循这三件最影响日常使用体验的事情上，它都给出了看得见的改进。而且价格不变 - 对开发者来说，这就是一次很划算的免费升级。

顺便插播一下，这期内容我也做成了一个 5 分钟的视频，在 YouTube 和 Bilibili 都发了，搜"小木头"就能找到。

参考链接：

Claude Opus 4.7 发布：编程、视觉、指令遵循的三重升级

先说结论

最大的亮点：编程能力

第一次能把图看清楚

它更听话了

其他需要知道的

该不该立刻换

最后

相关文章

DeepSeek vs ChatGPT vs Claude：2026 年怎么选

Claude Skills 与 MCP：AI 能力扩展的两种哲学

一个人做 SaaS：2026 年独立开发者工具栈

准备开始了吗？