返回博客2026年4月16日2 分钟阅读

Claude Opus 4.7 发布:编程、视觉、指令遵循的三重升级

摘要

Anthropic 今天发布 Opus 4.7。价格没变、上下文没变,但 SWE-bench Pro 涨了差不多 11 个百分点,第一次支持高分辨率看图,指令遵循也更严格。对开发者来说,这是一次值得立刻换的免费升级。

就在今天,Anthropic 发布了新一代旗舰模型 Claude Opus 4.7。

这是一次小版本升级,不是 Opus 5。但它在写代码这件事上,比上一代 Opus 4.6 强了差不多 11 个百分点 - 这个幅度,在一次小版本升级里其实很夸张。价格完全没变,上下文窗口也还是 100 万 token。

如果你是开发者、在做 Agent、或者在靠 Claude 处理复杂的知识工作,这篇就是给你的;如果你只是日常用 Claude 聊天写文案,可以放心 - 下次打开 Claude.ai 你自然就用上了,不吃亏。

先说结论

一句话总结 Opus 4.7:编程更强、看图更清、更听话。

我把官方发布页里那张综合 benchmark 对比表搬过来:

Opus 4.7 综合 benchmark 对比表

五列分别是 Opus 4.7、Opus 4.6、GPT-5.4、Gemini 3.1 Pro,以及还在预览阶段的 Mythos。橙色框框住的是 Opus 4.7 的成绩。

对于这次升级,官方的一句话是:"Opus 4.7 handles complex, long-running tasks with rigor and consistency, pays precise attention to instructions, and devises ways to verify its own outputs before reporting back." 换成人话:能扛得住长时间、多步骤的任务,会严格按你的指令来,并且会自己验证结果再回复。

下面挨个看。

最大的亮点:编程能力

这次 Anthropic 主打的卖点就是编程。

在业界最公认的编程测试 SWE-bench Pro 上,Opus 4.7 拿到 64.3 分,Opus 4.6 只有 53.4。一次小版本升级涨了差不多 11 个点。同场比较,GPT-5.4 是 57.7,Gemini 3.1 Pro 是 54.2 - 已经全面发布的大模型里,Opus 4.7 在这个榜单上重新坐到了头把交椅。

官方另外放了一张 SWE-bench 多语言和多模态的对比图:

SWE-bench Multilingual 和 Multimodal 对比

左边多语言从 77.8 涨到 80.5,右边多模态(看截图改代码)从 27.1 涨到 34.5 - 多模态涨幅最大,这其实跟下一节要讲的"看图能力"是一回事。

更直观的体感是什么?以前让 Claude 改一个跨多个文件的 bug,它经常改着改着就跑偏,或者说"我改完了"结果根本没跑通。Opus 4.7 一个很明显的变化是,它会自己验证结果。做完一件事,它会主动跑一下、查一下,确认真的没问题再告诉你。

这一点在客户反馈里也得到了印证。Cursor 团队说他们的内部 CursorBench 分数从 58% 跳到 70%;Rakuten 说在他们的生产任务基准上,Opus 4.7 能解决的任务量是 4.6 的 3 倍;Cognition 说在他们 93 个编码任务的 benchmark 上涨了 13%。

第一次能把图看清楚

这是 Claude 第一次支持高分辨率图片输入。

以前你截一张稍微密一点的屏幕发给 Claude - 比如一整个 dashboard、一页代码、一张密密麻麻的 Excel 表 - 它经常看不清小字。原因是之前所有 Claude 模型都会把图片压到 115 万像素以内(长边 1,568 px)。

Opus 4.7 把上限提高到 375 万像素(长边 2,576 px),差不多是之前的三倍。这是 Anthropic 第一次把分辨率上限真的放开。

效果有多明显?官方发了一张图,专门测"让模型从截屏里找到那个按钮"这类任务:

ScreenSpot-Pro 视觉导航对比

同样是 Opus 4.7,低分辨率模式下纯视觉识别准确率 69.0%,切到高分辨率直接跳到 79.5% - 就因为它终于能看清了。对比 Opus 4.6 的低清 57.7%,从换代 + 换分辨率算起,涨了将近 22 个百分点。

这对哪些场景最有用?

  • 读长截图、读仪表盘
  • 分析密集的表格和图表
  • 给 AI 做"computer use" - 让它操作你的电脑,这类任务对看清屏幕要求特别高

顺带说一个冷门但数字夸张的指标 - Structural Biology 基准:

生物结构推理对比

74.0 vs 30.9 - 这是所有基准里涨幅最夸张的一项。虽然日常用不上,但它说明 Opus 4.7 在专业视觉 + 推理结合的场景上,几乎是换了一个量级。

它更听话了

这一点没有具体分数,但 Anthropic 在 docs 里专门列了出来,放在"Behavior changes"章节的第一条:

More literal instruction following, particularly at lower effort levels.

Opus 4.7 会更严格地按你的指令来。你说"不要加注释",它就真的不加;你说"只改这一个函数",它不会顺手重构周围的代码;你让它"先问再做",它不会自作主张跳过。

这里有一个副作用要提醒一下 - 如果你之前给 Opus 4.6 写过很详细的 prompt,换到 4.7 可能需要微调。因为它现在会更"字面"地理解你的话。以前某些你写进去是为了防止它过度发挥的"保护性措辞",在 4.7 上可能反而让它做得太保守。

其他需要知道的

价格没变。 输入每百万 token $5,输出 $25,跟 4.6 完全一样。1 百万 token 上下文也没有额外溢价。

上下文窗口还是 100 万 token。 这个是 4.6 时代就有的能力,4.7 继续保留。最大输出是 128K token。

可用渠道。 API 的 model ID 是 claude-opus-4-7,Claude.ai、Claude Code、AWS Bedrock、Google Vertex、微软 Foundry 都已经上线。

一个行为上的变化叫 Adaptive Thinking。 以前你要手动指定"给模型多少 token 来思考",现在模型自己根据任务难度决定。简单问题秒答,复杂问题多想一会儿。对 API 使用者来说这是一个 breaking change - 老的 budget_tokens 参数已经不支持了,要换成 thinking: {"type": "adaptive"} + output_config: {"effort": "high"}

顺便还有一个新的 effort level 叫 xhigh,夹在 highmax 中间,官方建议"编程和 agent 任务用 xhigh 起步"。

Claude Code 那边也上了一个新命令 /ultrareview - 一个专门做代码审查的独立会话,会仔细读你的改动并标出 bug 和设计问题。

该不该立刻换

我的建议:

  • 如果你用 Claude Code 写代码,立刻换。10 个点的 SWE-bench 提升是能真实感觉到的。
  • 如果你在做 Agent、自动化任务,立刻换。它会自我验证、更听话、看图更清,这三点对 agent 特别关键。
  • 如果你要处理截图、仪表盘、设计稿,立刻换,并且记得打开高分辨率模式。
  • 如果你只是日常聊天、写文案,不用急,反正价格没涨,下次自然就用上了。

一个小提醒 - 迁移时的 token 账单可能会略贵一些。Opus 4.7 换了新 tokenizer,同样的内容大概多用 1.0 到 1.35 倍 token。不算离谱,但做预算规划时要留意。

最后

这次 Opus 4.7 不是一次革命性升级,Anthropic 自己也没把它吹成"改变一切"。

但在编程、视觉、指令遵循这三件最影响日常使用体验的事情上,它都给出了看得见的改进。而且价格不变 - 对开发者来说,这就是一次很划算的免费升级。

顺便插播一下,这期内容我也做成了一个 5 分钟的视频,在 YouTube 和 Bilibili 都发了,搜"小木头"就能找到。

参考链接:

相关文章

合作伙伴

CompeteMap — 英国及爱尔兰学生竞赛一站式搜索

数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。

准备开始了吗?

先简单说明目标,我会给出最合适的沟通方式。