Claude Opus 4.7 发布:编程、视觉、指令遵循的三重升级
摘要
Anthropic 今天发布 Opus 4.7。价格没变、上下文没变,但 SWE-bench Pro 涨了差不多 11 个百分点,第一次支持高分辨率看图,指令遵循也更严格。对开发者来说,这是一次值得立刻换的免费升级。
就在今天,Anthropic 发布了新一代旗舰模型 Claude Opus 4.7。
这是一次小版本升级,不是 Opus 5。但它在写代码这件事上,比上一代 Opus 4.6 强了差不多 11 个百分点 - 这个幅度,在一次小版本升级里其实很夸张。价格完全没变,上下文窗口也还是 100 万 token。
如果你是开发者、在做 Agent、或者在靠 Claude 处理复杂的知识工作,这篇就是给你的;如果你只是日常用 Claude 聊天写文案,可以放心 - 下次打开 Claude.ai 你自然就用上了,不吃亏。
先说结论
一句话总结 Opus 4.7:编程更强、看图更清、更听话。
我把官方发布页里那张综合 benchmark 对比表搬过来:

五列分别是 Opus 4.7、Opus 4.6、GPT-5.4、Gemini 3.1 Pro,以及还在预览阶段的 Mythos。橙色框框住的是 Opus 4.7 的成绩。
对于这次升级,官方的一句话是:"Opus 4.7 handles complex, long-running tasks with rigor and consistency, pays precise attention to instructions, and devises ways to verify its own outputs before reporting back." 换成人话:能扛得住长时间、多步骤的任务,会严格按你的指令来,并且会自己验证结果再回复。
下面挨个看。
最大的亮点:编程能力
这次 Anthropic 主打的卖点就是编程。
在业界最公认的编程测试 SWE-bench Pro 上,Opus 4.7 拿到 64.3 分,Opus 4.6 只有 53.4。一次小版本升级涨了差不多 11 个点。同场比较,GPT-5.4 是 57.7,Gemini 3.1 Pro 是 54.2 - 已经全面发布的大模型里,Opus 4.7 在这个榜单上重新坐到了头把交椅。
官方另外放了一张 SWE-bench 多语言和多模态的对比图:

左边多语言从 77.8 涨到 80.5,右边多模态(看截图改代码)从 27.1 涨到 34.5 - 多模态涨幅最大,这其实跟下一节要讲的"看图能力"是一回事。
更直观的体感是什么?以前让 Claude 改一个跨多个文件的 bug,它经常改着改着就跑偏,或者说"我改完了"结果根本没跑通。Opus 4.7 一个很明显的变化是,它会自己验证结果。做完一件事,它会主动跑一下、查一下,确认真的没问题再告诉你。
这一点在客户反馈里也得到了印证。Cursor 团队说他们的内部 CursorBench 分数从 58% 跳到 70%;Rakuten 说在他们的生产任务基准上,Opus 4.7 能解决的任务量是 4.6 的 3 倍;Cognition 说在他们 93 个编码任务的 benchmark 上涨了 13%。
第一次能把图看清楚
这是 Claude 第一次支持高分辨率图片输入。
以前你截一张稍微密一点的屏幕发给 Claude - 比如一整个 dashboard、一页代码、一张密密麻麻的 Excel 表 - 它经常看不清小字。原因是之前所有 Claude 模型都会把图片压到 115 万像素以内(长边 1,568 px)。
Opus 4.7 把上限提高到 375 万像素(长边 2,576 px),差不多是之前的三倍。这是 Anthropic 第一次把分辨率上限真的放开。
效果有多明显?官方发了一张图,专门测"让模型从截屏里找到那个按钮"这类任务:

同样是 Opus 4.7,低分辨率模式下纯视觉识别准确率 69.0%,切到高分辨率直接跳到 79.5% - 就因为它终于能看清了。对比 Opus 4.6 的低清 57.7%,从换代 + 换分辨率算起,涨了将近 22 个百分点。
这对哪些场景最有用?
- 读长截图、读仪表盘
- 分析密集的表格和图表
- 给 AI 做"computer use" - 让它操作你的电脑,这类任务对看清屏幕要求特别高
顺带说一个冷门但数字夸张的指标 - Structural Biology 基准:

74.0 vs 30.9 - 这是所有基准里涨幅最夸张的一项。虽然日常用不上,但它说明 Opus 4.7 在专业视觉 + 推理结合的场景上,几乎是换了一个量级。
它更听话了
这一点没有具体分数,但 Anthropic 在 docs 里专门列了出来,放在"Behavior changes"章节的第一条:
More literal instruction following, particularly at lower effort levels.
Opus 4.7 会更严格地按你的指令来。你说"不要加注释",它就真的不加;你说"只改这一个函数",它不会顺手重构周围的代码;你让它"先问再做",它不会自作主张跳过。
这里有一个副作用要提醒一下 - 如果你之前给 Opus 4.6 写过很详细的 prompt,换到 4.7 可能需要微调。因为它现在会更"字面"地理解你的话。以前某些你写进去是为了防止它过度发挥的"保护性措辞",在 4.7 上可能反而让它做得太保守。
其他需要知道的
价格没变。 输入每百万 token $5,输出 $25,跟 4.6 完全一样。1 百万 token 上下文也没有额外溢价。
上下文窗口还是 100 万 token。 这个是 4.6 时代就有的能力,4.7 继续保留。最大输出是 128K token。
可用渠道。 API 的 model ID 是 claude-opus-4-7,Claude.ai、Claude Code、AWS Bedrock、Google Vertex、微软 Foundry 都已经上线。
一个行为上的变化叫 Adaptive Thinking。 以前你要手动指定"给模型多少 token 来思考",现在模型自己根据任务难度决定。简单问题秒答,复杂问题多想一会儿。对 API 使用者来说这是一个 breaking change - 老的 budget_tokens 参数已经不支持了,要换成 thinking: {"type": "adaptive"} + output_config: {"effort": "high"}。
顺便还有一个新的 effort level 叫 xhigh,夹在 high 和 max 中间,官方建议"编程和 agent 任务用 xhigh 起步"。
Claude Code 那边也上了一个新命令 /ultrareview - 一个专门做代码审查的独立会话,会仔细读你的改动并标出 bug 和设计问题。
该不该立刻换
我的建议:
- 如果你用 Claude Code 写代码,立刻换。10 个点的 SWE-bench 提升是能真实感觉到的。
- 如果你在做 Agent、自动化任务,立刻换。它会自我验证、更听话、看图更清,这三点对 agent 特别关键。
- 如果你要处理截图、仪表盘、设计稿,立刻换,并且记得打开高分辨率模式。
- 如果你只是日常聊天、写文案,不用急,反正价格没涨,下次自然就用上了。
一个小提醒 - 迁移时的 token 账单可能会略贵一些。Opus 4.7 换了新 tokenizer,同样的内容大概多用 1.0 到 1.35 倍 token。不算离谱,但做预算规划时要留意。
最后
这次 Opus 4.7 不是一次革命性升级,Anthropic 自己也没把它吹成"改变一切"。
但在编程、视觉、指令遵循这三件最影响日常使用体验的事情上,它都给出了看得见的改进。而且价格不变 - 对开发者来说,这就是一次很划算的免费升级。
顺便插播一下,这期内容我也做成了一个 5 分钟的视频,在 YouTube 和 Bilibili 都发了,搜"小木头"就能找到。
参考链接:
相关文章
2026年3月26日
DeepSeek vs ChatGPT vs Claude:2026 年怎么选
三大 AI 模型各有什么强项?中文能力谁最好?写代码谁最强?这篇给你一个实用的选择框架。
2025年12月23日
Claude Skills 与 MCP:AI 能力扩展的两种哲学
对比 Claude Skills 与 MCP 的定位、架构与协作方式,理解 AI 能力扩展的两种哲学。
2026年4月5日
一个人做 SaaS:2026 年独立开发者工具栈
2026 年一个人做 SaaS 产品,从代码到上线到收款,完整的技术栈选择和踩坑经验。AI 工具让独立开发的效率翻了好几倍。
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。