【AI早读 0529】Anthropic 一日三发 - Opus 4.8、$965B、Mythos
摘要
5 月 28 日 Anthropic 同日完成三项发布 - Claude Opus 4.8 上线,SWE-bench Pro 提升 4.9pp、Terminal-Bench 2.1 提升 8.5pp,Honesty 成为第一特性,对齐质量逼近 Mythos;650 亿美元 Series H 把估值推到 9650 亿,超过 OpenAI;Mythos 将在数周内向全量客户开放。

今天这一期是 Anthropic 的独立故事 - 5 月 28 日这家公司在一个日历日里完成了三重发布,每条单独拿出来都够做一期头条。
Claude Opus 4.8:不是能力跳跃,是可靠性跃迁
5 月 28 日上线,全线可用(claude.ai / API / Claude Code / Cowork),定价不变:$5 / $25 per 1M tokens。
关键基准:
| 基准 | Opus 4.8 | Opus 4.7 | 对比 |
|---|---|---|---|
| SWE-bench Verified | 88.6% | 87.6% | +1.0pp |
| SWE-bench Pro | 69.2% | 64.3% | +4.9pp |
| Terminal-Bench 2.1 | 74.6% | 66.1% | +8.5pp |
| Online-Mind2Web | 84% | ~76% | +~8pp |
| 计算机使用 Agent | SOTA | - | 超越 4.7 和 GPT 5.5 |
跑分只是门面。真正重要的变化是四个。
Honesty 是第一特性
Anthropic 对齐团队的数据:Opus 4.8 对自己代码中的缺陷「视而不见」的概率比 4.7 低约 4 倍。在真实代码审查场景中,它会主动标记不确定性,而不是自信地把错误结论交出去。
企业客户的反馈很一致 - 「更可靠的队友」、「在复杂多服务探索中会先建立信心再动代码」、「会主动质疑自己的输入和输出」。ZDNet 的标题直写「honesty 是 killer feature」 - 在一众追求 AGI 跑分的行业里,这个差异化很有意思。
对齐质量接近 Mythos 水平
在「失对齐行为」(欺骗、协助滥用等)的多轮模拟评估中:
- Opus 4.7:2.5
- Opus 4.8:1.9
- Mythos Preview:~1.8
Opus 4.8 的对齐退化率已经和受限版的 Mythos 几乎持平。对安全敏感的企业场景来说,这意味着 AI Agent 可以承担更大范围的自主工作而不会失控。
Dynamic Workflows:并行子 Agent 架构
这是发布中架构层面最有想象力的一条。
在 Claude Code 中,Claude 现在可以规划一个大型任务,在一个会话中并行启动数百个子 Agent 各自执行,自我验证后再汇报给用户。演示场景是全代码库迁移 - 几十万行代码,从 kickoff 到 merge,已有测试套件做验证护栏。
这条的能力含义远不止代码迁移。这是 Anthropic 对 Agent 架构的重要声明:他们相信并行子 Agent 是解决长周期、大规模自主任务的正确路径。单个上下文窗口不够用?那就拆成子任务并行跑。
动态工作流目前在 Claude Code Enterprise / Team / Max 计划中以 research preview 形式可用。
Fast Mode 降价 3 倍 + Effort Control
Fast Mode(~2.5x 推理速度)从 $30/$150 降到 $10/$50 per 1M tokens。对延迟敏感的生产工作负载来说 - 比如客服 Agent、实时代码补全 - 这个降价是实质性的。
Effort Control 在 claude.ai 和 Cowork 上新增了一个调节旋钮,控制 Claude「思考多深」 - 高努力花更多 token 换更高质量,低努力响应更快省配额。用户层面的小功能,但在 API 层(通过 system entries 支持 mid-task 指令更新)做的是同一件事:让开发者对模型的行为开销有更精细的控制。
$965B:Anthropic 超越 OpenAI
同一天,Anthropic 宣布完成 $650 亿 Series H,投后估值 $9650 亿 - 正式超越 OpenAI 的 $7300 亿估值,成为全球估值最高的 AI 公司。
Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital 领投。这被认为是 Anthropic 上市前的最后一轮私募融资。
关键驱动不是模型跑分,是企业营收:
- KPMG:276,000+ 名员工全面整合 Claude
- PwC:30,000 人通过
Claude Code/ Cowork 认证培训 - Accenture:大规模企业部署
- Goldman Sachs / Blackstone:联合 $15 亿成立企业 AI 服务公司
Anthropic 的企业路线走得比市场预期更快。从收购 Stainless(API SDK/MCP 工具链)到行业垂直方案(金融 Agent、法律连接器),再到对齐方法论 - 他们在从模型公司向「全栈企业 AI 平台」转型。
Mythos 即将全量开放
Anthropic 确认:Claude Mythos 将在未来几周内向所有客户开放。
Mythos Preview 目前仅通过 Project Glasswing 向少数安全机构开放。Cloudflare 上周发布了一份实战报告 - Mythos 扫描了 Cloudflare 的 50+ 仓库,在真实漏洞发现上远超通用前沿模型(虽然假阳性率仍然偏高,需要人在 loop 里判断)。
Anthropic 内部能力阶梯:Mythos 的能力级显著高于 Opus 4.8。今天 Opus 4.8 的对齐质量(1.9)已经接近 Mythos Preview(~1.8),意味着全量开放前的安全护栏已基本到位。
Glasswing 本身也值得关注 - 联合了 AWS、Anthropic、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks 共 13 家机构,做「地球上最关键软件的安全」。AI 找漏洞、修复软件供应链、安全 Agent 第一个大规模落地 - 这可能是 2026 年 AI 最有实质性社会影响的场景之一。
五月 Anthropic 全景
Opus 4.8 不是孤立事件。回看 Anthropic 五月的整体节奏,能看到一条清晰的扩张主线:
| 日期 | 事件 | 意义 |
|---|---|---|
| 5/4 | 与 Blackstone / GS 联合成立 $15 亿企业 AI 服务公司 | 资本层面绑定最头部的 PE/投行 |
| 5/5 | 10 个金融 Agent 发布 | 行业垂直的第一块拼图 |
| 5/7 | Claude for Small Business | 15 个工作流模板 + 7 个集成,下探中小企业 |
| 5/14 | 法律行业:20+ 连接器 + 12 个细分领域插件 | 专业服务行业的深入渗透 |
| 5/19 | Project Glasswing 初始报告 | 安全到全社会关键基础设施 |
| 5/22 | Chris Olah 回应教皇通谕 | AI 伦理公共对话 |
| 5/28 | Opus 4.8 + $965B + Mythos 预告 | 三重发布 |
收购 Stainless 在 5/17 前后完成,API 基础层的 SDK/MCP 工具链能力补齐。
从 Opus 4.8 的功能堆叠(Dynamic Workflows + Honesty + Effort Control)到 Mythos 全量开放的倒计时,再到 $965B 估值和五月全系列产品发布 - Anthropic 本周不是在发布一个模型,而是在发布一个公式:AI 公司 = 模型 × 平台 × 行业渗透 × 对齐可信度。
Opus 4.8 的架构信号(并行子 Agent)和信任信号(Honesty / 对齐)可能比它的跑分重要得多 - 因为企业 Agent 落地最大的两个障碍,恰恰是能跑多久不出错,和出了问题能不能信任。
来源:VerySmallWoods Research Feed - 2026-05-28 UTC
相关文章
2026年4月16日
Claude Opus 4.7 发布:编程、视觉、指令遵循的三重升级
Anthropic 今天发布 Opus 4.7。价格没变、上下文没变,但 SWE-bench Pro 涨了差不多 11 个百分点,第一次支持高分辨率看图,指令遵循也更严格。对开发者来说,这是一次值得立刻换的免费升级。
2026年5月28日
【AI早读 0528】智能体评测与进化
ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。
2026年5月26日
【AI早读 0526】Addy Osmani 提出「你才是编排税」,Hugging Face 重新区分 Model / Scaffolding / Harness / Agent
Addy Osmani 用 Python GIL 比喻揭穿多 agent 并发的真正瓶颈 - 是开发者本人;Hugging Face 发出官方词汇表,把 Model / Scaffolding / Harness / Agent 这四个被混用的概念锚定下来;Google DeepMind 的 Nicholas Kang 与 Michael Aaron 分享大规模 agent 评估的工程化做法;Bounded Autonomy 把「自由意志 vs 确定性」落到 harness 工程里;Simon Willison 发布 datasette 1.0a30 的可扩展 Jump 菜单 + datasette-agent 联动。
最近一封 · Sample
【AI早读 0528】智能体评测与进化
“ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。