返回博客2026年5月29日3 分钟阅读

【AI早读 0529】Anthropic 一日三发 - Opus 4.8、$965B、Mythos

摘要

5 月 28 日 Anthropic 同日完成三项发布 - Claude Opus 4.8 上线,SWE-bench Pro 提升 4.9pp、Terminal-Bench 2.1 提升 8.5pp,Honesty 成为第一特性,对齐质量逼近 Mythos;650 亿美元 Series H 把估值推到 9650 亿,超过 OpenAI;Mythos 将在数周内向全量客户开放。

AI 早读 0529 封面

今天这一期是 Anthropic 的独立故事 - 5 月 28 日这家公司在一个日历日里完成了三重发布,每条单独拿出来都够做一期头条。

Claude Opus 4.8:不是能力跳跃,是可靠性跃迁

5 月 28 日上线,全线可用(claude.ai / API / Claude Code / Cowork),定价不变:$5 / $25 per 1M tokens。

关键基准:

基准Opus 4.8Opus 4.7对比
SWE-bench Verified88.6%87.6%+1.0pp
SWE-bench Pro69.2%64.3%+4.9pp
Terminal-Bench 2.174.6%66.1%+8.5pp
Online-Mind2Web84%~76%+~8pp
计算机使用 AgentSOTA-超越 4.7 和 GPT 5.5

跑分只是门面。真正重要的变化是四个。

Honesty 是第一特性

Anthropic 对齐团队的数据:Opus 4.8 对自己代码中的缺陷「视而不见」的概率比 4.7 低约 4 倍。在真实代码审查场景中,它会主动标记不确定性,而不是自信地把错误结论交出去。

企业客户的反馈很一致 - 「更可靠的队友」、「在复杂多服务探索中会先建立信心再动代码」、「会主动质疑自己的输入和输出」。ZDNet 的标题直写「honesty 是 killer feature」 - 在一众追求 AGI 跑分的行业里,这个差异化很有意思。

对齐质量接近 Mythos 水平

在「失对齐行为」(欺骗、协助滥用等)的多轮模拟评估中:

  • Opus 4.7:2.5
  • Opus 4.8:1.9
  • Mythos Preview:~1.8

Opus 4.8 的对齐退化率已经和受限版的 Mythos 几乎持平。对安全敏感的企业场景来说,这意味着 AI Agent 可以承担更大范围的自主工作而不会失控。

Dynamic Workflows:并行子 Agent 架构

这是发布中架构层面最有想象力的一条。

Claude Code 中,Claude 现在可以规划一个大型任务,在一个会话中并行启动数百个子 Agent 各自执行,自我验证后再汇报给用户。演示场景是全代码库迁移 - 几十万行代码,从 kickoff 到 merge,已有测试套件做验证护栏。

这条的能力含义远不止代码迁移。这是 Anthropic 对 Agent 架构的重要声明:他们相信并行子 Agent 是解决长周期、大规模自主任务的正确路径。单个上下文窗口不够用?那就拆成子任务并行跑。

动态工作流目前在 Claude Code Enterprise / Team / Max 计划中以 research preview 形式可用。

Fast Mode 降价 3 倍 + Effort Control

Fast Mode(~2.5x 推理速度)从 $30/$150 降到 $10/$50 per 1M tokens。对延迟敏感的生产工作负载来说 - 比如客服 Agent、实时代码补全 - 这个降价是实质性的。

Effort Controlclaude.ai 和 Cowork 上新增了一个调节旋钮,控制 Claude「思考多深」 - 高努力花更多 token 换更高质量,低努力响应更快省配额。用户层面的小功能,但在 API 层(通过 system entries 支持 mid-task 指令更新)做的是同一件事:让开发者对模型的行为开销有更精细的控制。

$965B:Anthropic 超越 OpenAI

同一天,Anthropic 宣布完成 $650 亿 Series H,投后估值 $9650 亿 - 正式超越 OpenAI 的 $7300 亿估值,成为全球估值最高的 AI 公司。

Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital 领投。这被认为是 Anthropic 上市前的最后一轮私募融资

关键驱动不是模型跑分,是企业营收:

  • KPMG:276,000+ 名员工全面整合 Claude
  • PwC:30,000 人通过 Claude Code / Cowork 认证培训
  • Accenture:大规模企业部署
  • Goldman Sachs / Blackstone:联合 $15 亿成立企业 AI 服务公司

Anthropic 的企业路线走得比市场预期更快。从收购 Stainless(API SDK/MCP 工具链)到行业垂直方案(金融 Agent、法律连接器),再到对齐方法论 - 他们在从模型公司向「全栈企业 AI 平台」转型。

Mythos 即将全量开放

Anthropic 确认:Claude Mythos 将在未来几周内向所有客户开放。

Mythos Preview 目前仅通过 Project Glasswing 向少数安全机构开放。Cloudflare 上周发布了一份实战报告 - Mythos 扫描了 Cloudflare 的 50+ 仓库,在真实漏洞发现上远超通用前沿模型(虽然假阳性率仍然偏高,需要人在 loop 里判断)。

Anthropic 内部能力阶梯:Mythos 的能力级显著高于 Opus 4.8。今天 Opus 4.8 的对齐质量(1.9)已经接近 Mythos Preview(~1.8),意味着全量开放前的安全护栏已基本到位。

Glasswing 本身也值得关注 - 联合了 AWS、Anthropic、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks 共 13 家机构,做「地球上最关键软件的安全」。AI 找漏洞、修复软件供应链、安全 Agent 第一个大规模落地 - 这可能是 2026 年 AI 最有实质性社会影响的场景之一。

五月 Anthropic 全景

Opus 4.8 不是孤立事件。回看 Anthropic 五月的整体节奏,能看到一条清晰的扩张主线:

日期事件意义
5/4与 Blackstone / GS 联合成立 $15 亿企业 AI 服务公司资本层面绑定最头部的 PE/投行
5/510 个金融 Agent 发布行业垂直的第一块拼图
5/7Claude for Small Business15 个工作流模板 + 7 个集成,下探中小企业
5/14法律行业:20+ 连接器 + 12 个细分领域插件专业服务行业的深入渗透
5/19Project Glasswing 初始报告安全到全社会关键基础设施
5/22Chris Olah 回应教皇通谕AI 伦理公共对话
5/28Opus 4.8 + $965B + Mythos 预告三重发布

收购 Stainless 在 5/17 前后完成,API 基础层的 SDK/MCP 工具链能力补齐。

从 Opus 4.8 的功能堆叠(Dynamic Workflows + Honesty + Effort Control)到 Mythos 全量开放的倒计时,再到 $965B 估值和五月全系列产品发布 - Anthropic 本周不是在发布一个模型,而是在发布一个公式:AI 公司 = 模型 × 平台 × 行业渗透 × 对齐可信度。

Opus 4.8 的架构信号(并行子 Agent)和信任信号(Honesty / 对齐)可能比它的跑分重要得多 - 因为企业 Agent 落地最大的两个障碍,恰恰是能跑多久不出错,和出了问题能不能信任。


来源:VerySmallWoods Research Feed - 2026-05-28 UTC

相关文章

2026年5月28日

【AI早读 0528】智能体评测与进化

ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。

2026年5月26日

【AI早读 0526】Addy Osmani 提出「你才是编排税」,Hugging Face 重新区分 Model / Scaffolding / Harness / Agent

Addy Osmani 用 Python GIL 比喻揭穿多 agent 并发的真正瓶颈 - 是开发者本人;Hugging Face 发出官方词汇表,把 Model / Scaffolding / Harness / Agent 这四个被混用的概念锚定下来;Google DeepMind 的 Nicholas Kang 与 Michael Aaron 分享大规模 agent 评估的工程化做法;Bounded Autonomy 把「自由意志 vs 确定性」落到 harness 工程里;Simon Willison 发布 datasette 1.0a30 的可扩展 Jump 菜单 + datasette-agent 联动。

最近一封 · Sample

【AI早读 0528】智能体评测与进化

ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。

—— william

Letters

来信

里面装的是

  • 新文章 — 写完一篇就寄一封,不攒货
  • 这周读到的、看到的、好用的工具
  • 正在折腾的实验,附带翻车记录

约莫 1–2 周一封 · 随时退订

合作伙伴

CompeteMap — 英国及爱尔兰学生竞赛一站式搜索

数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。

准备开始了吗?

先简单说明目标,我会给出最合适的沟通方式。