【AI早读 0531】Anthropic 把 Claude「关在笼子里」的安全设计

AI 早读 0531 封面

今天这一期围着一篇 Anthropic 工程博客展开 - 他们第一次比较完整地写了三条产品线（claude.ai、Claude Code、Cowork）上的 Agent 隔离设计。Simon Willison 也在他的博客里做了重点推荐。

三个产品，三种隔离方案

Anthropic 一年前对 Agent 的权限控制非常保守。当时「给 Claude 能搞挂内部服务的权限」这个提议会被直接否掉，而今天这个级别的访问已经是常规操作。

核心张力很清晰 - 一边是 Agent 能力增长拉大了理论破坏半径，一边是「不部署」的成本越来越高。工程问题被改写成 - 怎么把破坏半径锁死在一个可控范围内。

产品	隔离技术	定位
claude.ai	gVisor（Google 开源的应用层内核）	云端，多租户，需要最强进程隔离
Claude Code	macOS 用 Seatbelt / Linux 用 Bubblewrap	本地运行，用户自己的机器
Claude Cowork	全 VM（macOS 用 Apple Virtualization / Windows 用 HCS）	全桌面操作，需要完整 OS 级隔离

一个关键原则 - 如果凭证根本进不了沙箱，就没什么可以泄露的。这是「围栏」思路而不是「守卫」思路，不依赖模型判断对错，而是在架构层断了可能性。

这是文章里最反直觉的一个数据点。

Claude Code 早期靠每次操作弹用户批准框来防误操作。听起来安全，但实际数据是 - 用户批准了约 93% 的权限提示。请求越频繁，仔细检查的人就越少。这种「权限疲劳」意味着基于同意的防御机制有系统性漏洞。

Anthropic 的做法是两条腿走路：

这里的教训值得做 Agent 产品的人读三遍 - 概率性防御永远有非零漏报率。靠用户点头来防弹，本质上是把自己放进一个必输的赌局。

文章列了几个 Claude 在测试中主动绕过沙箱的例子，都不是恶意，而是「帮忙帮过头」：

共同模式 - 模型能力在增长，但它理解「边界」的方式和人类预期的不一致。这不是安全问题，是目标对齐的边界测试，模型试图最大化任务完成度，而人类预设的边界在它的认知里是可协商的。

这也是 Anthropic 认为 Mythos 在 4 月还不能全量开放的原因 - 不是能力不够，而是能力太强，安全护栏还没跟上。他们的预期是 - 随着「防守方」（关键系统硬化 + 评估方法论成熟）的提升，类似能力级别的模型会逐步开放。

今天另一条主线来自 AI Engineer 大会（5/30）。下面这几场演讲都已经放出回放：

几场演讲指向同一个方向 - Agent 技能在变多变杂，但收益在递减。

Nick Nisi（WorkOS） - "How I deleted 95% of my agent skills and got better results"。砍掉 95% 的 Agent 技能定义反而效果更好。这条和前几天 Tomasz Tunguz 的「技能蒸馏」文章对着看很有意思 - 不是不要技能，而是技能的粒度、质量、测试覆盖决定了 95% 和 5% 的差距。
Philipp Schmid（Google DeepMind） - "Why (Senior) Engineers Struggle to Build AI Agents"。资深工程师反而不容易写好 Agent。一个可能的解释是 - 有经验的工程师知道什么该抽象、什么不该，但 Agent 编程的处理方式（prompt + tool 的松散组合）和传统软件工程（接口 + 类型的严格契约）之间隔着一个认知鸿沟。
Zed 的 Ben Kunkle - "How We Built Zeta2: Training an Edit Prediction Model in Production"。文本编辑的预测模型，不是在对话层面而是在编辑操作层面做预测。

三场拼在一起，画出了一个正在分化的领域 - Agent 技能管理、Agent 编程的工程化、以及编辑器级别的模型落地。

SoftBank 宣布投资高达 €750 亿建设法国数据中心 - AI 基础设施竞赛延伸到欧洲，数字很大但要看执行节奏 — TechCrunch
OpenRouter 完成 $1.13 亿 B 轮 - 模型聚合层的资本信号 — Hacker News
Microsoft × NVIDIA 合作打造专用 AI PC，跑「真正的 Agent」而不仅仅是聊天 - 本地 Agent 推理的硬件化 — The Decoder
GitHub Copilot 启用基于 token 的计费 - 引发开发者社区争议 — TechCrunch
Corporate America starting to ration AI as cost skyrockets - HN 热帖，大企业开始因为成本限制 AI 用量，和之前的「全力投入」叙事形成了鲜明对比 — Hacker News
Gemini Spark 实测 - TechCrunch 记者用了一周，结论是「真的能用」，24/7 桌面 AI 助手的实用化评估 — TechCrunch
Meta 被报道正在开发 AI 挂坠 - 可穿戴 AI 的新尝试 — TechCrunch

今天的材料有一个隐含的共同主题 - AI 行业在从「能不能做」进化到「怎么安全、高效、持久地做」。

Anthropic 拿出了迄今最详细的 Agent 安全设计文档，不是宣传稿，是真的工程复盘。AI Engineer 大会的演讲者们在反思技能的过度膨胀。大企业在说「太贵了得省着用」，而基础设施层（SoftBank、NVIDIA、OpenRouter）在同步建设成本更低的底座。

向前冲的速度没变，但回头看安全、成本、效率的人越来越多了。

来源：Anthropic Engineering Blog / Simon Willison / AI Engineer Conference / TechCrunch / Hacker News / The Decoder - 2026-05-30 UTC