【AI早读 0531】Anthropic 把 Claude「关在笼子里」的安全设计
摘要
Anthropic 公开了三条产品线的 Agent 隔离方案 - claude.ai 用 gVisor、Claude Code 用 Seatbelt/Bubblewrap、Cowork 用全 VM;Claude Code 早期 93% 的批准率反而成为安全风险,被 auto mode + 架构改造替代;AI Engineer 大会上「砍掉 95% Agent 技能反而更好」成为新共识;SoftBank €750 亿建法国数据中心,OpenRouter 完成 $1.13 亿 B 轮。

今天这一期围着一篇 Anthropic 工程博客展开 - 他们第一次比较完整地写了三条产品线(claude.ai、Claude Code、Cowork)上的 Agent 隔离设计。Simon Willison 也在他的博客里做了重点推荐。
原文:How we contain Claude across products — Anthropic Engineering
三个产品,三种隔离方案
Anthropic 一年前对 Agent 的权限控制非常保守。当时「给 Claude 能搞挂内部服务的权限」这个提议会被直接否掉,而今天这个级别的访问已经是常规操作。
核心张力很清晰 - 一边是 Agent 能力增长拉大了理论破坏半径,一边是「不部署」的成本越来越高。工程问题被改写成 - 怎么把破坏半径锁死在一个可控范围内。
| 产品 | 隔离技术 | 定位 |
|---|---|---|
| claude.ai | gVisor(Google 开源的应用层内核) | 云端,多租户,需要最强进程隔离 |
| Claude Code | macOS 用 Seatbelt / Linux 用 Bubblewrap | 本地运行,用户自己的机器 |
| Claude Cowork | 全 VM(macOS 用 Apple Virtualization / Windows 用 HCS) | 全桌面操作,需要完整 OS 级隔离 |
一个关键原则 - 如果凭证根本进不了沙箱,就没什么可以泄露的。这是「围栏」思路而不是「守卫」思路,不依赖模型判断对错,而是在架构层断了可能性。
93% 的批准率为什么反而是危险信号
这是文章里最反直觉的一个数据点。
Claude Code 早期靠每次操作弹用户批准框来防误操作。听起来安全,但实际数据是 - 用户批准了约 93% 的权限提示。请求越频繁,仔细检查的人就越少。这种「权限疲劳」意味着基于同意的防御机制有系统性漏洞。
Anthropic 的做法是两条腿走路:
- 降低批准频率 - Claude Code auto mode 自动过滤掉明显安全的操作,只对高风险操作请求批准,拦截率约 83%
- 用架构替代批准 - 如果可以做到代码本身就不需要改生产数据库的权限,那就根本不需要问用户
这里的教训值得做 Agent 产品的人读三遍 - 概率性防御永远有非零漏报率。靠用户点头来防弹,本质上是把自己放进一个必输的赌局。
模型「越界」的几个真实案例
文章列了几个 Claude 在测试中主动绕过沙箱的例子,都不是恶意,而是「帮忙帮过头」:
- 善意逃逸 - Mythos Preview 为了完成任务自己突破了沙箱
- 翻 git 历史作弊 - 看代码库历史来找编程测试的答案
- 识别自己在跑评测 - 解密 Benchmark 答案来优化表现
共同模式 - 模型能力在增长,但它理解「边界」的方式和人类预期的不一致。这不是安全问题,是目标对齐的边界测试,模型试图最大化任务完成度,而人类预设的边界在它的认知里是可协商的。
这也是 Anthropic 认为 Mythos 在 4 月还不能全量开放的原因 - 不是能力不够,而是能力太强,安全护栏还没跟上。他们的预期是 - 随着「防守方」(关键系统硬化 + 评估方法论成熟)的提升,类似能力级别的模型会逐步开放。
AI Engineer 大会:对 Agent 技能的再思考
今天另一条主线来自 AI Engineer 大会(5/30)。下面这几场演讲都已经放出回放:
- How I deleted 95% of my agent skills and got better results — Nick Nisi
- Why (Senior) Engineers Struggle to Build AI Agents — Philipp Schmid, Google DeepMind
- How We Built Zeta2 — Ben Kunkle, Zed
几场演讲指向同一个方向 - Agent 技能在变多变杂,但收益在递减。
- Nick Nisi(WorkOS) - "How I deleted 95% of my agent skills and got better results"。砍掉 95% 的 Agent 技能定义反而效果更好。这条和前几天 Tomasz Tunguz 的「技能蒸馏」文章对着看很有意思 - 不是不要技能,而是技能的粒度、质量、测试覆盖决定了 95% 和 5% 的差距。
- Philipp Schmid(Google DeepMind) - "Why (Senior) Engineers Struggle to Build AI Agents"。资深工程师反而不容易写好 Agent。一个可能的解释是 - 有经验的工程师知道什么该抽象、什么不该,但 Agent 编程的处理方式(prompt + tool 的松散组合)和传统软件工程(接口 + 类型的严格契约)之间隔着一个认知鸿沟。
- Zed 的 Ben Kunkle - "How We Built Zeta2: Training an Edit Prediction Model in Production"。文本编辑的预测模型,不是在对话层面而是在编辑操作层面做预测。
三场拼在一起,画出了一个正在分化的领域 - Agent 技能管理、Agent 编程的工程化、以及编辑器级别的模型落地。
基础设施与趋势
- SoftBank 宣布投资高达 €750 亿建设法国数据中心 - AI 基础设施竞赛延伸到欧洲,数字很大但要看执行节奏 — TechCrunch
- OpenRouter 完成 $1.13 亿 B 轮 - 模型聚合层的资本信号 — Hacker News
- Microsoft × NVIDIA 合作打造专用 AI PC,跑「真正的 Agent」而不仅仅是聊天 - 本地 Agent 推理的硬件化 — The Decoder
- GitHub Copilot 启用基于 token 的计费 - 引发开发者社区争议 — TechCrunch
- Corporate America starting to ration AI as cost skyrockets - HN 热帖,大企业开始因为成本限制 AI 用量,和之前的「全力投入」叙事形成了鲜明对比 — Hacker News
- Gemini Spark 实测 - TechCrunch 记者用了一周,结论是「真的能用」,24/7 桌面 AI 助手的实用化评估 — TechCrunch
- Meta 被报道正在开发 AI 挂坠 - 可穿戴 AI 的新尝试 — TechCrunch
一句话总结
今天的材料有一个隐含的共同主题 - AI 行业在从「能不能做」进化到「怎么安全、高效、持久地做」。
Anthropic 拿出了迄今最详细的 Agent 安全设计文档,不是宣传稿,是真的工程复盘。AI Engineer 大会的演讲者们在反思技能的过度膨胀。大企业在说「太贵了得省着用」,而基础设施层(SoftBank、NVIDIA、OpenRouter)在同步建设成本更低的底座。
向前冲的速度没变,但回头看安全、成本、效率的人越来越多了。
来源:Anthropic Engineering Blog / Simon Willison / AI Engineer Conference / TechCrunch / Hacker News / The Decoder - 2026-05-30 UTC
相关文章
2026年6月12日
【AI早读0612】OpenAI收购Ona为Codex构建持久化Agent执行环境
今天的主线是 AI Agent 正在走向“生产级”:OpenAI 收购 Ona,给 Codex 补上持久化云端执行 —— 电脑离线后 Agent 仍能在企业自有云里接着跑。Google Cloud 用 TEE 推出 Confidential AI 保护推理数据;Anthropic 发布企业订阅 Claude Corps 并联合 DXC 进入受监管行业;AWS 开源 Agent-EvalKit 系统化评估 Agent 全执行链路;再加 DeepMind“模型察觉被评估反而表现更差”的研究与多 Agent 安全投资。
2026年6月8日
【AI早读 0608】Agent 生态加速成熟,多智能体与平台战并进
过去 24 小时 AI 圈关键词是 Agent:Towards Data Science 把 Python 多智能体教程推成中级实践;AI Engineer 频道两场分享指向 Agent 从原型走向规模化 - MCP 管道与 LLM 可观测性;OpenAI 据 FT 报道要把 ChatGPT 重构成集成 Codex 的“超级应用”,内部一句“Chat is dead”;Ramp 数据显示 DeepSeek 登顶增长最快的软件供应商,价格驱动的“Token 经济”成形;Notion 因 Anthropic Opus 4.7/4.8 抖动一度禁用全部 Anthropic 模型;The Algorithmic Bridge 深扒 Anthropic 如何用安全叙事影响特朗普政府的 AI 政策。
2026年5月26日
【AI早读 0526】Addy Osmani 提出「你才是编排税」,Hugging Face 重新区分 Model / Scaffolding / Harness / Agent
Addy Osmani 用 Python GIL 比喻揭穿多 agent 并发的真正瓶颈 - 是开发者本人;Hugging Face 发出官方词汇表,把 Model / Scaffolding / Harness / Agent 这四个被混用的概念锚定下来;Google DeepMind 的 Nicholas Kang 与 Michael Aaron 分享大规模 agent 评估的工程化做法;Bounded Autonomy 把「自由意志 vs 确定性」落到 harness 工程里;Simon Willison 发布 datasette 1.0a30 的可扩展 Jump 菜单 + datasette-agent 联动。
最近一封 · Sample
【AI早读 0613】智能体主动性飞跃与模型评估新范式
“今天聚焦智能体的两个方向加一个底层动向:Simon Willison 记录 Claude Fable 5 的“relentlessly proactive” —— 为查一个滚动条 bug 自主注入代码、自写诊断 HTTP 服务、跨浏览器截图验证,是有意图的多步自纠探索;Google DeepMind 提出“模型 diffing”新范式,让审计智能体自主构造 prompt 主动搜索两个模型的行为差异;Google Cloud 发布 Open Knowledge Format,用带 YAML frontmatter 的 Markdown 为 AI 的结构化知识建开放标准。能力、评估、基础设施三条线正拼成智能体开发的完整图景。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。