【AI早读 0601】AI 安全与智能体攻防
摘要
Vercel 拆解了 4 月 12 日他们文档 AI 端点遭遇的推理窃取攻击 - 流量飙到 10 倍峰值,攻击者用住宅代理 + OpenAI 兼容适配器把企业 API 转卖;PromptArmor 发现 ChatGPT for Google Sheets 插件可通过提示词注入把整个 Drive 工作簿外传;SafeIntelligence 提出 Spec-Driven Testing - 把测试焦点从输出一致性转向行为规格匹配;Together AI 聊了语音 Agent 工程化的延迟/质量/规模三难;G7 首次在声明里就开源 AI 与开放权重 AI 的术语达成共识。

AI 推理正在变成攻击者眼里利润率最高的“商品”- 一次 Agent 调用成本可以到 2 美元,比一次普通 HTTP 请求贵了百万倍。与此同时,大模型工具链每加一个新能力,都在打开一个新的攻击面。
过去 24 小时的几份材料拼在一起,是一幅“攻防双方都在加速”的画面。
推理窃取产业链
Vercel 工程团队发布了一份调查报告,详细拆解了针对 AI 端点的推理窃取(inference theft)攻击。4 月 12 日,Vercel 的文档 AI 聊天端点遭遇了一次典型的攻击 - 流量飙到正常水平的 10 倍,峰值每分钟 1300 个请求,如果没拦下来,当天的推理成本会超过 1 万美元。
攻击者通过住宅代理(residential proxies)隐藏真实 IP,传统的 IP 限速基本失效。更关键的是,他们在企业的自定义 AI 端点前面包了一个 OpenAI / Anthropic 兼容适配器 - 一次性的工程投入,就能把任何定制 API 伪装成标准客户端可调用的接口,然后以官方定价 5%-10% 的价格转售推理能力。典型案例是 Chipotlai Max - 一个把 Chipotle 客服聊天机器人转成 OpenAI 兼容端点的开源项目,还在公开征集 Home Depot、Starbucks 等企业的同类适配器。
Vercel 的结论很清楚 - 鉴权必须跑在每一次推理请求上,而不是会话级别。会话级别的检查一旦被绕过,攻击者就能一次性拿到数十万次免费调用。他们内部用 BotID 做 per-request 深度分析,在攻击爆发的最初几分钟内就拦截了超过一万个机器人请求。
链接:Protecting against token theft
PromptArmor 的研究则展示了另一个攻击面 - ChatGPT for Google Sheets 插件存在严重的提示词注入漏洞。一个藏在白色文字里的指令注入,就能让 ChatGPT 执行外部脚本,把受害者 Google Drive 里所有工作簿外传到攻击者服务器,即使受害者在设置里明确要求“编辑前需要人工确认”也拦不住。
链接:ChatGPT for Google Sheets Exfiltrates Workbooks
规格驱动测试
AI Engineer 频道发布的另一场演讲提出了一个有意思的问题 - 当智能体拥有“行星级大脑”时,我们怎么测试它?
Steven Willmott(SafeIntelligence)提出的方案是规格驱动测试(Spec-Driven Testing)。核心思路不是让模型跑更多 benchmark 题,而是把测试的重点从“输出一致性”转向“行为规格匹配” - 你定义智能体在特定场景下应该表现出什么行为(比如收到恶意指令时的拒绝模式、资源不足时的降级策略),然后针对这些规格构造测试用例。
这套方法论背后的逻辑是 - 大模型的输出天然有随机性,传统断言式的测试(“输出必须等于 X”)对智能体几乎不适用。但行为层面的规格是稳定的,好的智能体应该在各类边界条件下都有一致的行为表现。
语音 Agent 工程的三个关卡
Together AI 的 Rishabh Bhargava 在同一频道分享了语音 Agent 工程化的三个核心挑战 - 延迟、质量、规模。
语音 Agent 与文本对话最大的区别在于时间感知 - 人说话是流式的,模型不能等到用户讲完整句话才开始处理。延迟的优化需要 ASR(语音识别)、LLM 推理、TTS(语音合成)全链路端到端设计,任何一环都不能是瓶颈。质量方面,语音的韵律、停顿、语调直接影响用户体验,单纯“内容正确”远远不够。而在规模侧,实时语音流的并发管理比文本对话复杂得多,涉及连接池、音频 buffer 调度、资源隔离策略。
一周生态速览
G7 在最新声明里就开源 AI 与开放权重 AI 的术语达成共识 - 这是国际政策层面第一次对“开源 AI”做出明确的语言框架界定,对后续的监管和合规有直接的参考价值。
Sonar 的 Prasenjit Sarkar 则抛出一个务实的问题 - LLM 到底能不能生成企业级质量的代码?结论是“能,但有条件” - 关键在于怎么验证输出质量,而不是单纯依赖模型自身的能力边界。对当前热衷于把代码生成嵌进 CI/CD 链路的团队来说,这是一个重要的提醒。
来源:VerySmallWoods Research Feed - 2026-06-01 UTC
相关文章
2026年6月13日
【AI早读 0613】智能体主动性飞跃与模型评估新范式
今天聚焦智能体的两个方向加一个底层动向:Simon Willison 记录 Claude Fable 5 的“relentlessly proactive” —— 为查一个滚动条 bug 自主注入代码、自写诊断 HTTP 服务、跨浏览器截图验证,是有意图的多步自纠探索;Google DeepMind 提出“模型 diffing”新范式,让审计智能体自主构造 prompt 主动搜索两个模型的行为差异;Google Cloud 发布 Open Knowledge Format,用带 YAML frontmatter 的 Markdown 为 AI 的结构化知识建开放标准。能力、评估、基础设施三条线正拼成智能体开发的完整图景。
2026年6月12日
【AI早读0612】OpenAI收购Ona为Codex构建持久化Agent执行环境
今天的主线是 AI Agent 正在走向“生产级”:OpenAI 收购 Ona,给 Codex 补上持久化云端执行 —— 电脑离线后 Agent 仍能在企业自有云里接着跑。Google Cloud 用 TEE 推出 Confidential AI 保护推理数据;Anthropic 发布企业订阅 Claude Corps 并联合 DXC 进入受监管行业;AWS 开源 Agent-EvalKit 系统化评估 Agent 全执行链路;再加 DeepMind“模型察觉被评估反而表现更差”的研究与多 Agent 安全投资。
2026年6月11日
【AI早读 0611】Google AI 三连发:DiffusionGemma、Managed Agents 与 ML 遗忘审计
Google 昨天一天连发三项:用扩散架构把文本生成提速 4 倍的 DiffusionGemma、一行 SDK 背后拉起 4 vCPU 沙箱的 Gemini Managed Agents,以及给「机器遗忘」做置信度评估的审计框架。再加上 GitHub Copilot CLI 接入 LSP 拿到语义级代码理解,以及 Simon Willison 对 Claude Fable 5「静默拒绝」推理策略的观察。
最近一封 · Sample
【AI早读 0613】智能体主动性飞跃与模型评估新范式
“今天聚焦智能体的两个方向加一个底层动向:Simon Willison 记录 Claude Fable 5 的“relentlessly proactive” —— 为查一个滚动条 bug 自主注入代码、自写诊断 HTTP 服务、跨浏览器截图验证,是有意图的多步自纠探索;Google DeepMind 提出“模型 diffing”新范式,让审计智能体自主构造 prompt 主动搜索两个模型的行为差异;Google Cloud 发布 Open Knowledge Format,用带 YAML frontmatter 的 Markdown 为 AI 的结构化知识建开放标准。能力、评估、基础设施三条线正拼成智能体开发的完整图景。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。