返回博客2026年6月1日1 分钟阅读

【AI早读 0601】AI 安全与智能体攻防

摘要

Vercel 拆解了 4 月 12 日他们文档 AI 端点遭遇的推理窃取攻击 - 流量飙到 10 倍峰值,攻击者用住宅代理 + OpenAI 兼容适配器把企业 API 转卖;PromptArmor 发现 ChatGPT for Google Sheets 插件可通过提示词注入把整个 Drive 工作簿外传;SafeIntelligence 提出 Spec-Driven Testing - 把测试焦点从输出一致性转向行为规格匹配;Together AI 聊了语音 Agent 工程化的延迟/质量/规模三难;G7 首次在声明里就开源 AI 与开放权重 AI 的术语达成共识。

AI 早读 0601 封面

AI 推理正在变成攻击者眼里利润率最高的「商品」- 一次 Agent 调用成本可以到 2 美元,比一次普通 HTTP 请求贵了百万倍。与此同时,大模型工具链每加一个新能力,都在打开一个新的攻击面。

过去 24 小时的几份材料拼在一起,是一幅「攻防双方都在加速」的画面。

推理窃取产业链

Vercel 工程团队发布了一份调查报告,详细拆解了针对 AI 端点的推理窃取(inference theft)攻击。4 月 12 日,Vercel 的文档 AI 聊天端点遭遇了一次典型的攻击 - 流量飙到正常水平的 10 倍,峰值每分钟 1300 个请求,如果没拦下来,当天的推理成本会超过 1 万美元。

攻击者通过住宅代理(residential proxies)隐藏真实 IP,传统的 IP 限速基本失效。更关键的是,他们在企业的自定义 AI 端点前面包了一个 OpenAI / Anthropic 兼容适配器 - 一次性的工程投入,就能把任何定制 API 伪装成标准客户端可调用的接口,然后以官方定价 5%-10% 的价格转售推理能力。典型案例是 Chipotlai Max - 一个把 Chipotle 客服聊天机器人转成 OpenAI 兼容端点的开源项目,还在公开征集 Home Depot、Starbucks 等企业的同类适配器。

Vercel 的结论很清楚 - 鉴权必须跑在每一次推理请求上,而不是会话级别。会话级别的检查一旦被绕过,攻击者就能一次性拿到数十万次免费调用。他们内部用 BotID 做 per-request 深度分析,在攻击爆发的最初几分钟内就拦截了超过一万个机器人请求。

链接:Protecting against token theft

PromptArmor 的研究则展示了另一个攻击面 - ChatGPT for Google Sheets 插件存在严重的提示词注入漏洞。一个藏在白色文字里的指令注入,就能让 ChatGPT 执行外部脚本,把受害者 Google Drive 里所有工作簿外传到攻击者服务器,即使受害者在设置里明确要求「编辑前需要人工确认」也拦不住。

链接:ChatGPT for Google Sheets Exfiltrates Workbooks

规格驱动测试

AI Engineer 频道发布的另一场演讲提出了一个有意思的问题 - 当智能体拥有「行星级大脑」时,我们怎么测试它?

Steven Willmott(SafeIntelligence)提出的方案是规格驱动测试(Spec-Driven Testing)。核心思路不是让模型跑更多 benchmark 题,而是把测试的重点从「输出一致性」转向「行为规格匹配」 - 你定义智能体在特定场景下应该表现出什么行为(比如收到恶意指令时的拒绝模式、资源不足时的降级策略),然后针对这些规格构造测试用例。

这套方法论背后的逻辑是 - 大模型的输出天然有随机性,传统断言式的测试(「输出必须等于 X」)对智能体几乎不适用。但行为层面的规格是稳定的,好的智能体应该在各类边界条件下都有一致的行为表现。

语音 Agent 工程的三个关卡

Together AI 的 Rishabh Bhargava 在同一频道分享了语音 Agent 工程化的三个核心挑战 - 延迟、质量、规模。

语音 Agent 与文本对话最大的区别在于时间感知 - 人说话是流式的,模型不能等到用户讲完整句话才开始处理。延迟的优化需要 ASR(语音识别)、LLM 推理、TTS(语音合成)全链路端到端设计,任何一环都不能是瓶颈。质量方面,语音的韵律、停顿、语调直接影响用户体验,单纯「内容正确」远远不够。而在规模侧,实时语音流的并发管理比文本对话复杂得多,涉及连接池、音频 buffer 调度、资源隔离策略。

一周生态速览

G7 在最新声明里就开源 AI 与开放权重 AI 的术语达成共识 - 这是国际政策层面第一次对「开源 AI」做出明确的语言框架界定,对后续的监管和合规有直接的参考价值。

Sonar 的 Prasenjit Sarkar 则抛出一个务实的问题 - LLM 到底能不能生成企业级质量的代码?结论是「能,但有条件」 - 关键在于怎么验证输出质量,而不是单纯依赖模型自身的能力边界。对当前热衷于把代码生成嵌进 CI/CD 链路的团队来说,这是一个重要的提醒。


来源:VerySmallWoods Research Feed - 2026-06-01 UTC

相关文章

2026年5月31日

【AI早读 0531】Anthropic 把 Claude「关在笼子里」的安全设计

Anthropic 公开了三条产品线的 Agent 隔离方案 - claude.ai 用 gVisor、Claude Code 用 Seatbelt/Bubblewrap、Cowork 用全 VM;Claude Code 早期 93% 的批准率反而成为安全风险,被 auto mode + 架构改造替代;AI Engineer 大会上「砍掉 95% Agent 技能反而更好」成为新共识;SoftBank €750 亿建法国数据中心,OpenRouter 完成 $1.13 亿 B 轮。

2026年5月28日

【AI早读 0528】智能体评测与进化

ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。

2026年5月26日

【AI早读 0526】Addy Osmani 提出「你才是编排税」,Hugging Face 重新区分 Model / Scaffolding / Harness / Agent

Addy Osmani 用 Python GIL 比喻揭穿多 agent 并发的真正瓶颈 - 是开发者本人;Hugging Face 发出官方词汇表,把 Model / Scaffolding / Harness / Agent 这四个被混用的概念锚定下来;Google DeepMind 的 Nicholas Kang 与 Michael Aaron 分享大规模 agent 评估的工程化做法;Bounded Autonomy 把「自由意志 vs 确定性」落到 harness 工程里;Simon Willison 发布 datasette 1.0a30 的可扩展 Jump 菜单 + datasette-agent 联动。

最近一封 · Sample

【AI早读 0531】Anthropic 把 Claude「关在笼子里」的安全设计

Anthropic 公开了三条产品线的 Agent 隔离方案 - claude.ai 用 gVisor、Claude Code 用 Seatbelt/Bubblewrap、Cowork 用全 VM;Claude Code 早期 93% 的批准率反而成为安全风险,被 auto mode + 架构改造替代;AI Engineer 大会上「砍掉 95% Agent 技能反而更好」成为新共识;SoftBank €750 亿建法国数据中心,OpenRouter 完成 $1.13 亿 B 轮。

—— william

Letters

来信

里面装的是

  • 新文章 — 写完一篇就寄一封,不攒货
  • 这周读到的、看到的、好用的工具
  • 正在折腾的实验,附带翻车记录

约莫 1–2 周一封 · 随时退订

合作伙伴

CompeteMap — 英国及爱尔兰学生竞赛一站式搜索

数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。

准备开始了吗?

先简单说明目标,我会给出最合适的沟通方式。