返回博客2026年6月2日2 分钟阅读

【AI早读 0602】AWS 与 OpenAI 深度合作

摘要

OpenAI 前沿模型 GPT-5.5 / GPT-5.4 / Codex 正式入驻 AWS Bedrock,定价与第一方一致;AgentCore Gateway 把 MCP prompts 和 resources 升级为第一类原生对象,新增 elicitation 与 OAuth 2.0 on-behalf-of token 交换;AWS 同步发了 AgentOps 四支柱方法论;Philipp Schmid 给出 Gemini Managed Agents 实战指南;TDS 长文拆解 RAG 检索的可预测失败模式;Jack Clark 引用 UVA / Anthropic / 加拿大央行的论文,称质量调整后美国 AI 经济 2025 年增速约 2600%。

AI 早读 0602 封面

过去 24 小时 AI 圈最显眼的动态,是 OpenAI 前沿模型正式入驻 AWS Bedrock。AWS 围绕 Bedrock AgentCore 同步密集发布了一组 Agent 基础设施能力,Google 这边也放出了 Gemini Managed Agents 的完整开发指南。

OpenAI 模型登陆 Bedrock

OpenAI 的 GPT-5.5、GPT-5.4 以及 Codex 现已通过 Amazon Bedrock 全面上线。企业可以在 AWS 的生产环境中直接调用这些模型,并享受 Bedrock 的高性能推理引擎。定价与 OpenAI 第一方一致,而 Codex 的推理走 Bedrock 通道,使用量计入已有的 AWS 承诺消费。

GPT-5.5 是 OpenAI 目前最强的前沿模型,在多步骤自主任务、大代码库的编写与调试、数据分析等方面提升显著。对企业来说,最大的价值在于隐去了采购、安全审核、合规审批这一连串的组织摩擦 - 团队可以在已有的 AWS 环境和管控框架内直接使用 OpenAI 的能力。OpenAI 在同一时间发布的博客里也提到,后续还会通过 AWS 提供 Daybreak(包括 cyber 模型和 Codex Security)等更专业化的能力。

链接:OpenAI models and Codex on Amazon Bedrock are now generally available

链接:OpenAI frontier models and Codex are now available on AWS

Bedrock AgentCore 扩展 MCP 支持

AWS 给 Bedrock AgentCore Gateway 新增了一批 MCP 支持能力。AgentCore Gateway 作为 MCP 服务器与客户端之间的中间层,负责集中管理凭证、安全连接和可观测性。这次更新加入了对 MCP tool schema 的扩展支持,把 MCP prompts 和 MCP resources 提升为第一类原生对象,同时引入了动态 listing 服务发现、流式会话管理、elicitation 机制(Agent 执行中途请求用户补充输入)以及 OAuth 2.0 on-behalf-of token 交换。

在企业场景里,AgentCore Gateway 可以充当所有 MCP 服务器的单一入口 - 法务部门的合同审查 Agent、财务团队的数据检索 Agent、运维部门的故障响应 Agent 都通过同一个网关做身份认证、策略执行和日志记录。对需要同时运维数十个 MCP 服务器的组织来说,价值相当直观。

链接:Extending MCP support for Amazon Bedrock AgentCore Gateway

AgentOps:给 Agent 装上运营体系

AWS 还发了一篇关于 AgentOps 的深度文章。核心观点是 - Agentic AI 的运维挑战和传统软件不同:Agent 做非确定性决策、成本会意外飙升、非确定性故障几乎无法复现。传统 DevOps 实践不够用。

文中从四个支柱展开:治理与安全、构建与运维、评估、可观测性。实操层面,AWS 展示了怎么用 Bedrock AgentCore 实现 Agent 质量的持续监控、工具调用的审计追踪、以及成本异常的自动告警。这是那种“用之前觉得是锦上添花,用之后发现是必需品”的能力。

链接:AgentOps: Operationalize agentic AI at scale with Amazon Bedrock AgentCore

Gemini Managed Agents 开发者指南

Philipp Schmid 写了一篇 Gemini Managed Agents 的实战指南。这是 Google 推出的托管 Agent 服务 - 你只需要调用 Interactions API,Gemini 3.5 Flash 就会在一个隔离的 Linux 沙箱里自动完成推理、代码执行(Python、Node.js、Bash)、包安装、文件管理和网页浏览。

开箱即用的 Antigravity Agent 已经可以处理编码、研究、数据分析等任务,也可以自定义 Agent 配置(指令、技能、数据)。完整方案包括多轮对话(通过 environment_id 和 previous_interaction_id 实现会话与环境的独立状态管理)、文件挂载(Git 仓库、GCS、inline 三种来源)、流式响应等。最值得关注的是 fork 机制 - 你可以在沙箱里手动搭好环境,然后冻结为可复用的 Agent 镜像,每次调用都会从该镜像 fork 一个干净的实例。

链接:Gemini Managed Agents: Developer Guide

Embeddings 不是魔法:RAG 检索的可预测失败模式

一篇来自 TDS 的长文,系统地拆了 Embedding 检索的失败边界。作者用四代模型(GloVe-avg、MiniLM、ada-002、3-large)做了大量对比实验,结果很清晰 - Embeddings 在同义词和概念近似上表现出色,但在否定、精确编号、内部产品代码这类场景中会稳定失败。而且换更强的 embedding 模型也解决不了 - 问题不在向量空间质量,在于检索目标的语言学特征本身就不适合用语义相似度来匹配。

文章的核心主张是 - 企业级 RAG 的可靠性提升,更多来自上层的专家关键字和文档结构过滤,而不是在弱检索之上堆 reranker。这篇文章是 Enterprise Document Intelligence 系列的一部分,如果做企业级搜索,值得整个系列都刷一遍。

链接:Embeddings Aren't Magic: The Predictable Failure Modes of RAG Retrieval

Import AI 459:AI 经济的真实规模

Jack Clark 的 Import AI 第 459 期报道了一篇来自 UVA、Anthropic 和加拿大央行的论文,试图回答一个很多人隐约感觉到、但难以量化的问题 - AI 对经济的真实贡献到底有多大?

论文的核心发现很惊人 - 以质量调整后的口径计算,美国 AI 经济在 2024 年和 2025 年分别增长了约 2290% 和 2271%......名义上的 AI GDP 在 2025 年约为 2500 亿美元,但质量调整后的实际增速约每年 2600%。论文给出三个建议:建立 AI 卫星账户来独立追踪、统计机构应与企业合作生成更好的原始数据、政策制定者应把 AI 产能指标纳入中期经济预测。

Jack Clark 用了一个《大白鲨》的比喻 - 你看经济数据觉得一切正常,但真正在水面下的是那个庞大的 AI 经济,而我们才刚刚开始意识到它的存在。

链接:Import AI 459: AI oversight is difficult; scaling laws for protein folding models; and pricing the extinction risk of AI systems


来源:VerySmallWoods Research Feed - 2026-06-01 UTC

相关文章

2025年3月27日

OpenAI Agents SDK 支持 MCP 极简指南

OpenAI Agents SDK 现已支持 MCP!这意味着我们可以更轻松地让 AI 使用各种外部工具了。 MCP(模型上下文协议)就像 AI 的 USB 接口,让 AI 能标准化地连接各种工具和数据源。 - **stdio 服务器**:本地运行,作为子进程 - **HTTP over SSE 服务器**:远程运行,通过 URL 连接 如果工具列表不会变,...

2025年3月27日

OpenAI Agents SDK 支持 MCP:入门指南

今天发现 OpenAI 的 Agents SDK 已经支持 MCP 了!这真是个好消息。对于我们这些需要让 AI 与各种工具交互的开发者来说,这无疑是个福音。MCP(模型上下文协议)本质上就是一种标准化的方式,让 AI 模型能够与外部工具和数据源进行交互。 简单来说,MCP 就像是 AI 应用的 USB-C 接口。官方文档里有个挺形象的比喻: > 就像 US...

2026年6月1日

【AI早读 0601】AI 安全与智能体攻防

Vercel 拆解了 4 月 12 日他们文档 AI 端点遭遇的推理窃取攻击 - 流量飙到 10 倍峰值,攻击者用住宅代理 + OpenAI 兼容适配器把企业 API 转卖;PromptArmor 发现 ChatGPT for Google Sheets 插件可通过提示词注入把整个 Drive 工作簿外传;SafeIntelligence 提出 Spec-Driven Testing - 把测试焦点从输出一致性转向行为规格匹配;Together AI 聊了语音 Agent 工程化的延迟/质量/规模三难;G7 首次在声明里就开源 AI 与开放权重 AI 的术语达成共识。

最近一封 · Sample

【AI早读 0601】AI 安全与智能体攻防

Vercel 拆解了 4 月 12 日他们文档 AI 端点遭遇的推理窃取攻击 - 流量飙到 10 倍峰值,攻击者用住宅代理 + OpenAI 兼容适配器把企业 API 转卖;PromptArmor 发现 ChatGPT for Google Sheets 插件可通过提示词注入把整个 Drive 工作簿外传;SafeIntelligence 提出 Spec-Driven Testing - 把测试焦点从输出一致性转向行为规格匹配;Together AI 聊了语音 Agent 工程化的延迟/质量/规模三难;G7 首次在声明里就开源 AI 与开放权重 AI 的术语达成共识。

—— william

Letters

来信

里面装的是

  • 新文章 — 写完一篇就寄一封,不攒货
  • 这周读到的、看到的、好用的工具
  • 正在折腾的实验,附带翻车记录

约莫 1–2 周一封 · 随时退订

合作伙伴

CompeteMap — 英国及爱尔兰学生竞赛一站式搜索

数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。

准备开始了吗?

先简单说明目标,我会给出最合适的沟通方式。