返回博客2026年6月2日2 分钟阅读

【AI早读 0602】AWS 与 OpenAI 深度合作

摘要

OpenAI 前沿模型 GPT-5.5 / GPT-5.4 / Codex 正式入驻 AWS Bedrock,定价与第一方一致;AgentCore Gateway 把 MCP prompts 和 resources 升级为第一类原生对象,新增 elicitation 与 OAuth 2.0 on-behalf-of token 交换;AWS 同步发了 AgentOps 四支柱方法论;Philipp Schmid 给出 Gemini Managed Agents 实战指南;TDS 长文拆解 RAG 检索的可预测失败模式;Jack Clark 引用 UVA / Anthropic / 加拿大央行的论文,称质量调整后美国 AI 经济 2025 年增速约 2600%。

AI 早读 0602 封面

过去 24 小时 AI 圈最显眼的动态,是 OpenAI 前沿模型正式入驻 AWS Bedrock。AWS 围绕 Bedrock AgentCore 同步密集发布了一组 Agent 基础设施能力,Google 这边也放出了 Gemini Managed Agents 的完整开发指南。

OpenAI 模型登陆 Bedrock

OpenAI 的 GPT-5.5、GPT-5.4 以及 Codex 现已通过 Amazon Bedrock 全面上线。企业可以在 AWS 的生产环境中直接调用这些模型,并享受 Bedrock 的高性能推理引擎。定价与 OpenAI 第一方一致,而 Codex 的推理走 Bedrock 通道,使用量计入已有的 AWS 承诺消费。

GPT-5.5 是 OpenAI 目前最强的前沿模型,在多步骤自主任务、大代码库的编写与调试、数据分析等方面提升显著。对企业来说,最大的价值在于隐去了采购、安全审核、合规审批这一连串的组织摩擦 - 团队可以在已有的 AWS 环境和管控框架内直接使用 OpenAI 的能力。OpenAI 在同一时间发布的博客里也提到,后续还会通过 AWS 提供 Daybreak(包括 cyber 模型和 Codex Security)等更专业化的能力。

链接:OpenAI models and Codex on Amazon Bedrock are now generally available

链接:OpenAI frontier models and Codex are now available on AWS

Bedrock AgentCore 扩展 MCP 支持

AWS 给 Bedrock AgentCore Gateway 新增了一批 MCP 支持能力。AgentCore Gateway 作为 MCP 服务器与客户端之间的中间层,负责集中管理凭证、安全连接和可观测性。这次更新加入了对 MCP tool schema 的扩展支持,把 MCP prompts 和 MCP resources 提升为第一类原生对象,同时引入了动态 listing 服务发现、流式会话管理、elicitation 机制(Agent 执行中途请求用户补充输入)以及 OAuth 2.0 on-behalf-of token 交换。

在企业场景里,AgentCore Gateway 可以充当所有 MCP 服务器的单一入口 - 法务部门的合同审查 Agent、财务团队的数据检索 Agent、运维部门的故障响应 Agent 都通过同一个网关做身份认证、策略执行和日志记录。对需要同时运维数十个 MCP 服务器的组织来说,价值相当直观。

链接:Extending MCP support for Amazon Bedrock AgentCore Gateway

AgentOps:给 Agent 装上运营体系

AWS 还发了一篇关于 AgentOps 的深度文章。核心观点是 - Agentic AI 的运维挑战和传统软件不同:Agent 做非确定性决策、成本会意外飙升、非确定性故障几乎无法复现。传统 DevOps 实践不够用。

文中从四个支柱展开:治理与安全、构建与运维、评估、可观测性。实操层面,AWS 展示了怎么用 Bedrock AgentCore 实现 Agent 质量的持续监控、工具调用的审计追踪、以及成本异常的自动告警。这是那种“用之前觉得是锦上添花,用之后发现是必需品”的能力。

链接:AgentOps: Operationalize agentic AI at scale with Amazon Bedrock AgentCore

Gemini Managed Agents 开发者指南

Philipp Schmid 写了一篇 Gemini Managed Agents 的实战指南。这是 Google 推出的托管 Agent 服务 - 你只需要调用 Interactions API,Gemini 3.5 Flash 就会在一个隔离的 Linux 沙箱里自动完成推理、代码执行(Python、Node.js、Bash)、包安装、文件管理和网页浏览。

开箱即用的 Antigravity Agent 已经可以处理编码、研究、数据分析等任务,也可以自定义 Agent 配置(指令、技能、数据)。完整方案包括多轮对话(通过 environment_id 和 previous_interaction_id 实现会话与环境的独立状态管理)、文件挂载(Git 仓库、GCS、inline 三种来源)、流式响应等。最值得关注的是 fork 机制 - 你可以在沙箱里手动搭好环境,然后冻结为可复用的 Agent 镜像,每次调用都会从该镜像 fork 一个干净的实例。

链接:Gemini Managed Agents: Developer Guide

Embeddings 不是魔法:RAG 检索的可预测失败模式

一篇来自 TDS 的长文,系统地拆了 Embedding 检索的失败边界。作者用四代模型(GloVe-avg、MiniLM、ada-002、3-large)做了大量对比实验,结果很清晰 - Embeddings 在同义词和概念近似上表现出色,但在否定、精确编号、内部产品代码这类场景中会稳定失败。而且换更强的 embedding 模型也解决不了 - 问题不在向量空间质量,在于检索目标的语言学特征本身就不适合用语义相似度来匹配。

文章的核心主张是 - 企业级 RAG 的可靠性提升,更多来自上层的专家关键字和文档结构过滤,而不是在弱检索之上堆 reranker。这篇文章是 Enterprise Document Intelligence 系列的一部分,如果做企业级搜索,值得整个系列都刷一遍。

链接:Embeddings Aren't Magic: The Predictable Failure Modes of RAG Retrieval

Import AI 459:AI 经济的真实规模

Jack Clark 的 Import AI 第 459 期报道了一篇来自 UVA、Anthropic 和加拿大央行的论文,试图回答一个很多人隐约感觉到、但难以量化的问题 - AI 对经济的真实贡献到底有多大?

论文的核心发现很惊人 - 以质量调整后的口径计算,美国 AI 经济在 2024 年和 2025 年分别增长了约 2290% 和 2271%......名义上的 AI GDP 在 2025 年约为 2500 亿美元,但质量调整后的实际增速约每年 2600%。论文给出三个建议:建立 AI 卫星账户来独立追踪、统计机构应与企业合作生成更好的原始数据、政策制定者应把 AI 产能指标纳入中期经济预测。

Jack Clark 用了一个《大白鲨》的比喻 - 你看经济数据觉得一切正常,但真正在水面下的是那个庞大的 AI 经济,而我们才刚刚开始意识到它的存在。

链接:Import AI 459: AI oversight is difficult; scaling laws for protein folding models; and pricing the extinction risk of AI systems


来源:VerySmallWoods Research Feed - 2026-06-01 UTC

相关文章

2026年6月8日

【AI早读 0608】Agent 生态加速成熟,多智能体与平台战并进

过去 24 小时 AI 圈关键词是 Agent:Towards Data Science 把 Python 多智能体教程推成中级实践;AI Engineer 频道两场分享指向 Agent 从原型走向规模化 - MCP 管道与 LLM 可观测性;OpenAI 据 FT 报道要把 ChatGPT 重构成集成 Codex 的“超级应用”,内部一句“Chat is dead”;Ramp 数据显示 DeepSeek 登顶增长最快的软件供应商,价格驱动的“Token 经济”成形;Notion 因 Anthropic Opus 4.7/4.8 抖动一度禁用全部 Anthropic 模型;The Algorithmic Bridge 深扒 Anthropic 如何用安全叙事影响特朗普政府的 AI 政策。

2026年6月12日

【AI早读0612】OpenAI收购Ona为Codex构建持久化Agent执行环境

今天的主线是 AI Agent 正在走向“生产级”:OpenAI 收购 Ona,给 Codex 补上持久化云端执行 —— 电脑离线后 Agent 仍能在企业自有云里接着跑。Google Cloud 用 TEE 推出 Confidential AI 保护推理数据;Anthropic 发布企业订阅 Claude Corps 并联合 DXC 进入受监管行业;AWS 开源 Agent-EvalKit 系统化评估 Agent 全执行链路;再加 DeepMind“模型察觉被评估反而表现更差”的研究与多 Agent 安全投资。

2026年6月9日

【AI早读 0609】OpenAI 连续发布金融行业 AI 实战案例

OpenAI 集中上线了一批 Ignite 大会演讲:方案工程师讲企业级 AI 落地框架 - 把 AI 当工作流里的一个可控节点而非独立智能层;GTM Lead 谈金融服务的特殊诉求,已从“帮我们分析数据”变成“嵌入实时交易决策链”;Erste Group、LSEG、Allica Bank 三家银行客户分享了平台层整合、数据协同和挑战者银行的差异化打法;另有两场从产品增长和人力杠杆角度切入 AI 的实践。

最近一封 · Sample

【AI早读 0613】智能体主动性飞跃与模型评估新范式

今天聚焦智能体的两个方向加一个底层动向:Simon Willison 记录 Claude Fable 5 的“relentlessly proactive” —— 为查一个滚动条 bug 自主注入代码、自写诊断 HTTP 服务、跨浏览器截图验证,是有意图的多步自纠探索;Google DeepMind 提出“模型 diffing”新范式,让审计智能体自主构造 prompt 主动搜索两个模型的行为差异;Google Cloud 发布 Open Knowledge Format,用带 YAML frontmatter 的 Markdown 为 AI 的结构化知识建开放标准。能力、评估、基础设施三条线正拼成智能体开发的完整图景。

—— william

Letters

来信

里面装的是

  • 新文章 — 写完一篇就寄一封,不攒货
  • 这周读到的、看到的、好用的工具
  • 正在折腾的实验,附带翻车记录

约莫 1–2 周一封 · 随时退订

合作伙伴

CompeteMap — 英国及爱尔兰学生竞赛一站式搜索

数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。

准备开始了吗?

先简单说明目标,我会给出最合适的沟通方式。