返回博客2026年5月19日2 分钟阅读

【AI早读 0519】Agent评估到部署,以及长时任务智能体的稳定性

摘要

今天聚焦 Agent 从评估到部署 - IBM 跨场景排行榜、OpenAI×Dell 把 Codex 推进企业本地环境、Anthropic 谈长时任务稳定性,以及一份系统的 Agent 评估指南。

AI 早读 0519 封面

今天的内容集中在 Agent 系统从评估到部署的各个层面。IBM 开放了一个跨场景的 Agent 排行榜,把模型和 Agent 架构拆开比;OpenAI 跟 Dell 联手把 Codex 推入企业本地环境;Anthropic 的人出来聊长时间 Agent 的稳定性问题;Cameron Wolfe 写了一篇非常系统的 Agent 评估指南 - 两篇 AWS 博客分别覆盖了 Bedrock AgentCore 的自定义评估和 Nova 2 的内容审核。

OpenAI × Dell:Codex 进入混合云与本地部署

OpenAI 宣布与 Dell 合作,将 Codex 带入企业的混合云和本地(on-premises)环境。Codex 目前每周有超过 400 万开发者使用,使用场景已从代码审查、测试覆盖扩展到事故响应和跨仓库推理。更值得留意的是,Codex 驱动 Agent 已经开始出现在业务系统里 - 收集上下文、准备报告、路由产品反馈、线索筛选、写跟进邮件、协调跨系统工作流 - 这些已经不是实验阶段。

这次合作的关键是 Dell AI Data Platform 和 Dell AI Factory。Codex 会接入 Dell 已有的数据平台,让 Agent 离企业内部代码库、文档、业务系统和工作流知识更近。Dell 的基础设施配上 OpenAI 的 Agent 工具,企业其实拿到了一条「数据不动、Agent 过来」的路径。具体来说,Dell AI Factory 与 ChatGPT Enterprise 和 API 方案之间的配合也已被列入探索范围。

链接:OpenAI and Dell Technologies partner to bring Codex to hybrid and on-premises enterprise environments

IBM 开放 Agent 排行榜:把架构和模型拆开看

IBM Research 在 Hugging Face 上发布了 Open Agent Leaderboard。它的设计理念很直接:Agent 跑得好不好不只是模型的事 - 工具怎么设计、规划怎么执行、记忆怎么组织、出错怎么恢复,每一项都影响结果。同一个模型配上不同的 Agent 系统,得分和成本可以差很多。

排行榜覆盖六个场景:SWE-Bench Verified(代码修复)、BrowseComp+(开放研究)、AppWorld(跨应用个人任务)、tau2-Bench Airline & Retail(客服)、tau2-Bench Telecom(技术支持)。每个场景都有不同的工具、规则和约束 - 测的不是系统在单一任务上的优化,而是它在陌生环境下的泛化能力。

目前的结果有几个有趣的发现。通用 Agent 在多个场景上已经能与专门优化的系统匹敌甚至超越。失败的行为差异也很大 - 有的快速失败、成本低,有的烧长链后才放弃。实验中失败的运行比成功的贵 20–54%。这对生产环境中账单的影响比人们意识到的要大。

排行榜同时报告质量和成本,每一行都是完整的 Agent 系统(特定 Agent + 特定模型)。Exgentic 框架和论文全部开源。

链接:The Open Agent Leaderboard

Anthropic 谈长时间 Agent 的稳定性

AI Engineer 频道发布了一场新对谈,Anthropic 的 Ash Prabaker 和 Andrew Wilson 讨论了构建「能跑数小时而不丢失上下文」的 Agent。这个话题的实用性很高 - 短周期 Agent(单轮问答、一次性代码生成)已经被大量实践覆盖,但长时间运行的 Agent 面临的核心难题是上下文退化、错误累积和规划漂移。

虽然没有详细摘要,但这个方向本身就是一个明确的信号:行业对 Agent 的注意力正在从「能不能做」转向「能稳定做多久」。对于任何正在把 Agent 推向生产的人来说,这个话题比新模型发布更贴近日常痛点。

Agent 评估实战指南

Cameron Wolfe 的《Agent Evaluation: A Detailed Guide》是一篇很系统的综述。他从 Agent 的基本定义讲起 - 最简定义就是「在循环中自主使用工具的 LLM」 - 然后逐步展开到评估框架的设计。

文章的核心观点值得重复:Agent 和传统 LLM 的评估方式完全不同。过去我们拿静态问答测模型,现在的 Agent 系统有长时间跨度、与环境交互、有自主决策。要准确衡量一个 Agent 系统的能力,评估环境必须足够逼真、能覆盖 Agent 在实践中会遇到的各种情况。

关于工具调用的内部机制,文章用 Qwen3 的 XML 标签实现做例讲解(<tool_call> / </tool_call> 作为特殊 token),解释了推理时如何拦截输出、解析请求、调用工具、拼接结果、再继续生成 - 整个循环实现并不神秘。

链接:Agent Evaluation: A Detailed Guide

AWS 双管齐下:AgentCore 自定义评估 + Nova 2 内容审核

AWS 在同一天发了两篇值得读的博客。

第一篇讲 Bedrock AgentCore 的自定义代码评估器。对于金融和专业领域,很多检查不是语言层面的 - 股价波动范围、经纪人身份验证、JSON schema 校验、PII 过滤 - 这些需要确定性的代码而非 LLM-as-a-Judge。AgentCore 允许用 Lambda 函数作为评估引擎做正则校验、结构化验证、外部数据查询。同一个评估器可以同时用于开发工作流的门禁和线上流量的评分。

第二篇讲 Amazon Nova 2 Lite 的内容审核。如果用 MLCommons AILuminate 12 类风险分类法做 prompt 模板,Nova 2 的结构化提示在多个基准数据集上的表现与其他基础模型有可比性 - 且不需要标注数据和微调,改策略就是改 prompt。

链接:Build custom code-based evaluators in Amazon Bedrock AgentCore

链接:Prompting Amazon Nova 2 for content moderation

其他值得关注的条目


来源:VerySmallWoods Research Feed - 2026-05-19 UTC

相关文章

2026年6月12日

【AI早读0612】OpenAI收购Ona为Codex构建持久化Agent执行环境

今天的主线是 AI Agent 正在走向“生产级”:OpenAI 收购 Ona,给 Codex 补上持久化云端执行 —— 电脑离线后 Agent 仍能在企业自有云里接着跑。Google Cloud 用 TEE 推出 Confidential AI 保护推理数据;Anthropic 发布企业订阅 Claude Corps 并联合 DXC 进入受监管行业;AWS 开源 Agent-EvalKit 系统化评估 Agent 全执行链路;再加 DeepMind“模型察觉被评估反而表现更差”的研究与多 Agent 安全投资。

2026年6月10日

【AI早读 0610】Claude Fable 5 全平台上线,Gemma 4 12B 开源本地多模态

6 月 9 号是今年最密集的 AI 发布日之一:Anthropic 正式放出前沿模型 Mythos 5 与消费版 Fable 5,强项在超长上下文 agentic coding,但定价翻倍、普通用户感知有限,并同步上架 Google Cloud。Google DeepMind 开源 Gemma 4 12B 无编码器多模态模型,16GB 显存即可本地跑。OpenAI 连发 Codex 企业落地案例,AWS 放出两篇 agent 实践,Cloudflare 分享前沿模型攻击的防御架构。

2026年5月28日

【AI早读 0528】智能体评测与进化

ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。

最近一封 · Sample

【AI早读 0613】智能体主动性飞跃与模型评估新范式

今天聚焦智能体的两个方向加一个底层动向:Simon Willison 记录 Claude Fable 5 的“relentlessly proactive” —— 为查一个滚动条 bug 自主注入代码、自写诊断 HTTP 服务、跨浏览器截图验证,是有意图的多步自纠探索;Google DeepMind 提出“模型 diffing”新范式,让审计智能体自主构造 prompt 主动搜索两个模型的行为差异;Google Cloud 发布 Open Knowledge Format,用带 YAML frontmatter 的 Markdown 为 AI 的结构化知识建开放标准。能力、评估、基础设施三条线正拼成智能体开发的完整图景。

—— william

Letters

来信

里面装的是

  • 新文章 — 写完一篇就寄一封,不攒货
  • 这周读到的、看到的、好用的工具
  • 正在折腾的实验,附带翻车记录

约莫 1–2 周一封 · 随时退订

合作伙伴

CompeteMap — 英国及爱尔兰学生竞赛一站式搜索

数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。

准备开始了吗?

先简单说明目标,我会给出最合适的沟通方式。