返回博客2026年5月19日2 分钟阅读

【AI早读 0519】Agent评估到部署,以及长时任务智能体的稳定性

摘要

今天聚焦 Agent 从评估到部署 - IBM 跨场景排行榜、OpenAI×Dell 把 Codex 推进企业本地环境、Anthropic 谈长时任务稳定性,以及一份系统的 Agent 评估指南。

AI 早读 0519 封面

今天的内容集中在 Agent 系统从评估到部署的各个层面。IBM 开放了一个跨场景的 Agent 排行榜,把模型和 Agent 架构拆开比;OpenAI 跟 Dell 联手把 Codex 推入企业本地环境;Anthropic 的人出来聊长时间 Agent 的稳定性问题;Cameron Wolfe 写了一篇非常系统的 Agent 评估指南 - 两篇 AWS 博客分别覆盖了 Bedrock AgentCore 的自定义评估和 Nova 2 的内容审核。

OpenAI × Dell:Codex 进入混合云与本地部署

OpenAI 宣布与 Dell 合作,将 Codex 带入企业的混合云和本地(on-premises)环境。Codex 目前每周有超过 400 万开发者使用,使用场景已从代码审查、测试覆盖扩展到事故响应和跨仓库推理。更值得留意的是,Codex 驱动 Agent 已经开始出现在业务系统里 - 收集上下文、准备报告、路由产品反馈、线索筛选、写跟进邮件、协调跨系统工作流 - 这些已经不是实验阶段。

这次合作的关键是 Dell AI Data Platform 和 Dell AI Factory。Codex 会接入 Dell 已有的数据平台,让 Agent 离企业内部代码库、文档、业务系统和工作流知识更近。Dell 的基础设施配上 OpenAI 的 Agent 工具,企业其实拿到了一条「数据不动、Agent 过来」的路径。具体来说,Dell AI Factory 与 ChatGPT Enterprise 和 API 方案之间的配合也已被列入探索范围。

链接:OpenAI and Dell Technologies partner to bring Codex to hybrid and on-premises enterprise environments

IBM 开放 Agent 排行榜:把架构和模型拆开看

IBM Research 在 Hugging Face 上发布了 Open Agent Leaderboard。它的设计理念很直接:Agent 跑得好不好不只是模型的事 - 工具怎么设计、规划怎么执行、记忆怎么组织、出错怎么恢复,每一项都影响结果。同一个模型配上不同的 Agent 系统,得分和成本可以差很多。

排行榜覆盖六个场景:SWE-Bench Verified(代码修复)、BrowseComp+(开放研究)、AppWorld(跨应用个人任务)、tau2-Bench Airline & Retail(客服)、tau2-Bench Telecom(技术支持)。每个场景都有不同的工具、规则和约束 - 测的不是系统在单一任务上的优化,而是它在陌生环境下的泛化能力。

目前的结果有几个有趣的发现。通用 Agent 在多个场景上已经能与专门优化的系统匹敌甚至超越。失败的行为差异也很大 - 有的快速失败、成本低,有的烧长链后才放弃。实验中失败的运行比成功的贵 20–54%。这对生产环境中账单的影响比人们意识到的要大。

排行榜同时报告质量和成本,每一行都是完整的 Agent 系统(特定 Agent + 特定模型)。Exgentic 框架和论文全部开源。

链接:The Open Agent Leaderboard

Anthropic 谈长时间 Agent 的稳定性

AI Engineer 频道发布了一场新对谈,Anthropic 的 Ash Prabaker 和 Andrew Wilson 讨论了构建「能跑数小时而不丢失上下文」的 Agent。这个话题的实用性很高 - 短周期 Agent(单轮问答、一次性代码生成)已经被大量实践覆盖,但长时间运行的 Agent 面临的核心难题是上下文退化、错误累积和规划漂移。

虽然没有详细摘要,但这个方向本身就是一个明确的信号:行业对 Agent 的注意力正在从「能不能做」转向「能稳定做多久」。对于任何正在把 Agent 推向生产的人来说,这个话题比新模型发布更贴近日常痛点。

Agent 评估实战指南

Cameron Wolfe 的《Agent Evaluation: A Detailed Guide》是一篇很系统的综述。他从 Agent 的基本定义讲起 - 最简定义就是「在循环中自主使用工具的 LLM」 - 然后逐步展开到评估框架的设计。

文章的核心观点值得重复:Agent 和传统 LLM 的评估方式完全不同。过去我们拿静态问答测模型,现在的 Agent 系统有长时间跨度、与环境交互、有自主决策。要准确衡量一个 Agent 系统的能力,评估环境必须足够逼真、能覆盖 Agent 在实践中会遇到的各种情况。

关于工具调用的内部机制,文章用 Qwen3 的 XML 标签实现做例讲解(<tool_call> / </tool_call> 作为特殊 token),解释了推理时如何拦截输出、解析请求、调用工具、拼接结果、再继续生成 - 整个循环实现并不神秘。

链接:Agent Evaluation: A Detailed Guide

AWS 双管齐下:AgentCore 自定义评估 + Nova 2 内容审核

AWS 在同一天发了两篇值得读的博客。

第一篇讲 Bedrock AgentCore 的自定义代码评估器。对于金融和专业领域,很多检查不是语言层面的 - 股价波动范围、经纪人身份验证、JSON schema 校验、PII 过滤 - 这些需要确定性的代码而非 LLM-as-a-Judge。AgentCore 允许用 Lambda 函数作为评估引擎做正则校验、结构化验证、外部数据查询。同一个评估器可以同时用于开发工作流的门禁和线上流量的评分。

第二篇讲 Amazon Nova 2 Lite 的内容审核。如果用 MLCommons AILuminate 12 类风险分类法做 prompt 模板,Nova 2 的结构化提示在多个基准数据集上的表现与其他基础模型有可比性 - 且不需要标注数据和微调,改策略就是改 prompt。

链接:Build custom code-based evaluators in Amazon Bedrock AgentCore

链接:Prompting Amazon Nova 2 for content moderation

其他值得关注的条目


来源:VerySmallWoods Research Feed - 2026-05-19 UTC

相关文章

2026年5月14日

用 AI 玩转英超 - 我把自己玩 FPL 的工作流写成了一个 Agent Skill

Fantasy Premier League 每周一次决策,每次都要看一堆分散在不同网站上的数据:球员状态、对手赛程难度、转会成本、队长候选人。我把这套工作流整理成了一个 skill,叫 fpl-copilot - 数据本地 SQLite,阵容用 Markdown 文件持久化,每个 GW 的分析输出成自包含的 HTML 报告。Claude Code 和 Codex 都能装。

2026年5月13日

Agent 输出 HTML 的时代到了

Anthropic 工程师 Thariq Shihipar 5 月初发了一条“HTML is the new markdown”,附了 20 个由 Claude Code 产出的单文件 HTML 示例。Simon Willison 第二天宣布放弃用了三年的 Markdown 默认值。这件事值得跟一跟 - 不是 HTML 全面胜出,而是 agent 输出三年前和现在已经是两回事。

最近一封 · Sample

a16z观点:SaaS 的入口正在从数据库挪到推理层

a16z 这周发了一篇观点文章 - From System of Record to System of Intelligence。同一天 Notion 把工作区改造成 AI agent hub。两件事放一起看,是 SaaS 产品形态的一次方向调整 - 入口正在从“我帮你把数据存好”挪到“我帮你拉所有上下文做事”。

—— william

Letters

来信

里面装的是

  • 新文章 — 写完一篇就寄一封,不攒货
  • 这周读到的、看到的、好用的工具
  • 正在折腾的实验,附带翻车记录

约莫 1–2 周一封 · 随时退订

合作伙伴

CompeteMap — 英国及爱尔兰学生竞赛一站式搜索

数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。

准备开始了吗?

先简单说明目标,我会给出最合适的沟通方式。