【AI早读 0528】智能体评测与进化
摘要
ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。

企业 IT 任务的智能体评测:没有一个模型及格
Artificial Analysis 与 IBM 联合发布了 ITBench-AA,这是首个针对企业级 IT 智能体任务的基准测试,从 SRE(站点可靠性工程)场景开始。结果相当直白 - 所有前沿模型得分均低于 50%。
ITBench-AA 设计了 59 个 Kubernetes 事故响应任务,模型需要读取日志、追踪依赖、定位根因实体。Claude Opus 4.7 以 47% 居首,GPT-5.5 (xhigh) 46%,Qwen3.7 Max 42%。Claude 仅比 GPT-5.5 高出一个百分点,差距非常微弱。
一个反直觉的发现:长的推理轨迹并不等于更高的准确率。GPT-5.5 平均 31 轮就拿到 46%,而 Gemini 3.1 Pro Preview 平均用 83 轮却只有 30%。那些喜欢「过度调查」的模型往往会挖出上游的故障注入机制或共现症状,当成假阳性提交,反而被扣分。
评分方法也很严格 - 采用 recall-gated precision,只要漏掉任何一个真实根因,该次就得零分。这比传统上只看「是否找到核心问题」的评测要苛刻得多。
开源模型这边,GLM-5.1 (Reasoning) 达到 40%,与 Gemini 3.5 Flash (high) 持平但成本更低 - 每任务 $1.23 vs $1.70。Gemma 4 31B (Reasoning) 以 $0.14/任务拿到 37%,性价比非常突出。Claude Opus 4.7 虽然第一但也是最贵的,每任务 $5.38。
链接:ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks
Codex 驱动的自我进化:税务智能体的实战经验
OpenAI 与 Thrive Holdings 联合开发了 Tax AI,为 Crete 旗下 30 多家会计事务所处理 1040 和 1041 税表。这个系统在三个月内完成了从「四分之一返回准确率 75%」到「86% 达到 75%」的跃升,背后是一套自改进循环。
关键设计理念很有意思:不靠工程师逐一手动修复生产问题,而是让系统自己从实践者的修正中学习。整个循环围绕三个支柱构建 - 贴近实践者(让真正干活的人决定系统学什么)、产品埋点创造证据(记录从源文件到最终提交的完整路径)、Codex 驱动的改进循环(将问题转化为评测目标,自动定位根因并提交修复)。
以出租房产税表为例:系统漏填了「fair rental days」字段,实践者修正了这个值。产品层捕获了差异,将同类失败分组归并,形成一个有针对性的评测集。Codex 拿到这个评测集后,自行检查源代码、提取 schema、映射逻辑,提出修复方案,跑回归评测,最终提交 PR。整个过程中工程师只需要做最后审核。
目前 Tax AI 在处理了 7000 份税表后,为实践者节省了约三分之一的准备时间,提交准确率达 97%,吞吐量提升约 50%。更重要的是 - 系统本身在变好,而不是停在部署时的水平等工程师来修。
链接:Building self-improving tax agents with Codex
Warp 的开源智能体开发:GPT-5.5 是主力模型
Warp 这个以现代终端起家的产品,最近通过 GPT-5.5 实现了大规模的智能体驱动开发。他们提出的「Open Agentic Development」模式 - 人定目标、监督结果,智能体负责规划、写代码、测试、开 PR - 正在 Warp 内部成为主流。
数据很惊人:Warp 的工程团队中,智能体现在参与了约 90% 的 PR 创建。公司的 ARR 同比翻了 35 倍,企业收入自 2025 年 Q4 以来增长超过 500%。
背后是名为 Oz 的云编排平台,负责跨本地和云环境协调智能体。开发者可以从 Web 界面启动智能体,选择预定义技能和环境,远程监控长时运行的工作流。当智能体积累越来越多状态后,Oz 使用上下文压缩、持久记忆、专用子智能体等技术来维持可靠性 - 这些都是大规模智能体部署里真正棘手的问题。
GPT-5.5 在其中扮演了多个角色:复杂推理和编码任务的主力、评估管线中的 LLM-as-a-judge。Warp 表示 GPT-5.5 在每个任务上的 token 消耗比 GPT-5.4 少了 30%。
链接:Warp's big bet on building open source with GPT-5.5
评测博弈的新防线
Alignment Forum 上出现了一个值得关注的提议:用「评测配合性」(Eval Cooperativeness)作为规模化缓解评测博弈的手段。简单说,就是设计评测时不只是让模型「能通过」,而是让模型在尝试博弈时主动暴露其意图。这是一个相对早期但方向正确的思路 - 随着模型越来越强,静态评测集的可靠性只会越来越差。
同一论坛上还有一篇讨论AI 研发全自动化加速效应的文章,作者认为即使不考虑软件奇点,仅靠研发流程自动化就能带来可观的速度提升。
链接:Eval Cooperativeness May Be a Scalable Mitigation for Eval Gaming
一条线串起来
今天这几篇文章有一条清晰的线索:智能体的评测正在从「能不能做」走向「能不能在生产中持续做」。ITBench-AA 展示了已有的前沿模型在真实企业 IT 场景下的天花板;Codex 驱动的 Tax AI 展示了如何用生产反馈闭环让智能体持续改进;Warp 则提供了一个规模化部署的参考架构。三者合在一起,画出了智能体从实验室走向生产环境的完整路径 - 评测发现短板、反馈驱动进化、架构支撑规模。
链接:Full automation of AI R&D probably yields a large speed up
来源:VerySmallWoods Research Feed - 2026-05-27 UTC
相关文章
2026年5月19日
【AI早读 0519】Agent评估到部署,以及长时任务智能体的稳定性
今天聚焦 Agent 从评估到部署 - IBM 跨场景排行榜、OpenAI×Dell 把 Codex 推进企业本地环境、Anthropic 谈长时任务稳定性,以及一份系统的 Agent 评估指南。
2026年5月26日
【AI早读 0526】Addy Osmani 提出「你才是编排税」,Hugging Face 重新区分 Model / Scaffolding / Harness / Agent
Addy Osmani 用 Python GIL 比喻揭穿多 agent 并发的真正瓶颈 - 是开发者本人;Hugging Face 发出官方词汇表,把 Model / Scaffolding / Harness / Agent 这四个被混用的概念锚定下来;Google DeepMind 的 Nicholas Kang 与 Michael Aaron 分享大规模 agent 评估的工程化做法;Bounded Autonomy 把「自由意志 vs 确定性」落到 harness 工程里;Simon Willison 发布 datasette 1.0a30 的可扩展 Jump 菜单 + datasette-agent 联动。
2026年5月25日
【AI早读 0525】DeepMind 把多 agent 编排做成系统工程,Microsoft Webwright 在 Odysseys 跑出 60.1%
Google DeepMind 的 KP Sawhney 和 Ian Ballantyne 公开了大规模 agent 编排的生产实践 - 拆模块、轻量调度器、可观测性是三件事;Callosum 提出异构智能编排把人类 + 传统系统 + AI 放进同一管线;Michael Richman 提醒 FOMAT 是行业新焦虑;Armin Ronacher 一条吐槽戳中 AI 中介改写 issue 这个坏习惯。快讯:Microsoft Webwright、DeepSeek 永久 75% 降价、Hassabis 与 LeCun 公开互怼。
最近一封 · Sample
Greg Isenberg 硅谷观察 - SaaS 没死,但亿万富翁正在批量收购、压缩岗位、用 agent 重写
“SaaS 没死,但亿万富翁正在批量把它们买下来、压缩岗位、按 agent-first 重写、然后提价。MCP 成了新的 SEO;模型忠诚度死了;forward-deployed engineer 是 SF 现在最热的岗位;agent debt 已经是真实的工程问题。这些是 Greg Isenberg 刚结束在旧金山 5 天后,在 X 上写下的 17 条 takeaway,我把它完整翻译过来。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。