【AI早读 0525】DeepMind 把多 agent 编排做成系统工程,Microsoft Webwright 在 Odysseys 跑出 60.1%
摘要
Google DeepMind 的 KP Sawhney 和 Ian Ballantyne 公开了大规模 agent 编排的生产实践 - 拆模块、轻量调度器、可观测性是三件事;Callosum 提出异构智能编排把人类 + 传统系统 + AI 放进同一管线;Michael Richman 提醒 FOMAT 是行业新焦虑;Armin Ronacher 一条吐槽戳中 AI 中介改写 issue 这个坏习惯。快讯:Microsoft Webwright、DeepSeek 永久 75% 降价、Hassabis 与 LeCun 公开互怼。

DeepMind 的智能体规模化实践
Google DeepMind 的 KP Sawhney 与 Ian Ballantyne 在一期深度对谈中分享了他们运行大规模智能体系统的实战经验。这不是又一篇纸上谈兵的架构讨论 - 两位工程师直接来自 DeepMind 的生产环境,讲的是他们在真实系统中遇到的取舍、瓶颈和应对方案。
对话的核心命题是:当智能体从单个实验跑通走向大规模部署时,什么会最先断裂?他们的答案是:编排层。单个智能体可以靠 prompt 工程勉强工作,但一旦涉及数十个智能体协同、共享上下文、竞争资源,编排就变成了系统工程问题。DeepMind 的做法是将智能体拆解为可组合的模块 - 每个模块负责一个原子能力(信息检索、代码执行、结果验证),通过一个轻量级调度器协调它们的工作流,而不是用一个巨型 agent 包揽所有事。
异构智能的下一个范式
Adrian Bertagnoli 在另一场分享中提出了一个更大胆的命题 - 未来的智能不会来自单一模型,而是来自异构智能的协作。他所定义的「异构」不仅指不同模型之间的差异,还包括人类、传统软件系统和 AI 智能体在同一个工作流中的混合编排。
Callosum 的实践路径是将每个参与节点抽象为标准化的输入输出接口,让不同能力(符号推理、神经网络、数据库查询、人工审批)可以像搭积木一样组合。这与 DeepMind 的模块化思路不谋而合 - 只不过 Callosum 把范围从「纯 AI 智能体」扩展到了「人类+传统系统+AI」的混合生态。
FOMAT - 智能体时代的焦虑症
Michael Richman 提出了一个精准的概念:FOMAT(Fear of Missing Agent Time)。当整个行业都在押注智能体,团队之间的焦虑感在蔓延 - 你的竞争对手用上了 agent,你的技术栈还没接入;别人的 agent 已经在跑自动化流程,你还在手动调 prompt。
Richman 的观察是,这种焦虑本身比「错过智能体」更危险。它驱动团队做两件错事:一是过早投入复杂编排,在基础设施不成熟时强行上线;二是在工具链上过度分散 - 这个月 LangChain,下个月 CrewAI,再下个月又换 Semantic Kernel。他的建议很务实:先把手上的手工流程跑稳,再去想自动化。智能体的核心是可靠,不是快。
当 AI 帮你写 Issue
Armin Ronacher(Flask、Jinja2 的作者,也是新项目 Pi 的开发者)发了一条令人深思的吐槽:现在最让人沮丧的开源维护模式,是用户提交的 issue 被 AI 重写过。问题描述本身来自人类的真实观察,但经过某个 clanker「润色」后 - 结论变得自信但错误、根因分析变成猜测、简化复现步骤变成了不完整的假代码、实现的建议引向错误的函数、错误分类列了一长串但哪个都可能不对。
Ronacher 的诉求很简单:Issue 应该被压缩回人类真正观察到的东西 - 我跑了什么命令、我期望发生什么、实际发生了什么、错误日志在哪里。这不是反 AI,而是对「AI 中介」的清醒认知 - 当信息经过一次不可控的语言模型处理,准确率的损失比大多数人意识到的要大得多。
链接:A quote from Armin Ronacher
快讯
- Microsoft 发布 Webwright - 一个终端原生的 web agent 框架,在 Odysseys 基准上达到 60.1%,远超 GPT-5.4 基线的 33.5%。
- Claude Code 发现 AI 缩放算法 - 研究人员让 Claude Code 自主探索缩放定律,找到了人类可能不会设计出的新算法路径。
- DeepSeek 永久降价 75% - 旗舰模型大幅调价,推理成本竞争进入新阶段。
- 约束衰减 - 新论文揭示 LLM 智能体在后端代码生成中的脆弱性,约束条件会随推理步骤增长而逐渐衰减。
- AI 芯片成本结构变化 - 记忆体已占 AI 芯片组件成本的近三分之二,计算单元不再是最贵的部分。
- Hassabis vs LeCun - DeepMind 的 Hassabis 认为人类处在「奇点的山脚」,而 LeCun 表示当前 AI 根本不具备智能。
来源:VerySmallWoods Research Feed - 2026-05-24 UTC
相关文章
2026年5月26日
【AI早读 0526】Addy Osmani 提出「你才是编排税」,Hugging Face 重新区分 Model / Scaffolding / Harness / Agent
Addy Osmani 用 Python GIL 比喻揭穿多 agent 并发的真正瓶颈 - 是开发者本人;Hugging Face 发出官方词汇表,把 Model / Scaffolding / Harness / Agent 这四个被混用的概念锚定下来;Google DeepMind 的 Nicholas Kang 与 Michael Aaron 分享大规模 agent 评估的工程化做法;Bounded Autonomy 把「自由意志 vs 确定性」落到 harness 工程里;Simon Willison 发布 datasette 1.0a30 的可扩展 Jump 菜单 + datasette-agent 联动。
2026年5月23日
【AI早读 0523】Gartner 钦点 Codex 与 GitHub Copilot 为 Leader,Dharma 3B 模型成本五十分之一反超 GPT-4o
Gartner 发布首份《企业级 AI 编程智能体魔力象限》,OpenAI Codex 与 GitHub Copilot 双双入 Leader;Dharma AI 用 3B 参数的 DharmaOCR 以约 1/50 推理成本反超 GPT-4o、Claude 3.5 等前沿 API;Tomasz Tunguz 提出「Plastic UI」概念。
2026年5月22日
【AI早读 0522】OpenAI 攻克 Erdős 猜想,AWS、SageMaker、Microsoft 智能体齐发
OpenAI 推理模型用不到 $1000 的算力推翻一个悬置 80 年的 Erdős 猜想;AWS 同一天密集发布 6+ 篇 Bedrock AgentCore 技术博客,SageMaker 推出 OpenAI 兼容 API - 推理能力进化与智能体基建定型并行。
最近一封 · Sample
【AI早读 0526】Addy Osmani 提出「你才是编排税」,Hugging Face 重新区分 Model / Scaffolding / Harness / Agent
“Addy Osmani 用 Python GIL 比喻揭穿多 agent 并发的真正瓶颈 - 是开发者本人;Hugging Face 发出官方词汇表,把 Model / Scaffolding / Harness / Agent 这四个被混用的概念锚定下来;Google DeepMind 的 Nicholas Kang 与 Michael Aaron 分享大规模 agent 评估的工程化做法;Bounded Autonomy 把「自由意志 vs 确定性」落到 harness 工程里;Simon Willison 发布 datasette 1.0a30 的可扩展 Jump 菜单 + datasette-agent 联动。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。