【AI早读 0603】Agent 生态全面爆发
摘要
微软 Build 2026 上 GitHub 推出 agent-native 桌面应用 Copilot app,COO Kyle Daigle 在 Latent Space 披露 AI agent 推动 commit 量年增 1400%、Actions 用量翻 4 倍;H Company 发布 Holo3.1,首次加入 FP8 / Q4 / NVFP4 量化权重,NVFP4 吞吐量是 BF16 的 1.74 倍,AndroidWorld 得分从 67% 跃至 79.3%;AWS 给出 AgentCore Gateway + OAuth 保护 MCP 服务器的完整教程;Together AI 用 MiniMax Sparse Attention 让 MiniMax-M3 在 1M 上下文上 prefill 提速 9 倍、decode 提速 15 倍;a16z 提出视觉 AI 下一站是生成代码,而非像素。

今天 AI 圈的核心叙事只有一个字:Agent。微软 Build 2026 上 GitHub 连发数款产品,从 Copilot 桌面应用到底层基础设施,把 agent-native 开发从概念推到了可用状态。同时 H Company 发布了 Holo3.1,把 computer use agent 的能力搬到了本地消费级硬件上。另一边,a16z 提出了一个有趣的观点 - 视觉 AI 的下一个前沿不再是像素,而是代码。
GitHub 的 Agent 原生时刻
微软 Build 2026 上,GitHub 交出了一份 Agent 时代的关键答卷。新的 Copilot app 发布了桌面版,不仅仅是又一个 AI 编程助手,而是一个 agent-native 的控制中心。一个界面上可以同时看到多个 agent 在跑:一个在生产环境查 bug,另一个在处理 backlog issue,第三个在根据 review feedback 改代码。每个 agent 都有自己的 git worktree 隔离环境,互不干扰。
链接:GitHub Copilot app: The agent-native desktop experience
同期 Latent Space 对 GitHub COO Kyle Daigle 的采访披露了更底层的数字:GitHub 上的 commit 量已经达到每月 14 亿,比去年同期翻倍 - 这背后 AI agent 贡献了 1400% 的增长。CI/CD 系统被推到了极限,GitHub Actions 的分钟数从 2023 年的每周 5 亿爬升到了现在的每周 20 亿。
链接:GitHub's plan for Agents — Kyle Daigle, GitHub
Kyle 也谈到了一些有意思的细节。GitHub 内部已经开始用 WorkIQ 和 MCP 协议打通 Slack、Teams、邮件,让 agent 能访问整个公司的上下文。他个人有一个“星期六 15 个 agent”的例行流程 - 让一群 agent 并行梳理过去一周的运营数据,然后自动生成为高管准备的简报。代码生成只占 Copilot 价值的一小部分,真正的增量在于 agent 如何渗透进软件开发的每一个环节。
本地 Agent 的转折点:Holo3.1
如果 GitHub Copilot 是云端的 agent 图景,Holo3.1 则点亮了本地 agent 这条路。H Company 在三月份发布 Holo3 之后,这次发布的 3.1 版本第一次加入了量化权重支持:FP8、Q4 GGUF 和 NVFP4。在 DGX Spark 上,NVFP4 的 token 吞吐量是 BF16 的 1.74 倍,端到端 step time 从 6.8 秒降到了 3.3 秒。
链接:Holo3.1: Fast & Local Computer Use Agents
更重要的是 mobile 场景的突破。Holo3.1 在 AndroidWorld 上的得分从 67% 跃升到了 79.3%,这是 computer use agent 在移动端首次达到可用级别的精度。再加上 0.8B 的超轻量版本,在手机上跑一个 agent 不再是空想。
基础设施层的基建竞赛
Agent 的火爆正在倒逼基础设施全面升级。AWS 发了一篇详细的教程,展示如何用 Bedrock AgentCore Gateway 配合 OAuth 认证来保护 MCP 服务器 - 这看起来是细枝末节,但考虑到 agent 越来越多地要去调用企业内部的工具和数据,这一层安全机制是生产落地的前提。
链接:Building a secure auth code flow setup using AgentCore Gateway with MCP clients
模型侧,Together AI 发布了 MiniMax M3 的服务优化方案。M3 支持 1M token 上下文和原生多模态,它的 MiniMax Sparse Attention 机制在 prefilling 阶段实现了 9 倍加速,decoding 阶段更是达到了 15 倍。Together 团队在 KV-block-major 稀疏注意力、paged MSA decode 等底层做了大量工程优化,最终在不同并发场景下提升了 81 - 125% 的吞吐量。
链接:Serving MiniMax-M3 for efficient inference
视觉 AI 的下一条路:生成代码,而非像素
a16z 的一篇观点文章提出了一个值得深思的转向 - 对于很多视觉任务,生成像素不如生成代码。SVG 文件、HTML/CSS 布局、React 组件、Blender 脚本......这些可编辑、可复用的结构化产物,比一张静态的图片要灵活得多。设计师可以修改路径、调整渐变、更换字体 - 一切都在程序的层面完成,而不是对着像素反复 inpainting。
链接:The Next Frontier of Visual AI Is Code
这个判断和 Agent 浪潮是呼应的:当模型学会了生成可编辑的逻辑构件,而不是一次性输出,AI 就从“工具”变成了“协作者”。
来源:VerySmallWoods Research Feed - 2026-06-02 UTC
相关文章
2026年6月2日
【AI早读 0602】AWS 与 OpenAI 深度合作
OpenAI 前沿模型 GPT-5.5 / GPT-5.4 / Codex 正式入驻 AWS Bedrock,定价与第一方一致;AgentCore Gateway 把 MCP prompts 和 resources 升级为第一类原生对象,新增 elicitation 与 OAuth 2.0 on-behalf-of token 交换;AWS 同步发了 AgentOps 四支柱方法论;Philipp Schmid 给出 Gemini Managed Agents 实战指南;TDS 长文拆解 RAG 检索的可预测失败模式;Jack Clark 引用 UVA / Anthropic / 加拿大央行的论文,称质量调整后美国 AI 经济 2025 年增速约 2600%。
2026年6月1日
【AI早读 0601】AI 安全与智能体攻防
Vercel 拆解了 4 月 12 日他们文档 AI 端点遭遇的推理窃取攻击 - 流量飙到 10 倍峰值,攻击者用住宅代理 + OpenAI 兼容适配器把企业 API 转卖;PromptArmor 发现 ChatGPT for Google Sheets 插件可通过提示词注入把整个 Drive 工作簿外传;SafeIntelligence 提出 Spec-Driven Testing - 把测试焦点从输出一致性转向行为规格匹配;Together AI 聊了语音 Agent 工程化的延迟/质量/规模三难;G7 首次在声明里就开源 AI 与开放权重 AI 的术语达成共识。
2026年5月31日
【AI早读 0531】Anthropic 把 Claude「关在笼子里」的安全设计
Anthropic 公开了三条产品线的 Agent 隔离方案 - claude.ai 用 gVisor、Claude Code 用 Seatbelt/Bubblewrap、Cowork 用全 VM;Claude Code 早期 93% 的批准率反而成为安全风险,被 auto mode + 架构改造替代;AI Engineer 大会上「砍掉 95% Agent 技能反而更好」成为新共识;SoftBank €750 亿建法国数据中心,OpenRouter 完成 $1.13 亿 B 轮。
最近一封 · Sample
【AI早读 0602】AWS 与 OpenAI 深度合作
“OpenAI 前沿模型 GPT-5.5 / GPT-5.4 / Codex 正式入驻 AWS Bedrock,定价与第一方一致;AgentCore Gateway 把 MCP prompts 和 resources 升级为第一类原生对象,新增 elicitation 与 OAuth 2.0 on-behalf-of token 交换;AWS 同步发了 AgentOps 四支柱方法论;Philipp Schmid 给出 Gemini Managed Agents 实战指南;TDS 长文拆解 RAG 检索的可预测失败模式;Jack Clark 引用 UVA / Anthropic / 加拿大央行的论文,称质量调整后美国 AI 经济 2025 年增速约 2600%。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。