【AI早读 0603】Agent 生态全面爆发
摘要
微软 Build 2026 上 GitHub 推出 agent-native 桌面应用 Copilot app,COO Kyle Daigle 在 Latent Space 披露 AI agent 推动 commit 量年增 1400%、Actions 用量翻 4 倍;H Company 发布 Holo3.1,首次加入 FP8 / Q4 / NVFP4 量化权重,NVFP4 吞吐量是 BF16 的 1.74 倍,AndroidWorld 得分从 67% 跃至 79.3%;AWS 给出 AgentCore Gateway + OAuth 保护 MCP 服务器的完整教程;Together AI 用 MiniMax Sparse Attention 让 MiniMax-M3 在 1M 上下文上 prefill 提速 9 倍、decode 提速 15 倍;a16z 提出视觉 AI 下一站是生成代码,而非像素。

今天 AI 圈的核心叙事只有一个字:Agent。微软 Build 2026 上 GitHub 连发数款产品,从 Copilot 桌面应用到底层基础设施,把 agent-native 开发从概念推到了可用状态。同时 H Company 发布了 Holo3.1,把 computer use agent 的能力搬到了本地消费级硬件上。另一边,a16z 提出了一个有趣的观点 - 视觉 AI 的下一个前沿不再是像素,而是代码。
GitHub 的 Agent 原生时刻
微软 Build 2026 上,GitHub 交出了一份 Agent 时代的关键答卷。新的 Copilot app 发布了桌面版,不仅仅是又一个 AI 编程助手,而是一个 agent-native 的控制中心。一个界面上可以同时看到多个 agent 在跑:一个在生产环境查 bug,另一个在处理 backlog issue,第三个在根据 review feedback 改代码。每个 agent 都有自己的 git worktree 隔离环境,互不干扰。
链接:GitHub Copilot app: The agent-native desktop experience
同期 Latent Space 对 GitHub COO Kyle Daigle 的采访披露了更底层的数字:GitHub 上的 commit 量已经达到每月 14 亿,比去年同期翻倍 - 这背后 AI agent 贡献了 1400% 的增长。CI/CD 系统被推到了极限,GitHub Actions 的分钟数从 2023 年的每周 5 亿爬升到了现在的每周 20 亿。
链接:GitHub's plan for Agents — Kyle Daigle, GitHub
Kyle 也谈到了一些有意思的细节。GitHub 内部已经开始用 WorkIQ 和 MCP 协议打通 Slack、Teams、邮件,让 agent 能访问整个公司的上下文。他个人有一个“星期六 15 个 agent”的例行流程 - 让一群 agent 并行梳理过去一周的运营数据,然后自动生成为高管准备的简报。代码生成只占 Copilot 价值的一小部分,真正的增量在于 agent 如何渗透进软件开发的每一个环节。
本地 Agent 的转折点:Holo3.1
如果 GitHub Copilot 是云端的 agent 图景,Holo3.1 则点亮了本地 agent 这条路。H Company 在三月份发布 Holo3 之后,这次发布的 3.1 版本第一次加入了量化权重支持:FP8、Q4 GGUF 和 NVFP4。在 DGX Spark 上,NVFP4 的 token 吞吐量是 BF16 的 1.74 倍,端到端 step time 从 6.8 秒降到了 3.3 秒。
链接:Holo3.1: Fast & Local Computer Use Agents
更重要的是 mobile 场景的突破。Holo3.1 在 AndroidWorld 上的得分从 67% 跃升到了 79.3%,这是 computer use agent 在移动端首次达到可用级别的精度。再加上 0.8B 的超轻量版本,在手机上跑一个 agent 不再是空想。
基础设施层的基建竞赛
Agent 的火爆正在倒逼基础设施全面升级。AWS 发了一篇详细的教程,展示如何用 Bedrock AgentCore Gateway 配合 OAuth 认证来保护 MCP 服务器 - 这看起来是细枝末节,但考虑到 agent 越来越多地要去调用企业内部的工具和数据,这一层安全机制是生产落地的前提。
链接:Building a secure auth code flow setup using AgentCore Gateway with MCP clients
模型侧,Together AI 发布了 MiniMax M3 的服务优化方案。M3 支持 1M token 上下文和原生多模态,它的 MiniMax Sparse Attention 机制在 prefilling 阶段实现了 9 倍加速,decoding 阶段更是达到了 15 倍。Together 团队在 KV-block-major 稀疏注意力、paged MSA decode 等底层做了大量工程优化,最终在不同并发场景下提升了 81 - 125% 的吞吐量。
链接:Serving MiniMax-M3 for efficient inference
视觉 AI 的下一条路:生成代码,而非像素
a16z 的一篇观点文章提出了一个值得深思的转向 - 对于很多视觉任务,生成像素不如生成代码。SVG 文件、HTML/CSS 布局、React 组件、Blender 脚本......这些可编辑、可复用的结构化产物,比一张静态的图片要灵活得多。设计师可以修改路径、调整渐变、更换字体 - 一切都在程序的层面完成,而不是对着像素反复 inpainting。
链接:The Next Frontier of Visual AI Is Code
这个判断和 Agent 浪潮是呼应的:当模型学会了生成可编辑的逻辑构件,而不是一次性输出,AI 就从“工具”变成了“协作者”。
来源:VerySmallWoods Research Feed - 2026-06-02 UTC
相关文章
2026年6月8日
【AI早读 0608】Agent 生态加速成熟,多智能体与平台战并进
过去 24 小时 AI 圈关键词是 Agent:Towards Data Science 把 Python 多智能体教程推成中级实践;AI Engineer 频道两场分享指向 Agent 从原型走向规模化 - MCP 管道与 LLM 可观测性;OpenAI 据 FT 报道要把 ChatGPT 重构成集成 Codex 的“超级应用”,内部一句“Chat is dead”;Ramp 数据显示 DeepSeek 登顶增长最快的软件供应商,价格驱动的“Token 经济”成形;Notion 因 Anthropic Opus 4.7/4.8 抖动一度禁用全部 Anthropic 模型;The Algorithmic Bridge 深扒 Anthropic 如何用安全叙事影响特朗普政府的 AI 政策。
2026年6月13日
【AI早读 0613】智能体主动性飞跃与模型评估新范式
今天聚焦智能体的两个方向加一个底层动向:Simon Willison 记录 Claude Fable 5 的“relentlessly proactive” —— 为查一个滚动条 bug 自主注入代码、自写诊断 HTTP 服务、跨浏览器截图验证,是有意图的多步自纠探索;Google DeepMind 提出“模型 diffing”新范式,让审计智能体自主构造 prompt 主动搜索两个模型的行为差异;Google Cloud 发布 Open Knowledge Format,用带 YAML frontmatter 的 Markdown 为 AI 的结构化知识建开放标准。能力、评估、基础设施三条线正拼成智能体开发的完整图景。
2026年6月12日
【AI早读0612】OpenAI收购Ona为Codex构建持久化Agent执行环境
今天的主线是 AI Agent 正在走向“生产级”:OpenAI 收购 Ona,给 Codex 补上持久化云端执行 —— 电脑离线后 Agent 仍能在企业自有云里接着跑。Google Cloud 用 TEE 推出 Confidential AI 保护推理数据;Anthropic 发布企业订阅 Claude Corps 并联合 DXC 进入受监管行业;AWS 开源 Agent-EvalKit 系统化评估 Agent 全执行链路;再加 DeepMind“模型察觉被评估反而表现更差”的研究与多 Agent 安全投资。
最近一封 · Sample
【AI早读 0613】智能体主动性飞跃与模型评估新范式
“今天聚焦智能体的两个方向加一个底层动向:Simon Willison 记录 Claude Fable 5 的“relentlessly proactive” —— 为查一个滚动条 bug 自主注入代码、自写诊断 HTTP 服务、跨浏览器截图验证,是有意图的多步自纠探索;Google DeepMind 提出“模型 diffing”新范式,让审计智能体自主构造 prompt 主动搜索两个模型的行为差异;Google Cloud 发布 Open Knowledge Format,用带 YAML frontmatter 的 Markdown 为 AI 的结构化知识建开放标准。能力、评估、基础设施三条线正拼成智能体开发的完整图景。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。