【AI早读 0621】透明度与人才流动:Google 给扩散模型做解剖,AlphaFold 之父投奔 Anthropic
摘要
Google DeepMind 对 DiffusionGemma 展开透明度审计,发现扩散语言模型的中间变量仍可解释,但非时序推理让算法透明度更具挑战;AlphaFold 创造者 John Jumper 离开 DeepMind 加入 Anthropic;Codex 则新增从一次操作演示中学习并重复执行工作流的能力。

今天的 AI 早读有几条值得停下来看的内容。我梳理了五件事:Google DeepMind 给 DiffusionGemma 做了一次透明度审计,结果比预想的好;Nobel 奖得主 John Jumper 离开 DeepMind 加入 Anthropic,这个时间点很有意思;OpenAI 的 Codex 现在能看一遍操作就无限重复执行了;Meta 内部员工士气跌到 2020 年以来最低;还有几个值得关注的开源模型进展。
GDM 对 DiffusionGemma 的透明度审计
Google DeepMind 的 interpretability 团队和 text diffusion 团队联合发布了一篇论文,核心问题是:DiffusionGemma 作为一个在连续潜空间里做大量计算的模型,它的推理过程比自回归模型更难理解吗?
答案是:变量层面的透明度差不多,但算法层面的透明度确实更难。
变量透明度指的是我们能否理解模型在某个中间步骤的计算状态。论文发现,DiffusionGemma 的名义 opaque serial depth 是 Gemma 的 28.6 倍 - 但这是因为中间 self-conditioning 向量看起来不可解释。实际上,如果把那些中间向量替换为 top-k 或 top-p token,模型的性能几乎没有下降。这意味着这些中间状态本身是可解释的,于是真正的 opaque serial depth 只比 Gemma 高 1.1 倍。
算法透明度才是真正的挑战。自回归模型是一个 token 接一个 token 生成的,每个新 token 的决策依据是之前所有的 token,因果关系是清晰的。而扩散模型在同一张 canvas 上同时生成所有 token,它可以在生成过程中进行非时序推理 - 比如先写一个答案,然后在后续的去噪步骤中回头修改前面的内容。论文发现了一个很有意思的现象叫 retroactive self-correction:让 DiffusionGemma 数 400 到 800 之间的完全平方数,它会先猜一个错误答案,列出平方数列表,然后回头把前面的错误改正。这在自回归模型里不会发生。
另一个现象是 token smearing:模型确定某个 token 会出现在某处,但不清楚具体位置,于是把概率分布 “涂抹” 在相邻位置上。
链接:How Transparent Is DiffusionGemma (and why it matters)
论文还提出了 24 个开放问题,期待社区继续研究。对我来说,这篇工作的价值在于它为未来的潜空间推理模型(比如 o‑series 的 latent CoT)建立了一套透明度评估框架。
Nobel 奖得主 John Jumper 从 DeepMind 跳槽到 Anthropic
这是今天最大的新闻。AlphaFold 的创造者、2024 年 Nobel 化学奖得主 John Jumper 将离开 Google DeepMind,加入 Anthropic。TechCrunch 和 Reuters 都有报道,量子位也做了中文报道。
链接:Nobel laureate John Jumper is leaving DeepMind for rival Anthropic
这件事有几个观察角度。一是人才流动还在加速 - DeepMind 最近连续走了多位核心人物。二是 Anthropic 正在持续积累顶级研究人才,从基础模型对齐到生物医药领域的 AI 应用,Jumper 的加入意味着 Anthropic 可能会在科学计算方向上有更大投入。三是这个时间点:DiffusionGemma 论文刚刚发布,Google 在尝试新的模型架构,而 Jumper 在这个节点选择离开,信号意义很强。
OpenAI Codex:看一遍就学会重复执行
OpenAI 的 Codex 产品有了一个新能力:它现在可以观察用户完成一次操作,然后永久记忆并自动重复执行。The Decoder 的报道说这是朝着 AI 个人助理方向又迈进了一步。
链接:OpenAI's Codex can now watch you work once and repeat the task forever
这个功能本质上是一个 demonstration‑based automation:用户演示一次操作流程,Codex 记录步骤、生成可复用的自动化脚本,之后可以在没有用户干预的情况下反复执行。这和传统的 RPA 工具有本质区别 - 传统 RPA 需要人工配置规则和边界条件,而 Codex 是从一次演示中直接推断出完整的工作流。
OpenAI 上周公布了 Q1 财报:营收 57 亿美元,但烧掉了 37 亿美元。规模化收益还在路上。
Meta 员工士气跌至 2020 年以来最低
量子位报道了 Meta 内部的一条动态:公司内部直播中出现员工公开批评管理层,CTO 承认 AI 重组搞得一塌糊涂。
链接:Meta员工士气跌至20年谷底!内部直播当众开骂,CTO承认AI重组糟糕透顶
Meta 在 AI 基础设施上的投入规模巨大,但内部重组的混乱程度从这条新闻里可见一斑。在大模型军备竞赛中,Meta 的开源策略(Llama 系列)获得了社区认可,但组织的消化能力是否跟得上投入速度,是一个值得关注的问题。
开源模型动态:GLM-5.2、VibeThinker-3B、SpatialClaw
几条值得关注的开源进展:
GLM-5.2 据称用不到一半的 token 消耗达到了最高水平的 98% 智能表现。有开发者对比测试后发现,GPT-5.5 的幻觉率是 MIT 协议的开源模型 GLM-5.2 的 3 倍。如果数据可靠,这对开源生态是个很强的信号。
链接:GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2
NVIDIA 推出了 SpatialClaw,一个将代码作为操作接口的空间推理 agent,无需额外训练即可使用。VibeThinker-3B 则是一个基于 Qwen2.5-Coder-3B 的推理模型,展示了小模型在特定推理任务上的潜力。
来源:VerySmallWoods Research Feed - 2026-06-20 UTC
相关文章
2026年6月19日
【AI早读0619】GLM-5.2登顶开源,智能体安全框架密集发布
GLM-5.2 以 753B MoE、百万 token 上下文和 IndexShare 稀疏注意力机制登顶开放权重模型;Google DeepMind 发布 AI Control 路线图,Amazon Bedrock AgentCore 正式 GA,智能体安全与运行基础设施同步加速。
2026年6月14日
【AI早读 0614】美国政府紧急封禁 Anthropic 最强模型
美国政府援引国家安全权力,要求 Anthropic 暂停外国国民访问 Fable 5 与 Mythos 5;与此同时,Microsoft SkillOpt 展示如何像训练模型权重一样迭代优化 Markdown skill,GLM-5.2 等新进展也在继续推动模型能力边界。
2026年6月12日
【AI早读0612】OpenAI收购Ona为Codex构建持久化Agent执行环境
今天的主线是 AI Agent 正在走向“生产级”:OpenAI 收购 Ona,给 Codex 补上持久化云端执行 —— 电脑离线后 Agent 仍能在企业自有云里接着跑。Google Cloud 用 TEE 推出 Confidential AI 保护推理数据;Anthropic 发布企业订阅 Claude Corps 并联合 DXC 进入受监管行业;AWS 开源 Agent-EvalKit 系统化评估 Agent 全执行链路;再加 DeepMind“模型察觉被评估反而表现更差”的研究与多 Agent 安全投资。
最近一封 · Sample
【AI早读 0620】AI Agent 重塑软件生命周期
“Google 的新软件生命周期白皮书把 Agent 定义为“模型加 harness”,强调 Context Engineering、验证和渐进式披露;多篇实践进一步展示 Agent 如何从写代码延伸到部署、数据分析、信息检索和云平台运维。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。