博客

写作与笔记

记录 AI 系统、产品思考与创作者工作流的实践。

AI 早读标签

2026年6月16日

【AI早读 0616】Agent 故障诊断与深度代理架构

今天三篇 AWS importance 5 的博客串成一条线:Strands Evals SDK 用 Detector 自动分析 Agent 的执行轨迹,给出故障分类、因果链和具体修复建议,把“诊断瓶颈”从人工压成自动化;LangChain Deep Agents + Bedrock AgentCore 用“委派 - 隔离 - 汇总”的子 Agent 架构构建研究代理,每个子 Agent 跑在自己的 MicroVM 里;Google DeepMind 的 Gemma 4 系列正式登陆 Amazon Bedrock,主打 intelligence-per-parameter。

2026年6月13日

【AI早读 0613】智能体主动性飞跃与模型评估新范式

今天聚焦智能体的两个方向加一个底层动向:Simon Willison 记录 Claude Fable 5 的“relentlessly proactive” —— 为查一个滚动条 bug 自主注入代码、自写诊断 HTTP 服务、跨浏览器截图验证,是有意图的多步自纠探索;Google DeepMind 提出“模型 diffing”新范式,让审计智能体自主构造 prompt 主动搜索两个模型的行为差异;Google Cloud 发布 Open Knowledge Format,用带 YAML frontmatter 的 Markdown 为 AI 的结构化知识建开放标准。能力、评估、基础设施三条线正拼成智能体开发的完整图景。

上一页1 页 / 共 18下一页

主题簇

从主题进入内容

查看全部标签

最近一封 · Sample

【AI早读 0621】透明度与人才流动:Google 给扩散模型做解剖,AlphaFold 之父投奔 Anthropic

Google DeepMind 对 DiffusionGemma 展开透明度审计,发现扩散语言模型的中间变量仍可解释,但非时序推理让算法透明度更具挑战;AlphaFold 创造者 John Jumper 离开 DeepMind 加入 Anthropic;Codex 则新增从一次操作演示中学习并重复执行工作流的能力。

—— william

Letters

来信

里面装的是

  • 新文章 — 写完一篇就寄一封,不攒货
  • 这周读到的、看到的、好用的工具
  • 正在折腾的实验,附带翻车记录

约莫 1–2 周一封 · 随时退订