2026年5月28日
【AI早读 0528】智能体评测与进化
ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。
博客
2026年5月29日
5 月 28 日 Anthropic 同日完成三项发布 - Claude Opus 4.8 上线,SWE-bench Pro 提升 4.9pp、Terminal-Bench 2.1 提升 8.5pp,Honesty 成为第一特性,对齐质量逼近 Mythos;650 亿美元 Series H 把估值推到 9650 亿,超过 OpenAI;Mythos 将在数周内向全量客户开放。
2026年5月28日
ITBench-AA 显示所有前沿模型在企业级 IT 智能体任务上均低于 50%;OpenAI 与 Thrive 的 Tax AI 案例展示了 Codex 如何把生产纠错变成自改进循环;Warp 用 GPT-5.5 推动开源智能体开发;Alignment Forum 讨论评测博弈与 AI 研发自动化。
2026年5月27日
SaaS 没死,但亿万富翁正在批量把它们买下来、压缩岗位、按 agent-first 重写、然后提价。MCP 成了新的 SEO;模型忠诚度死了;forward-deployed engineer 是 SF 现在最热的岗位;agent debt 已经是真实的工程问题。这些是 Greg Isenberg 刚结束在旧金山 5 天后,在 X 上写下的 17 条 takeaway,我把它完整翻译过来。
2026年5月26日
Addy Osmani 用 Python GIL 比喻揭穿多 agent 并发的真正瓶颈 - 是开发者本人;Hugging Face 发出官方词汇表,把 Model / Scaffolding / Harness / Agent 这四个被混用的概念锚定下来;Google DeepMind 的 Nicholas Kang 与 Michael Aaron 分享大规模 agent 评估的工程化做法;Bounded Autonomy 把「自由意志 vs 确定性」落到 harness 工程里;Simon Willison 发布 datasette 1.0a30 的可扩展 Jump 菜单 + datasette-agent 联动。
2026年5月26日
腾讯 4 月初放出 TencentDB Agent Memory,7 周攒下 4.1K stars。它的思路有点反潮流 - 不再把对话历史塞进扁平向量库,而是建一座 L0 Conversation → L1 Atom → L2 Scenario → L3 Persona 的语义金字塔;短期任务状态再用 Mermaid 符号图替代工具日志。已经支持 OpenClaw 插件和 Hermes Agent 镜像,在 PersonaMem 上把准确率从 48% 拉到 76%,WideSearch 上 token 消耗砍掉 61%。这篇拆开看它的两根支柱、两条集成路径,和几段值得抄走的工程实现。
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。
视频
B站
更多中文视频内容与课程
产品

课程
B站付费课程,系统学习 LangChain 智能体开发。

产品
餐食安排与购物清单助手:规划餐食、管理菜谱、生成智能购物清单。

书籍
人民邮电出版社出版,系统讲解 MCP 协议与实战开发。

课程
B站付费课程,带你快速上手 n8n 自动化工作流。

课程
B站付费课程,用最简洁的方式理解 MCP 协议。

产品
你的思考速度是打字的 4 倍——AirType 让你用说的代替打的。macOS 菜单栏常驻,任意应用中按住快捷键说话,AI 自动润色成干净文本。
产品
Claude Code 会话历史浏览器,可视化查看和管理 CLI 会话记录。
会员
加入频道会员,获取专属内容和社区福利。
最近一封 · Sample
“5 月 28 日 Anthropic 同日完成三项发布 - Claude Opus 4.8 上线,SWE-bench Pro 提升 4.9pp、Terminal-Bench 2.1 提升 8.5pp,Honesty 成为第一特性,对齐质量逼近 Mythos;650 亿美元 Series H 把估值推到 9650 亿,超过 OpenAI;Mythos 将在数周内向全量客户开放。”
—— william
里面装的是
约莫 1–2 周一封 · 随时退订