【AI早读 0523】Gartner 钦点 Codex 与 GitHub Copilot 为 Leader,Dharma 3B 模型成本五十分之一反超 GPT-4o
摘要
Gartner 发布首份《企业级 AI 编程智能体魔力象限》,OpenAI Codex 与 GitHub Copilot 双双入 Leader;Dharma AI 用 3B 参数的 DharmaOCR 以约 1/50 推理成本反超 GPT-4o、Claude 3.5 等前沿 API;Tomasz Tunguz 提出「Plastic UI」概念。

今天 Gartner 发布了第一份《企业级 AI 编程智能体魔力象限》- 和每个新分类诞生时一样,这份报告会定义接下来几年企业怎么买、供应商怎么定位、什么算好。OpenAI Codex 和 GitHub Copilot 都被列为 Leader。两个产品在同一张图上有了官方坐标。
链接:OpenAI named a Leader in enterprise coding agents by Gartner
这本身不意外 - Gartner 连续三年把 GitHub Copilot 放在 Leader 象限,今年是第一次把 Codex 也放进来。但注意几个信号:OpenAI 说 Codex 每周有 400 万用户,且被 Cisco 拿来做 AI Defense 安全平台的主体开发,交付周期从几个季度缩短到几周。Cisco 的 SVP DJ Sampath 原话提到的不只是代码生成,而是「agentic system」在企业里当 infrastructure layer 用。
GitHub 那边的数据更夸张 - 14 万组织在用 Copilot,比一年前翻了三倍,年增长率超过 100%。大部分用户已经在用多个 AI 模型,而不是绑死一家。Copilot CLI 的月活接近翻倍。两个信号叠加:编程辅助的漏斗已经从上往下推开了,下一步竞争不在「谁能补全代码」,在「谁能管好整个 SDLC 的 agent 编排」。
链接:GitHub recognized as a Leader in Gartner Magic Quadrant for Enterprise AI Coding Agents
Tomasz Tunguz 写了篇叫《Plastic User Interfaces》的文章。出发点很简单:Salesforce 已经 headless 了 - 销售可以直接在 AI 对话里更新 deal sheet,不用登录 salesforce.com。很多 SaaS 公司通过 MCP 在跟进。
但更有意思的是后半段。Claude Code 的 Thariq Shihipar 说他开始在 Claude Code 里用 HTML 而不是 Markdown 当输出格式 - 因为他要更丰富的可视化、颜色、图表,而且要能共享。AI 可以动态生成 UI,每次按需求做一个:出差路上给音频摘要,审稿给交互式 web app,预算规划给带图表的表格。
Tunguz 的结论:headless 不是砍掉界面,是让界面变得可塑(plastic)。软件系统的价值正在从固定 UI 转移到「动态 UI 管理能力」- 知道什么时候生成、什么时候保留、什么时候丢弃,以及怎么保证生成的界面是正确的。
Dharma AI 发了一篇值得认真读的研究:《Specialization Beats Scale》- 专用性胜过规模。
链接:Specialization Beats Scale: A Strategic Variable Most AI Procurement Decisions Overlook
他们做了一个结构化的 OCR 模型 DharmaOCR,30 亿参数,不是基于 GPT-4/Claude 级别的基座,而是在小模型上做系统的微调。结果:这个 3B 模型在所有商业前沿 API(包括 GPT-4o、Claude 3.5 等)上胜出,而推理成本只有后者的约五十分之一。
这是一个很硬的案例 - 之前大家默认「越大越好」是因为前沿模型在通用 benchmark 上确实领先。但 Dharma 用一个可复现的实验证明了:当训练分布和部署任务足够接近时,参数规模不再是决定性变量。买模型不只是选容量,还要选对齐成本。这个结论对大部分做 AI procurement 的企业来说都挺反直觉的,但它有 paper 有 benchmark,不是空想。
Google DeepMind 宣布 SynthID 正在扩大到更多合作伙伴。这个不可感知的 AI 内容水印方案以前只用在自家的 Gemini 和 Imagen 上,现在开始往外推。水印在 AI 治理里一直是个「大家都在谈但没人真大规模用」的工具 - SynthID 的扩张可能是它从研究项目走向行业标准的开始。
另外几个值得扫一眼的:Cerebras 的 Sarah Chieng 在 AI Engineer 上聊为什么快速模型需要慢速开发者 - 硬件跑得快了,思考的瓶颈从计算挪到了人。Stratechery 这期聚焦数据中心和地方反对的博弈,核心观点是反对数据中心的民意不是 misinformation 问题,是利益补偿问题。
链接:The Data Center Veto — Stratechery
来源:VerySmallWoods Research Feed - 2026-05-23 UTC
相关文章
2026年5月22日
【AI早读 0522】OpenAI 攻克 Erdős 猜想,AWS、SageMaker、Microsoft 智能体齐发
OpenAI 推理模型用不到 $1000 的算力推翻一个悬置 80 年的 Erdős 猜想;AWS 同一天密集发布 6+ 篇 Bedrock AgentCore 技术博客,SageMaker 推出 OpenAI 兼容 API - 推理能力进化与智能体基建定型并行。
2026年5月20日
【AI早读 0520】Karpathy入Anthropic,Google I/O Gemini 3.5登场
两个大事件撞在同一天 - Andrej Karpathy 加入 Anthropic 主攻预训练,Google I/O 2026 发布 Gemini 3.5 Flash;外加 Claude Managed Agents 上线 Cloudflare、AWS 推出 Programmatic Tool Calling。
2026年5月19日
【AI早读 0519】Agent评估到部署,以及长时任务智能体的稳定性
今天聚焦 Agent 从评估到部署 - IBM 跨场景排行榜、OpenAI×Dell 把 Codex 推进企业本地环境、Anthropic 谈长时任务稳定性,以及一份系统的 Agent 评估指南。
最近一封 · Sample
【AI早读 0522】OpenAI 攻克 Erdős 猜想,AWS、SageMaker、Microsoft 智能体齐发
“OpenAI 推理模型用不到 $1000 的算力推翻一个悬置 80 年的 Erdős 猜想;AWS 同一天密集发布 6+ 篇 Bedrock AgentCore 技术博客,SageMaker 推出 OpenAI 兼容 API - 推理能力进化与智能体基建定型并行。”
—— william
来信
里面装的是
- 新文章 — 写完一篇就寄一封,不攒货
- 这周读到的、看到的、好用的工具
- 正在折腾的实验,附带翻车记录
约莫 1–2 周一封 · 随时退订
合作伙伴
CompeteMap — 英国及爱尔兰学生竞赛一站式搜索
数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。