返回博客2026年5月23日1 分钟阅读

【AI早读 0523】Gartner 钦点 Codex 与 GitHub Copilot 为 Leader,Dharma 3B 模型成本五十分之一反超 GPT-4o

摘要

Gartner 发布首份《企业级 AI 编程智能体魔力象限》,OpenAI Codex 与 GitHub Copilot 双双入 Leader;Dharma AI 用 3B 参数的 DharmaOCR 以约 1/50 推理成本反超 GPT-4o、Claude 3.5 等前沿 API;Tomasz Tunguz 提出「Plastic UI」概念。

AI 早读 0523 封面

今天 Gartner 发布了第一份《企业级 AI 编程智能体魔力象限》- 和每个新分类诞生时一样,这份报告会定义接下来几年企业怎么买、供应商怎么定位、什么算好。OpenAI Codex 和 GitHub Copilot 都被列为 Leader。两个产品在同一张图上有了官方坐标。

链接:OpenAI named a Leader in enterprise coding agents by Gartner

这本身不意外 - Gartner 连续三年把 GitHub Copilot 放在 Leader 象限,今年是第一次把 Codex 也放进来。但注意几个信号:OpenAI 说 Codex 每周有 400 万用户,且被 Cisco 拿来做 AI Defense 安全平台的主体开发,交付周期从几个季度缩短到几周。Cisco 的 SVP DJ Sampath 原话提到的不只是代码生成,而是「agentic system」在企业里当 infrastructure layer 用。

GitHub 那边的数据更夸张 - 14 万组织在用 Copilot,比一年前翻了三倍,年增长率超过 100%。大部分用户已经在用多个 AI 模型,而不是绑死一家。Copilot CLI 的月活接近翻倍。两个信号叠加:编程辅助的漏斗已经从上往下推开了,下一步竞争不在「谁能补全代码」,在「谁能管好整个 SDLC 的 agent 编排」。

链接:GitHub recognized as a Leader in Gartner Magic Quadrant for Enterprise AI Coding Agents


Tomasz Tunguz 写了篇叫《Plastic User Interfaces》的文章。出发点很简单:Salesforce 已经 headless 了 - 销售可以直接在 AI 对话里更新 deal sheet,不用登录 salesforce.com。很多 SaaS 公司通过 MCP 在跟进。

链接:Plastic User Interfaces

但更有意思的是后半段。Claude Code 的 Thariq Shihipar 说他开始在 Claude Code 里用 HTML 而不是 Markdown 当输出格式 - 因为他要更丰富的可视化、颜色、图表,而且要能共享。AI 可以动态生成 UI,每次按需求做一个:出差路上给音频摘要,审稿给交互式 web app,预算规划给带图表的表格。

Tunguz 的结论:headless 不是砍掉界面,是让界面变得可塑(plastic)。软件系统的价值正在从固定 UI 转移到「动态 UI 管理能力」- 知道什么时候生成、什么时候保留、什么时候丢弃,以及怎么保证生成的界面是正确的。


Dharma AI 发了一篇值得认真读的研究:《Specialization Beats Scale》- 专用性胜过规模。

链接:Specialization Beats Scale: A Strategic Variable Most AI Procurement Decisions Overlook

他们做了一个结构化的 OCR 模型 DharmaOCR,30 亿参数,不是基于 GPT-4/Claude 级别的基座,而是在小模型上做系统的微调。结果:这个 3B 模型在所有商业前沿 API(包括 GPT-4o、Claude 3.5 等)上胜出,而推理成本只有后者的约五十分之一。

这是一个很硬的案例 - 之前大家默认「越大越好」是因为前沿模型在通用 benchmark 上确实领先。但 Dharma 用一个可复现的实验证明了:当训练分布和部署任务足够接近时,参数规模不再是决定性变量。买模型不只是选容量,还要选对齐成本。这个结论对大部分做 AI procurement 的企业来说都挺反直觉的,但它有 paper 有 benchmark,不是空想。


Google DeepMind 宣布 SynthID 正在扩大到更多合作伙伴。这个不可感知的 AI 内容水印方案以前只用在自家的 Gemini 和 Imagen 上,现在开始往外推。水印在 AI 治理里一直是个「大家都在谈但没人真大规模用」的工具 - SynthID 的扩张可能是它从研究项目走向行业标准的开始。

另外几个值得扫一眼的:Cerebras 的 Sarah Chieng 在 AI Engineer 上聊为什么快速模型需要慢速开发者 - 硬件跑得快了,思考的瓶颈从计算挪到了人。Stratechery 这期聚焦数据中心和地方反对的博弈,核心观点是反对数据中心的民意不是 misinformation 问题,是利益补偿问题。

链接:The Data Center Veto — Stratechery


来源:VerySmallWoods Research Feed - 2026-05-23 UTC

相关文章

最近一封 · Sample

【AI早读 0522】OpenAI 攻克 Erdős 猜想,AWS、SageMaker、Microsoft 智能体齐发

OpenAI 推理模型用不到 $1000 的算力推翻一个悬置 80 年的 Erdős 猜想;AWS 同一天密集发布 6+ 篇 Bedrock AgentCore 技术博客,SageMaker 推出 OpenAI 兼容 API - 推理能力进化与智能体基建定型并行。

—— william

Letters

来信

里面装的是

  • 新文章 — 写完一篇就寄一封,不攒货
  • 这周读到的、看到的、好用的工具
  • 正在折腾的实验,附带翻车记录

约莫 1–2 周一封 · 随时退订

合作伙伴

CompeteMap — 英国及爱尔兰学生竞赛一站式搜索

数学、编程、科学、写作等各类竞赛信息汇总,支持按年龄和科目筛选,再也不错过报名截止日。

准备开始了吗?

先简单说明目标,我会给出最合适的沟通方式。