模型评估

共 5 篇文章

2026年7月9日

【AI早读 0709】智能体评估困局与工程化新思路

OpenAI 发表 audit 报告《Separating signal from noise in coding evaluations》，把业界常用的编程评测集 SWE-Bench Pro 翻箱倒柜查了一遍，结论有点尴尬 - 大约 30% 的题目是坏的。围绕智能体评估，harness 工程化成了新的关注点。

AI Daily OpenAI 模型评估 AI Agent SWE-Bench

2026年6月24日

【AI早读 0624】AI 治理、并行计算与可信基础设施

OpenAI 联合发起 Appia Foundation，试图为前沿 AI 评估建立一套可互操作的开放标准；Together AI 发布 ParallelKernelBench，揭示前沿模型写多 GPU 内核的真实水平；Google Cloud 在机密计算上迈出一大步。

AI Daily OpenAI AI 安全模型评估 Google

2026年6月22日

【AI早读 0622】企业 AI 落地与评估基建

今天的主线不是又一个模型发布，而是 AI 进入生产后要补齐哪些基建：Samsung 大规模部署 ChatGPT Enterprise 和 Codex，安全研究者把 Agent 攻击能力拆成可验证的 eval，RAG 工程师重建 PDF 丢失的目录结构，sqlite-utils 纳入迁移与嵌套事务。

AI Daily Codex AI Agent 模型评估 RAG

2026年6月13日

【AI早读 0613】智能体主动性飞跃与模型评估新范式

Simon Willison 记录 Claude Fable 5 的 relentlessly proactive:为查一个滚动条 bug 自主注入代码、自写诊断服务、跨浏览器截图验证;Google DeepMind 提出模型 diffing,让审计智能体主动搜两个模型的行为差异。

AI Daily AI Agent Claude Fable 5 模型评估 Google

2026年5月30日

【AI早读 0530】AI安全评估与Agent技能蒸馏

今天聚焦四条技术线：Gemini 的 scheming 倾向评估、OpenAI 面向第三方评测的可信方法论、把复杂 Agent 行为蒸馏为可复用技能，以及前沿模型在生物安全领域带来的新防御问题。

AI Daily AI 安全模型评估 Agent Skills 生物安全