【AI早读 0516】LLM架构新进展与AI学习边界思考

AI 早读 0516 封面

Sebastian Raschka 详解 LLM 架构最新进展

Sebastian Raschka 在休假回来后发了一篇长文，梳理近期开源 LLM 在架构层面的关键变化。核心主线是长上下文效率。

随着 reasoning 模型和 agent 工作流保留了更多 token，KV-cache 大小、内存带宽和 attention 计算开销快速成为主要瓶颈。Raschka 重点分析了几个新架构：

这些改动在架构图上看起来都是小调整，但实际设计相当精密。值得关注的是 DeepSeek V4 虽然还未正式发布，但架构细节已经在社区扩散。

Dwarkesh Patel 和一位业内人士聊了聊训练跑飞的原因，整理了一份笔记。核心概念是两个罪魁祸首：打破因果性和引入偏置。

他谈到的两个有趣的技术细节：

Expert Choice routing（只在训练中使用）- 这种方法可以保证每个 expert 分配到大致相同数量的 token，但它打破了因果性：token n 被分配到哪个 expert 可能取决于 token n+k 的 router 结果。有传言说这解释了为什么 Llama 4 表现不及预期
Token dropping - experts 忽略批次中匹配较弱的 token 以节省 padding。这同样打破因果性，据称 Gemini 2 Pro 遇到过这个问题

他还做了一个 pretraining flashcards 页面帮助记忆这些概念。

一篇值得反思的短文。Addy Osmani 观察到一种普遍的默认模式：粘贴错误信息 - 模型给修复 - 症状消失 - 你交付了。

链接：Don't Outsource the Learning在这个过程中，问题解决的 messy struggle 完全不存在了。

他之前写过 cognitive surrender（认知投降）的概念 - AI review 的结果静默替换了你自己的判断。这篇文章是同一个循环的单人版本。数千次这样的小交互累积下来，没有 AI 辅助时你实际能造的东西每星期都弱一点。

不是反 AI 工具 - 他每天也用。但默认的使用方式优化的是交付速度，而不是理解深度。

另一个来自 Dwarkesh 的思考。有些人认为 AI 会特别擅长科学突破，理由是科学是可验证的，而 AI 在拥有紧密验证循环的领域（编程、数学）里通过 RL 做到了顶尖水平。

但他指出人类科学史说明验证循环的时间尺度可以是数十年甚至数百年，而且实验极少能彻底排除替代解释。公元前 2 世纪的古希腊人就因为无法测量恒星视差而否定了 Aristarchus 的日心说 - 第一次成功测量恒星视差是 1838 年。

来源：VerySmallWoods Research Feed - 2026-05-16 UTC