2025年1月26日DeepSeek-R1: 通过纯强化学习打造的推理型大模型探索DeepSeek团队在大语言模型推理能力提升方面的创新方案,包括纯强化学习的R1-Zero和结合冷启动的R1模型。AILLM强化学习DeepSeek