9 月 17 日,由 DeepSeek 团队完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文登上《自然》(Nature)封面。这一成果不仅成为全球首个经过同行评审的主流大语言模型,更通过强化学习技术开辟了 AI 推理能力培养的全新路径,引发业界广泛关注。
传统大模型推理能力提升严重依赖人工标注的思维链数据,难以规模化发展。DeepSeek-R1 团队另辟蹊径,采用 GRPO(分组相对策略优化)强化学习框架,仅通过最终答案正确性作为奖励信号,让模型自主演化出推理能力。研究显示,模型在训练中会自发生成包含验证、反思和备选方案的长回答,且答题正确率随推理长度同步提升。
为平衡推理能力与实用性,团队设计四阶段训练流程:先通过少量数据冷启动教会模型 "好好说话",再经两轮强化学习优化推理性能与人类偏好,最后通过大规模微调扩展通用能力。结果显示,DeepSeek-R1 在数学、编程等复杂任务上达到顶尖水准,同时在通用指令遵循基准上性能提升 17%-25%。
该研究严格规避基准测试数据污染,在预训练阶段删除约六百万条潜在干扰文本,确保评测结果真实可靠。安全评估显示,其在多数安全基准上超越 GPT-4o 等前沿模型,通过外部风险控制系统实现双重安全保障。针对此前的蒸馏质疑,团队明确表示训练数据源自 2024 年 7 月前的公开网络内容,核心强化学习组件完全独立训练,未依赖任何先进模型输出。
《自然》审稿人高度评价这一成果,认为其通过透明的同行评审过程为 AI 行业树立典范。Hugging Face 工程师 Lewis Tunstall 指出,其他研究机构已开始借鉴该方法改进模型推理能力,"开启了一场革命"。目前,DeepSeek-R1 已开源蒸馏出 1.5B 参数小型模型,在数学任务上表现超越 GPT-4,Hugging Face 下载量超 1090 万次,为研究社区提供重要资源。
梁文锋团队表示,该研究验证了纯粹强化学习培养复杂推理能力的可行性。正如《自然》杂志所强调,这种通过同行评审的透明研究模式,将有效抑制 AI 行业过度炒作,推动技术健康发展。