AI产业深度:DEEPSEEK-R1的发布证明可通过强化学习激发大语言模型推理能力 堪称LLM算法领域的里程碑

股票资讯 阅读:48 2025-02-09 08:17:56 评论:0

  DeepSeek-R1 -Zero 通过纯强化学习取得了较好的性能,DeepSeek-R1 在其基础上利用冷启动数据和多阶段训练,性能可与OpenAI-o1-1217 相媲美。DeepSeek-R1 在推理任务上表现出色,在AIME 2024 上Pass@1 达到79.8%,略超OpenAI-o1-1217;在MATH-500 上达到97.3%,与OpenAIo1-1217 相当。在知识基准测试和其他任务中也有优秀表现,如在MMLU上得分为90.8%,在AlpacaEval2.0 上长度控制胜率为87.6%。蒸馏后的小模型性能也显著提升,超越了部分基准模型。

      DeepSeek-R1 旨在探索用纯强化学习提升语言模型推理能力,研究LLMs在无监督数据下通过强化学习自我进化的潜力。大语言模型(LLMs)快速发展,后训练成为重要环节。OpenAI 的o1 系列模型通过增加思维链推理长度提升了推理性能,但有效测试时缩放仍是难题。DeepSeek-R1-Zero:

      直接对基础模型应用强化学习,不依赖监督微调。采用分组相对策略优化(GRPO)算法,通过基于规则的奖励模型(准确性奖励和格式奖励)训练。训练中性能稳步提升,在AIME 2024 基准测试中,Pass@1 分数从15.6%提升到71.0%,经多数投票可提升至86.7%,接近OpenAI-o1-0912的性能。训练过程中模型出现“顿悟时刻”,推理能力自主进化,但存在可读性差和语言混杂的问题。DeepSeek-R1:为解决DeepSeek-R1-Zero 的问题并进一步提升性能,采用包含冷启动、推理导向强化学习、拒绝采样和监督微调、全场景强化学习四个阶段的训练流程。冷启动阶段收集长思维链数据微调模型;推理导向强化学习阶段使用与DeepSeek-R1-Zero 相同的强化学习过程,并引入语言一致性奖励;拒绝采样和监督微调阶段收集推理和非推理数据微调模型;全场景强化学习阶段使用多种奖励信号和提示分布,使模型在推理的同时更符合人类偏好。

      用DeepSeek-R1 生成的80 万个样本对Qwen 和Llama 等开源模型进行微调,将推理能力蒸馏到小模型中。实验表明,蒸馏后的小模型在推理任务上表现出色,如DeepSeek-R1-Distill-Qwen-7B 在AIME 2024 上的成绩超过了QwQ-32B-Preview。

      幻方开源模型的权重参数,将极大刺激大模型的算法领域的快速创新和进步。幻方开源了DeepSeek-R1-Zero、DeepSeek-R1,以及基于Qwen 和Llama从DeepSeek-R1 中提炼出的六个密集模型(1.5B、7B、8B、14B、32B、70B 参数)。未来研究方向包括提升模型通用能力、解决语言混杂问题、优化提示工程和加强在软件工程任务中的应用。

      风险提示:语言模型的技术进展不及预期;人工智能的知识幻觉无法避免;算法或功能优化不及预期等。

机构:国泰君安证券股份有限公司 研究员:鲍雁辛/刘峰 日期:2025-02-08

*免责声明:文章内容仅供参考,不构成投资建议

*风险提示:股市有风险,入市需谨慎

声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。