首页 投资策略 AI产业跟踪:微软发布PHI-4 14B参数语言模型

AI产业跟踪:微软发布PHI-4 14B参数语言模型

投资策略 28

  摘要:

AI产业跟踪:微软发布PHI-4 14B参数语言模型

      微软发布14B 参数的语言模型phi-4,在部分性能指标上超过部分大语言模型:phi-4 在GPQA 研究生水平与MATH 数学基准中的表现,分别达到了56.1 和80.4。基于OpenAI 的SIMPLE-EVALS 评分框架对比其他参数模型,phi-4 超过了GPT-4o,同时也超过了开源模型Qwen2.5-14B 和Llama-3.3-70B。美国数学竞赛AMC 10/12 的测试中,phi-4 达到了91.8 分,超过了GeminiPro1.5、GPT-4o、Claude3.5 Sonnet、Qwen2.5 等知名开源、闭源大模型。

      phi-4 在整个训练过程中策略性地融入了合成数据(synthetic data),进一步提升性能:通过为以推理为重点的任务引入创新的合成数据生成方法、优化训练课程和数据混合以及新的后训练技术,进一步提高了小型语言模型的性能,特别是在以推理为重点的基准测试上。

      phi-4 在安全方面的表现优于Mistral 7B、LIama-3 8B、Gemma 7B 等模型:phi-4 在后训练中进行安全对齐、红队测试以及针对数十种危害类别进行自动化测试和评估,同时phi-4 利用了有益性和无害性偏好数据集[BJN+22,JLD+23]以及多个内部生成的数据集,以解决后训练安全中的危害类别问题。使得phi-4 在Grounding、3PContent Harms(DR1)、Harmful Content Continuation(DR3)、Harmful ContentSummarization(DR3)、Jailbreak(DR1)等几方面的得分表现很好。

      phi-4 引入直接偏好优化(DPO)创新技术,使模型与人类偏好对齐,有助于在关键决策上倾向于“更正确”的选择:DPO 数据涵盖多类内容,用于改进模型在数学、编码等多方面表现,在监督微调模型上进行两轮 DPO,还引入关键标记搜索(PTS)为第一轮DPO 生成配对。第二轮为法官引导的DPO,收集约85 万对输出,通过多种方式生成响应并创建DPO 对组合,以GPT-4o 作法官标记正负,同时两阶段包含少量安全及减轻幻觉相关数据,在不同阶段对减少幻觉、性能提升进行优化。

      受限于规模限制,phi-4 仍然有不少弱点需改进:一是在事实知识方面会出现幻觉,即便借助搜索引擎增强也无法完全消除;二是不太擅长严格遵循涉及特定格式要求的详细指令,源于训练重点侧重问答和推理任务定制的合成数据集;三是在推理任务中可能犯错;四是因数据含大量思维链示例,对简单问题可能给出冗长答案,影响用户交互;五是在负责任人工智能方面虽有努力,但仍面临偏见再现或放大、不适当内容生成以及安全问题等挑战,虽有所缓解但尚未彻底解决。

      风险提示:语言模型的技术进展不及预期;人工智能的知识幻觉无法避免;算法或功能优化不及预期等。

机构:国泰君安证券股份有限公司 研究员:鲍雁辛/刘峰 日期:2024-12-24

*免责声明:文章内容仅供参考,不构成投资建议

*风险提示:股市有风险,入市需谨慎