首页投资策略 AI产业跟踪：微软发布PHI-4 14B参数语言模型

AI产业跟踪：微软发布PHI-4 14B参数语言模型

投资策略 7个月前 (12-24) 47

　　摘要:

    　　微软发布14B 参数的语言模型phi-4，在部分性能指标上超过部分大语言模型：phi-4 在GPQA 研究生水平与MATH 数学基准中的表现，分别达到了56.1 和80.4。基于OpenAI 的SIMPLE-EVALS 评分框架对比其他参数模型，phi-4 超过了GPT-4o，同时也超过了开源模型Qwen2.5-14B 和Llama-3.3-70B。美国数学竞赛AMC 10/12 的测试中，phi-4 达到了91.8 分，超过了GeminiPro1.5、GPT-4o、Claude3.5 Sonnet、Qwen2.5 等知名开源、闭源大模型。

    　　phi-4 在整个训练过程中策略性地融入了合成数据（synthetic data），进一步提升性能：通过为以推理为重点的任务引入创新的合成数据生成方法、优化训练课程和数据混合以及新的后训练技术，进一步提高了小型语言模型的性能，特别是在以推理为重点的基准测试上。

    　　phi-4 在安全方面的表现优于Mistral 7B、LIama-3 8B、Gemma 7B 等模型：phi-4 在后训练中进行安全对齐、红队测试以及针对数十种危害类别进行自动化测试和评估，同时phi-4 利用了有益性和无害性偏好数据集[BJN+22，JLD+23]以及多个内部生成的数据集，以解决后训练安全中的危害类别问题。使得phi-4 在Grounding、3PContent Harms（DR1）、Harmful Content Continuation（DR3）、Harmful ContentSummarization（DR3）、Jailbreak（DR1）等几方面的得分表现很好。

    　　phi-4 引入直接偏好优化（DPO）创新技术，使模型与人类偏好对齐，有助于在关键决策上倾向于“更正确”的选择：DPO 数据涵盖多类内容，用于改进模型在数学、编码等多方面表现，在监督微调模型上进行两轮 DPO，还引入关键标记搜索（PTS）为第一轮DPO 生成配对。第二轮为法官引导的DPO，收集约85 万对输出，通过多种方式生成响应并创建DPO 对组合，以GPT-4o 作法官标记正负，同时两阶段包含少量安全及减轻幻觉相关数据，在不同阶段对减少幻觉、性能提升进行优化。

    　　受限于规模限制，phi-4 仍然有不少弱点需改进：一是在事实知识方面会出现幻觉，即便借助搜索引擎增强也无法完全消除；二是不太擅长严格遵循涉及特定格式要求的详细指令，源于训练重点侧重问答和推理任务定制的合成数据集；三是在推理任务中可能犯错；四是因数据含大量思维链示例，对简单问题可能给出冗长答案，影响用户交互；五是在负责任人工智能方面虽有努力，但仍面临偏见再现或放大、不适当内容生成以及安全问题等挑战，虽有所缓解但尚未彻底解决。

    　　风险提示：语言模型的技术进展不及预期；人工智能的知识幻觉无法避免；算法或功能优化不及预期等。

机构：国泰君安证券股份有限公司研究员：鲍雁辛/刘峰日期：2024-12-24

AI产业跟踪：微软发布PHI-4 14B参数语言模型

相关推荐

搜索

概念板块

文章目录

热门文章

侧栏广告