AI产业深度:MOE大模型进化树
股票资讯
阅读:3
2025-07-29 12:46:08
评论:0
本图旨在系统 性地梳理现代混合专家(Mixture of Experts, MoE)架构从理论提出至2025 年的技术演进脉络。核心分类依据是门控函数(GatingFunction)。
稠密路由(Dense):激活全量专家进行计算,常见于早期研究或特定微调场景。
软性路由 (Soft):采用完全可微分的合并策略,通过加权融合令牌或专家,来规避离散路由选择的难题。1)专家合并路径(Expert Merging):将所有专家的参数加权融合成一个临时的单一专家来处理令牌。2)令牌合并 路径(Token Merging):将输入的多个令牌加权融合成聚合体,再送入不同专家处理。
稀疏路由(Sparse):仅激活部分专家,是当前最高效、最主流的技术范式。1)令牌选择路径(Token-Choice):通过一个可训练的门控网络,为每个令牌动态选择一部分(top-k)专家。这是最主流的稀疏路由方式。2)非可训练令牌选择路径(Non-trainable Token Choice):采用固定的、无需训练的规则(如哈希函数)来分配令牌,不含可学习的路由参数。3)专家选择路径(Expert-Choice):反向路由模式,由每个专家从一批输入中主动选择自己要处理的令牌,天然地解决了负载均衡问题。
风险提示:1)大语言模型的技术进展不及预期。2)人工智能行业竞争格局变化带来的不确定性。3)算法或功能优化不及预期。 机构:国泰海通证券股份有限公司 研究员:鲍雁辛/李嘉琪/刘峰 日期:2025-07-29
稠密路由(Dense):激活全量专家进行计算,常见于早期研究或特定微调场景。
软性路由 (Soft):采用完全可微分的合并策略,通过加权融合令牌或专家,来规避离散路由选择的难题。1)专家合并路径(Expert Merging):将所有专家的参数加权融合成一个临时的单一专家来处理令牌。2)令牌合并 路径(Token Merging):将输入的多个令牌加权融合成聚合体,再送入不同专家处理。
稀疏路由(Sparse):仅激活部分专家,是当前最高效、最主流的技术范式。1)令牌选择路径(Token-Choice):通过一个可训练的门控网络,为每个令牌动态选择一部分(top-k)专家。这是最主流的稀疏路由方式。2)非可训练令牌选择路径(Non-trainable Token Choice):采用固定的、无需训练的规则(如哈希函数)来分配令牌,不含可学习的路由参数。3)专家选择路径(Expert-Choice):反向路由模式,由每个专家从一批输入中主动选择自己要处理的令牌,天然地解决了负载均衡问题。
风险提示:1)大语言模型的技术进展不及预期。2)人工智能行业竞争格局变化带来的不确定性。3)算法或功能优化不及预期。 机构:国泰海通证券股份有限公司 研究员:鲍雁辛/李嘉琪/刘峰 日期:2025-07-29
*免责声明:文章内容仅供参考,不构成投资建议
*风险提示:股市有风险,入市需谨慎
声明
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。