具身智能产业深度研究(四):大模型与数据为人形机器人打开脑洞-具身智能产业深度研究(四)

股票资讯 阅读:1 2025-09-23 10:16:23 评论:0
  核心观点:大 模型为引擎,数据为燃料,构筑人形机器人最核心环节具身智能本质特点是具备理解物理世界并与之交互的能力。相比于传统机器人控制,具身智能的核心转变是实现了自主决策,让机器人从根据指令执行特定任务的机器进化为持续与世界交互的智能体,因此大模型与数据是人形机器人最核心的环节。

      从理解到执行,AI 算法向具身智能演进

      具身智能本质特点是能够与物理世界交互。具身智能与非具身模型的本质区别,在于是否具备理解物理世界并与之交互的能力。大语言模型虽然能实现复杂信息理解,但局限于感知环节,具身大模型则需要构建完整的"感知、决策、执行"链路,实现对物理世界的精准干预。

      具身智能实现机器人控制从指令执行到自主决策的转变。传统机器人系统控制本质是功能组件的机械协同,而具身智能则构建了一个能在物理环境中自主存续的完整行为个体。具身智能大模型让机器人从执行特定任务的机器,进化为持续与世界交互的智能体。

      大模型:具身智能的引擎

      模型架构方面,主要有端到端和分层端到端两类路线。端到端大模型直接构建“输入(视觉+语言)→输出(动作控制)”映射,不拆分中间环节,典型代表是谷歌DeepMind 的RT 模型。分层端到端将具身智能系统拆分为多个专用模块,平衡了性能与实用性,数据需求合理化,泛化性能增强,成为目前的主流选择,典型代表包括Figure 的Helix 模型和银河通用的三层大模型系统等。

      分层端到端由基础大模型、决策大模型、执行大模型组成。第一层基础大模型为感知与理解中枢,通过整合语言指令与视觉信号实现对复杂场景的语义解析和空间推理;第二层决策大模型为任务拆解与规划中枢,将复杂任务拆解为可执行的子任务序列,并调度下一层进行执行,技术路径从基于LLM 的规则拆解向RL 驱动的自适应规划演进;第三层操作大模型为硬件执行中枢,将上一层生成的抽象指令转化为控制硬件的精确信号,技术路径从MPC+WBC 向RL+仿真演进。

      数据:具身智能的燃料

      真实采集数据:可靠性高,但面临规模化瓶颈。采集方法主要包括远程操作与动作捕捉,保留物理世界真实性与闭环反馈,但成本高、规模化难。

      仿真合成数据:解决数据稀缺的经济高效方案。通过计算机仿真技术在虚拟环境中生成交互数据,可快速批量化生成,但存在虚实差距等问题。

      行业实践:真实与合成数据协同应用。英伟达从少量人类示范数据中生成大规模合成数据,将合成数据与真实数据相结合后性能提升了40%;特斯拉以真实数据为主,主要通过动作捕捉技术采集数据,以仿真合成数据为辅,构建虚拟仿真场景以训练算法应对不同环境的性能;银河通用则采用99%的合成数据和1%的真实数据,高效完成pick&place 等任务。

      风险提示:大模型技术落地不及预期;数据供给与质量不及预期;动态环境适应与复杂任务执行不及预期。 机构:国泰海通证券股份有限公司 研究员:王浩/鲍雁辛/张涵 日期:2025-09-23

*免责声明:文章内容仅供参考,不构成投资建议

*风险提示:股市有风险,入市需谨慎

声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。