具身智能前瞻系列深度一:从线虫转向复盘至行动导航,旗帜鲜明看好物理AI
行业观点
从生物智能五阶段映射具身智能,模拟、规划能力是当前缺失环节。具身智能发展至今,从物理形态到大脑机理,机器人无一不在以“仿生”的脉络发展演绎。我们认为,虽然目前人形机器人的产业发展阶段尚处早期,但市场往往会高估原子层面的变化,而低估比特层面的变化——具身智能模型侧的发展日新月异,因而我们试图在本篇报告中详细梳理生物智能五阶段的变化,并逐阶段地映射产业界的产品形态与模型算法。生物体亿万斯年的演化历程,蕴含着解读目前具身智能发展阶段的钥匙,我们认为,当前具身智能真正缺乏的是第三阶段的生物智能——模拟学习的能力,而物理AI正是构建模拟学习的核心。
复盘智能驾驶模型算法演绎历史,世界模型≈空间智能+物理AI。正如“线虫学会转向”是生物智能的起点,“行动导航”也是“具身智能”的起点,因而理解智能驾驶算法模型的演绎,对于理解机器人具身智能模型的发展阶段及卡点,具有奠基性意义。同时由于具身智能产业尚处初期,业内众多明星创业公司的核心创始团队均有过长期智能驾驶行业的从业经验,因而核心人才的迁移也必然伴随核心算法、思想的迁移。通过梳理复盘以特斯拉FSD为代表的智驾算法模型的演绎历史,我们可以得出几个结论:1)BEV架构实现了2D图像到3D空间的扩展,使得模型具备了初级空间智能的能力(这一点在理想、华为等车企身上更多是通过激光雷达实现的);2)传统端到端算法的实质是一个无模型的强化学习,是快思考的系统1;3)现阶段智驾中频繁出现的VLM、VLA实质是一个基于模型的强化学习,是慢思考的系统2;4)是否应用基于模型的强化学习,对于智能驾驶而言也许仅仅是一个“好用”与“可用”之间的区别,而对于一台通用人形机器人而言,则会直接导致“可用”与“不可用”的区别,而建立系统2的关键正在于模拟与规划的能力,也即物理AI的仿真能力。2025年CES上,英伟达发布Cosmos世界模型平台,我们认为,世界模型≈空间智能+物理AI,也就是需要让模型具备理解、生成3D几何关系、距离等空间信息的能力,同时需要让模型在3D空间中符合真实世界物理规律地与其他物体之间发生交互。
空间智能:让模型理解3D空间中不同物体之间的几何比例关系与位置距离信息。由于互联网中并不直接存在海量的3D数据,因而现阶段的LLM与VLM仍然局限于对于文字、图像&视频等信息的生成与理解,而如果希望实现对于3D空间数据的Scaleup,目前而言有真实数据采集与仿真合成数据两条路线。通过真实数据采集获取的3D空间数据虽然质量更高,但数据成本其实是房租+人力,规模效应不强,较难降本且极为耗时。而通过Real2Sim2Real方式获得的仿真合成数据的成本,则是GPU的仿真计算与渲染成本,降本路径服从摩尔定律,且原始数据一般取材于真实物理空间,数据质量并不低,是一条更有性价比且可以极大缩短数据采集时间的路径。
物理AI:解决机器人与物理世界交互的最后一环。对于具身智能机器人而言,最后一个核心环节是嵌入模型的机器人需要与外部世界的物体发生真实的物理交互。这件事对于扫地机、割草机、智能驾驶汽车而言都不必须,原因是广义的行动导航(或者智能驾驶)天然是反物理交互的,智能汽车唯一与外界的高频物理交互是轮胎与地面的摩擦,除此之外可能发生的物理交互都是智驾模型竭力避免出现的(如追尾、撞人、剐蹭等),而机器人无论是家用服务场景还是工厂内的劳动力替代场景,都需要高频与外部环境进行交互,包括抓取水杯、搬运箱子等。而一旦涉及到物理交互,就会存在力反馈信息,需要服从合格的物理定律,否则将会产生严重的人身伤害及财产损失。物理AI正是在这样的背景之下诞生,要去回应当前机器人产业“缺数据”的难题。
投资建议
重视3D数据资产+物理仿真引擎双主线,看好中国物理AI稀缺资产。
风险提示
通用机器人Day1L4路线缺乏商业化基础的风险;仿真合成数据质量不及预期的风险;模型及软件解决方案三方公司长期产业链话语权较低的风险。
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。