汽车行业深度报告:当自动驾驶与机器人共振:详解VLA与世界模型
投资要点:
VLA模型具备成为具身智能基础模型潜力。视觉-语言-动作模型(VLA)代表一类旨在处理多模态输入与输出的模型,通用性是VLA模型的核心特点之一,体现在其以多模态大语言模型为底座,具备“理解万物”的能力,VLA模型的理解能力和多任务泛化能力让模型在不同的应用场景中具备出色表现,展现出超越自动驾驶乃至机器人等单独垂域应用的潜力,有望成为广义具身智能基础模型范式。
VLA模型是自动驾驶向知识驱动、体验优先升级的技术基础。我们认为汽车领域智能化的最终形式是实现驾驶领域的通用人工智能,而非简单的汽车电子软件智能化,这使得汽车从第三人称智能化向第一人称智能化、由数据驱动向知识驱动进化成为自动驾驶进化的未来趋势,而VLA模型特别是其中语言类大模型的成功引入则奠定了范式转变的技术基础。底层技术逻辑升维也带动了车端应用焦点由基本功能实现向人车交互性、极端场景通过性等体验提升转变,中期维度看,不同车企自动驾驶的模型性能领先、功能领先将转化为体验领先并重塑汽车行业产品生态,知识驱动范式的智能化模型也将重新定义自动驾驶,行业将真正开启电动智能化下半场角逐。
工程化部署能力是当前车端VLA核心矛盾。现有车端VLA技术路线尚未收敛且工程部署较少,但由于汽车面临的结构场景和任务单一、硬件结构较统一、数据和汽车保有量高、车端算力相对充足等因素,车端VLA范式落地前景已经较为明朗。我们认为:1)在汽车VLA模型的数据闭环构建过程中,获取良好3D中间表征、强化模型长时序记忆能力与端侧计算效率、优化模型架构、构建高保真的云端模拟环境等环节是VLA端侧工程部署的关键。2)在模型训练方法上,行为克隆(初步训练端到端模型)+逆强化学习(从专家数据中初始化奖励函数)+强化学习(通过与环境交互改善模型和奖励函数)方案或将成为未来自驾模型训练主流方案。
具身智能本质是自动驾驶的升维问题,构建数据闭环是关键。具身智能的场景、任
务复杂度更高、本体自由度更高、感知方式更灵活、硬件构型更差异化等因素决定了具身VLA模型的数据闭环构建难度远超自动驾驶;但同时智能汽车实质上是物理智能体的具体形式之一,自动驾驶与具身智能在核心的智能化能力即模型构建方法论以及具体的硬件零部件领域有诸多可迁移之处,因此具身智能本质是自动驾驶的升维问题。我们认为,当前以人形机器人为代表的具身智能关键问题在于还无法进行有效的数据采集进而实现数据闭环,而无法Scaling的具身模型就无从实现智能化。在当前阶段,标准化与模型性能优化是破局的关键点:1)首先需要标准化,尤其是底层硬件、通信协议的标准化,底层零部件和软件基础标准化是机器人统一构型以进行规模化数据收集破局数据-模型能力的鸡生蛋问题以及壮大行业供应链的关键;2)模型优化核心在于闭环模型构建以及模型物理交互能力建设,其中物理交互能力的引入或是未来人形机器人向真正具身智能体转化的关键。
投资建议:建议关注本轮智能化进展较快的整车企业理想汽车、小鹏汽车
风险提示:1)新技术迭代风险、2)市场竞争加剧风险、3)宏观经济环境波动风险
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。