大模型时代的新能源汽车自动
驾驶发展趋势
提纲OUTLINES
一、范式变革:基于多模态大模型的自动驾驶技术
二、世界模型驱动的一段式端到端解决方案可望获得突破
三、发展趋势:从感知智能到认知智能
清华大学人工智能研究院视觉智能研究中心
VisualIntelligenceResearchCenter(VIRC),InstituteforArtificialIntelligence,TsinghuaUniversity
提纲OUTLINES
一、范式变革:基于多模态大模型的自动驾驶技术
二、世界模型驱动的一段式端到端解决方案可望获得突破
三、发展趋势:从感知智能到认知智能
清华大学人工智能研究院视觉智能研究中心
VisualIntelligenceResearchCenter(VIRC),InstituteforArtificialIntelligence,TsinghuaUniversity
一、范式变革:基于多模态大模型的自动驾驶技术
?VLM:视觉-语言(文本)模型
1、多模态大模型推动具身智能体发展
?VLA:视觉-语言-动作模型
VLA融合了感知空间与动作空间,给出了两个空间与三大任务:
?两大空间:从感知或观察空间到动作空间,还是从动作空间到感知空间?
?两个空间之间的单段式或单模型一体化相互作用;
?三个下游微调模型,即三大任务:具身理解、具身推理与具身动作生成大模型;
?基于上述三大微调模型,可优化训练更多的下游微调模型
感知空间决策推理或策略动作空间
本质上将VLM面向数字空间的理解与生
成推向了面向物理世界的理解与生成!
2025中国汽车流通行业
新春启航大会暨促消费大会
一、范式变革:基于多模态大模型的自动驾驶技术
?VLM:视觉-语言(文本)模型
1、多模态大模型推动具身智能体发展
?VLA:视觉-语言-动作模型
-性能增强的VLA:可望提升图像、视频、3D点云与语义地图等多模态数据的
语义对齐水平,从而获得更好的交叉理解;
2025中国汽车流通行业
新春启航大会暨促消费大会
一、范式变革:基于多模态大模型的自动驾驶技术
?VLM:视觉-语言(文本)模型
1、多模态大模型推动具身智能体发展
?VLA:视觉-语言-动作模型
-性能增强的VLA:也可望改善开放场景下的实例分割与目标检测准确率,实现
更好的视觉“分词”;
如谷歌Waymo达到99.3%
2025中国汽车流通行业