VLA:何时大规模落地
近日,有关VLA(视觉-语言-动作模型)的讨论又热闹起来,一边是,7月29日,理想i8发布,VLA同步亮相,i8成为第一款搭载VLA司机大模型的理想车型。另一边是,在日前召开的世界人工智能大会期间,博世智能驾控中国区总裁吴永桥表示,VLA短期难以落地,博世坚定投入一段式端到端。他认为,多模态大模型的特征对齐(视觉、语言、动作)很难实现;多模态的数据获取和训练也十分困难。最重要的是,VLA模型要部署在智驾芯片上,才能实现行车安全以及驾驶高度拟人化,但目前市面上几乎所有的三方智驾芯片都不是专为大模型的计算而设计的。“可能要在3~5年之后,有了真正能跑大模型的芯片,才能支持VLA落地。”他说。
VLA模型正备受推崇,有人称,2025年是VLA元年,但也有人认为短期内真正的VLA技术难以落地。那么,从现在的技术储备来看,VLA让车学会“联想”的“野心”真的能实现吗?VLA技术大规模落地要到什么时候?
VLA:端到端的“智能增强版”
在吴永桥看来,只有将一段式端到端打磨到极致的性能,让用户体验到高度拟人化、丝滑的驾驶感受,带来自信、舒适与安全,才是真正的智能辅助驾驶。因此,博世坚定推进一段式端到端技术。
理想汽车坚持把VLA作为理想i8的主要卖点,称VLA司机大模型是“像家人一样懂你”的辅助驾驶。
不愿透露企业名称的某智驾供应商技术主管张泽(化名)告诉记者,从技术演进看,端到端大致有两类,即模块化端到端、一段式端到端。近几年国内智驾的端到端技术正处于快速演进之中,初期一些车型上的智驾搭载的是模块化端到端,也称为分段式端到端,其保留了部分模块化结构,模块之间仍有人工设计的数据接口等,但仍需要使用神经网络进行串联训练。模块化端到端虽然提升了智能驾驶的决策效率,但存在感知与决策规划模块需要衔接、各模块要单独优化算法,还需要通过大量路测数据逐步优化感知、地图和决策模块等难题,所以,技术上仍然有提升的空间。
“相比较而言,一段式端到端更为先进,效率也更高。”张泽介绍,一段式端到端采用全局优化模型,直接将传感器数据映射到控制指令,减少了模块间信息传递损耗,实现更精准的超长尾场景检测和强交互场景安全处理。一段式端到端仅包含一个深度神经网络,直接处理传感器原始输入信息,并输出方向盘、油门、刹车等执行器的控制信号,没有了感知、决策、控制的模块划分,是真正的端到端。
尽管如此,端到端在VLA面前还是“雪却输梅一段香”。清华大学车辆与运载学院助理研究员颜宏伟认为,端到端模型是将传感器输入数据直接映射为转向、加速等车辆控制指令的单层架构,其核心优势在于简化流程、减少级联误差。例如,特斯拉于2023年推出的FSD V12,就应用了一段式端到端架构,相较此前FSD V11的30万行程序代码,V12仅需约2000行代码,减少了对人工规则编程的依赖。但是,行业有观点认为,端到端模型存在“黑箱”,即其中的神经网络权重调整、特征提取以及决策制定过程均通过数据驱动的自主学习完成,整个信息处理链中不存在显式的逻辑规则或可分解的推理环节。因此,当遇到异常情况或罕见场景时,模型的决策可能会变得不可预测。通俗地说,也就是在一定程度上缺乏复杂场景的推理能力。
“VLA能够更好地解决上述问题。”颜宏伟认为,VLA模型的主要优势在于模型一体化以及更强的泛化性,即应对复杂场景的能力。VLA是多模态大模型驱动的智能体架构,其核心突破在于引入思维链,通过语言模型实现对环境理解与决策推理的可解释性。例如,在潮汐车道场景中,VLA能通过文本指令和视觉信号综合判断车道可用性,并通过转向灯与其他车辆交互。同时,通过多模态深度融合、泛化能力跃升,可达到拟人化决策能力,通过模仿人类驾驶员的“观察-思考-行动”逻辑,实现更准确、自然的驾驶。在环岛通行等复杂场景中,VLA可基于地图信息、交通标志和实时车流生成多步规划,而传统端到端仅能输出单步控制指令。另外,VLA还能通过仿真环境和强化学习生成高价值数据,如通过世界模型仿真系统单日可进行智能驾驶测试30万公里,显著降低了对实车数据的依赖。
清华大学人工智能研究院视觉智能研究中心主任、中国人工智能产业创新联盟专家委主任委员邓志东同样认为,VLA相较于端到端具有诸多优势,可视为端到端的“智能增强版”。
当然,VLA也不是一步到位。作为国内率先交付VLA高级辅助驾驶的车企,理想汽车就透露,其智驾大模型是将端到端+VLM(视觉-语言模型)双系统架构升级为VLA架构,才使得VLA司机大模型具备了空间理解、思维、记忆与沟通以及行为能力。
“在VLA之前,端到端+VLM基本是智驾行业主流技术方案之一。”在张泽看来,端到端+VLM的显著优势之一,就是让自动驾驶系统摆脱了对高精度地图的依赖,在端到端+VLM的情况下,可以让车辆能够像人类驾驶员一样,仅仅依靠摄像头、雷达等传感器数据,对实时环境进行感知和分析,从而做出合理的驾驶决策。但张泽认为,虽然端到端+VLM大幅提升了智驾水平,但仍然存在一些技术的限制。例如,端到端+VLM的联合训练需同步处理TB级视频流与百亿参数模型,对训练算力提出了极高要求,由于车载算力紧张,端到端和VLM的联合训练比较困难。此外,端到端+VLM仍存在对3D空间理解不够、驾驶知识和内存带宽不足、难以处理人类驾驶的多模态性等问题。
“VLA是在端到端+VLM基础之上的技术进化形态,解决了端到端+VLM的一些局限性,但在一定程度上也有赖于端到端+VLM的技术积累。通过不断演进,最终实现了由端到端+VLM的‘外挂’模式走向VLA的‘原生融合’更高级模式。”邓志东说。
数据、算力等支持难题待破
“VLA时代”的一大特征是,可以让车学会“联想”,那么从现在的技术看是否真能实现这样的“野心”?
“VLA的‘联想’本质是多模态关联推理,其实现依赖三大技术突破。”颜宏伟表示,在跨模态特征对齐方面,VLA通过对比学习和注意力机制,将视觉特征(如车辆位置)、语言特征(如“前方路口左转”)、动作特征(如方向盘转角)映射到统一语义空间,车企应用中通过仿真数据与实车测试的闭环优化,将多模态对齐误差控制在可接受范围;在世界模型构建方面,VLA通过仿真系统生成虚拟场景,训练模型对物理规律(如车辆动力学)和社会规则(如让行优先级)进行理解。比如,理想汽车称其世界模型仿真复现率已达99.9%;在动态知识库整合方面,VLA通过RAG(检索增强生成)技术外挂交通法规、实时地图等外部知识,例如在施工路段场景中,VLA可调用路政数据库获取临时限速信息。由此,VLA让车学会了“联想”。
邓志东认为,VLA的“联想”即利用Transformer架构大模型的规模定律,在超过某个阈值后,可能得到举一反三、融会贯通与触类旁通的能力。从实现路径来看,这是个进化的过程,需要不断增大模型与数据的规模。但目前仍然存在两个亟待解决的问题,一是规模要增加到多大,才能呈现出这样的“联想”能力;二是这必然需要巨量的AI算力与数据的支撑,目前大部分企业是否有这样的资源?
邓志东指出,目前比较现实的技术路线是先争取VLA大模型上车,实现端侧智能,然后随着产业的快速迭代,再去考虑智能“联想”能力。
显然,从端到端到“端到端+VLM”再到VLA,其中的难题不少,正如吴永桥所言,多模态对齐工程庞大,成熟度亟待提升,多模态的数据获取和训练也十分困难,对于算力的需求更是水涨船高。
算力需求的水涨船高,对车载芯片提出了更高的要求。张泽认为,车载芯片性能亟待提升。他介绍,现在车企应用的端到端和VLM,或者端到端+VLM双系统方案皆不完美。一方面,目前市面上几乎所有的三方智驾芯片都不是专为AI大模型而设计的,带宽相对较小,端到端模型参数约为7亿~10亿,而VLM模型参数达22亿,在现有芯片算力条件下,最终VLM在车端能实现的频率只有5赫兹左右,导致VLM的决策轨迹只能作为决策建议,无法直接输出车辆控制信号;另一方面,端到端与VLM是两个独立的模型,使用的训练数据以及运行频率存在差异,联合训练还较为困难,难以直接融合。
张泽表示,目前应用的主流英伟达Orin芯片单颗算力254TOPS,算力不足,且不支持直接运行语言模型;而英伟达Thor芯片由于存在设计缺陷和工程问题,实际算力与宣传数据相比大幅缩水,其中Thor S、Thor U版本的算力约为700TOPS,而Thor Z基础版算力约为300TOPS,对于端到端+VLM的算力需求而言,都依然紧张。“VLA加上轨迹规划模块及高速自动驾驶,运行至少需要达到20赫兹,而VLA状态下即使是低速自动驾驶也需要达到10赫兹。”他说。
或许正因如此,目前行业内的芯片算力大战正在逐渐升温。国内某车企智能网联研发主管钱江(化名)表示,除了英伟达,高通推出的8797舱驾一体芯片最高支持350TOPS算力,也已成为车企的选择之一。而车企,尤其是新势力企业自研AI芯片已经逐渐成为潮流,其中,理想汽车自研的马赫(原名“舒马赫”)100大算力AI芯片,尽管尚未透露参数,但今年5月已经流片成功,计划2026年量产。特斯拉下一代全自动驾驶(FSD)芯片AI 5已进入量产阶段,单颗算力或达到2500TOPS,较AI 4提升4~5倍,据称最快在今年年底启用。更快的是小鹏汽车,今年7月上市交付的小鹏G7 Ultra版车型上,已经搭载了其自研的图灵AI芯片,3颗芯片综合算力达到2250TOPS,将缓解大模型上车的“算力焦虑”。
技术仍在演进 规模落地莫操之过急
在大模型上车加速、VLA呼声渐涨的情况下,行业中有人称2025年是VLA技术路线落地的元年,但也有人认为VLA还需要3~5年才能实现。那么,VLA的大规模落地要到什么时候?
“2025年被诸多业内人士视为VLA上车元年,这绝非空穴来风,而是有着坚实的技术和产业布局的支撑。”在张泽看来,在技术层面,头部芯片企业和车企都在发力自研大算力芯片,并构建新一代算力平台,为VLA在车端的运行提供了可能,也逐步在解决VLA因参数量巨大而难以在车端高效运行的难题,使得模型能够在短短100毫秒内快速完成对多模态信息的处理,从而满足自动驾驶实时决策的严苛要求。同时,从车企的战略布局看,头部车企纷纷将VLA作为未来智能驾驶的核心发展方向,并制定了量产时间表,包括搭载VLA的理想i8的推出等,都将为整个行业的发展带来新的刺激和动力。因此,在近年来智驾技术快速发展的背景下,或许用不了3~5年,VLA就会实现大规模落地。
不过,并不是所有人都这么乐观,钱江认为,尽管VLA呈现出巨大潜力,但要实现大规模落地,仍面临诸多技术挑战。其中,在算力方面,当前车端算力难以满足VLA模型全面实时运行的需求。算力不足会导致大模型在推理过程中可能出现时延超过200毫秒的问题,而自动驾驶系统对于紧急制动等操作的响应时间要求是控制在100毫秒以内。在芯片方面,包括英伟达Thor芯片的成熟应用仍需等到2026年之后,而理想汽车、特斯拉等车企的自研AI芯片大规模应用计划大多要到2026年之后。此外,多模态对齐使得VLA需要依赖海量的标注数据来实现,然而在实际应用场景中,雨天反光、夜间弱光等并不常见的极端场景相关数据积累不足,将影响VLA的决策准确率及可靠性。所以,VLA要实现大规模落地,至少需要3~5年时间甚至更久。
“VLA的大规模落地,本质是算法、算力、数据技术革命的交汇。”颜宏伟分析称,短期(2025~2026年)具备VLA功能的车型将在高速公路、封闭园区等特定场景运行,典型应用包括自动泊车、高速领航等。中期(2027~2029年),随着算力达2000TOPS及以上新一代AI芯片量产,VLA将覆盖城市道路全场景,平均无接管里程将显著提升,或突破100公里,接管率或降至0.01次/公里以下。长期(2030年后),将出现如光计算架构等专用AI芯片,并与脑机接口技术融合,或将使VLA实现类人驾驶的直觉决策能力,如准确预判行人突发行为的概率等。“多模态对齐成熟度、训练效率提升、芯片能效比革命等一些关键因素,都可能在未来3~5年迎来新的突破,为VLA大规模落地提供更好支持。”颜宏伟表示。
“我同意2025年是VLA技术路线落地元年的说法,也认可尚需3~5年才能大规模落地的观点,这并不矛盾,而是尊重技术发展规律的结果。”邓志东认为,VLA尽管还处于比较早期的发展阶段,但VLA是解决L3+自动驾驶与通用人形机器人技术发展问题的新范式、新导向,这已在行业中取得较大共识,部分头部汽车企业也在进行积极的探索和实践。有鉴于VLA对发展自动驾驶与通用人形机器人产业的重要性,以及其具备相互借鉴性,因此建议整合优势资源,鼓励产学研联合研发,力争让VLA早日大规模落地,为消费者带来更好更安全的出行体验。