端到端并非智驾万能良药
今年以来,“端到端”的风吹到了汽车行业的每个角落。前有小鹏汽车董事长兼首席执行官何小鹏感叹“国外都在努力把‘端到端’做好”,后有华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东直言“各家都在吹‘端到端’”,且不论技术是否已经成熟,“端到端”已经成为各大车企智驾的共同目标。不过,近日同济大学汽车学院教授朱西产在接受《中国汽车报》记者采访时却表示:“现在谁宣布‘端到端’上车,那这款车就不值得买。”引得数家车企、自动驾驶公司竞折腰的“端到端”,真的那么神通广大吗?
特斯拉掀起“端到端”风潮
追溯这波“端到端”风潮的源头,还要从特斯拉说起。早在2021年,特斯拉就基于自研芯片、BEV+Transformer算法、Dojo算力平台打造FSD(完全自动驾驶)方案;同年7月,特斯拉FSD V9 Beta版本开始小范围测试;2023年,特斯拉FSD Beta V12版本开始采用端到端方案测试;今年3月,特斯拉FSD V12版本正式在北美范围内全量推送。
基于“端到端”的FSD V12版本一经亮相,便收获了众多好评。英伟达首席执行官黄仁勋便表示:“特斯拉在自动驾驶方面遥遥领先。特斯拉FSD V12版本真正具有革命性的一点是,它是一个端到端的生成模型。”今年6月,何小鹏亲自赴美体验特斯拉FSD V12版本后,也感叹FSD在数月内实现极大进步,很多路况处理十分丝滑。
为何端到端技术的引入会给智驾体验带来如此大的提升?对此,朱西产表示,目前主流的智能驾驶系统多采用分模块运行的方案,即把系统划分为感知、决策规划和控制模块。利用传感器对周围环境进行准确感知,系统规划行车轨迹,然后执行机构对车辆进行闭环控制。“在组装过程中,觉得哪个模块有必要有准则,就会加入准则模型。”他说。
“端到端”,顾名思义就是将感知、规划、控制这些原本分开的环节,串成一条“流水线”,从传感器感知信息到操控车辆行驶一气呵成。“‘端到端’扔掉了准则模型,各个AI模块之间用Transformer链接,进行隐性信息传递,构成一个整体网络,可以减少信息传输过程中的丢失,并对网络进行整体优化。”朱西产指出,基于“端到端”的特斯拉FSD V12版本AI泛化能力明显提升,能够处理的事情更多,更像一名老司机。
此外,特斯拉FSD V12版本的迭代速度也是“一日千里”。特斯拉自动驾驶团队负责人Ashok Elluswamy此前便在社交平台上表示,基于“端到端”的FSD V12在数月的训练时间内,便已完全超过数年积累的V11。根据中国电动汽车百人会发布的《特斯拉FSD的发展和影响报告》(以下简称《报告》),特斯拉FSD V12版本使用端到端技术并实现数据闭环,人工代码由30万行缩减至3000行,迭代速度大大提高,其中从V12.3.1到V12.3.5的四个版本迭代仅用时15天。近日,V12.5版本也已登录HW3车型,在近半年时间内便实现从V12.3到V12.5的快速成长。
国内“端到端”成色不足
特斯拉FSD V12版本的突出表现,引得国内车企竞相效仿,“端到端”一时风靡国内智驾领域。
5月,小鹏汽车宣布国内首个端到端大模型量产上车,预计到今年四季度实现“门到门”的智能驾驶;7月,理想汽车提出“端到端+VLM(视觉语言模型)+生成式验证系统”的自动驾驶技术路线新构想,有望在今年年底或明年年初向用户批量交付有监督的L3自动驾驶系统;蔚来自动驾驶副总裁任少卿此前在接受媒体采访时则透露,蔚来已经在布局“端到端”,预计今年将实现上车量产;上汽集团也于近日表示,纯视觉和“端到端”等技术是自动驾驶重要的发展方向,相关方案已进入面向量产的开发阶段。
此外,华为、元戎启行、商汤绝影等智能驾驶解决方案供应商也在加码“端到端”。其中,华为乾崑智驾ADS 3.0系统采用“端到端”架构,实现预决策和规划一张网,感知部分采用GOD大感知网络,决策规划部分采用PDP网络,实现简单“识别障碍物”到深度“理解驾驶场景”的跨越式进步,行驶轨迹更类人,通行效率更高,复杂路口通过率>96%。
不过,对于国内争先恐后宣传“端到端”上车的做法,朱西产并不看好。在他看来,目前国内企业已经做到感知端到端,或者说分段式端到端,但与特斯拉相比仍存在一定差距。
首先,在算力层面,国内车企AI训练算力与特斯拉存在较大差距。2023年一季度,特斯拉云端算力便已达到35EFLOPS。根据规划,到今年年底,特斯拉超算中心总算力将提升至100EFLOPS。聚焦国内企业,小鹏智驾云端最新算力储备为2.51EFLOPS,华为云端算力为5EFLOPS,与特斯拉相差甚远。“即便特斯拉Dojo目前的云计算能力受限,仅能发挥出30%左右的算力,也远高于国内企业。”朱西产称。
其次,在数据量方面,特斯拉凭借规模优势、低成本硬件预埋积累了全球最多的高质量行车数据。《报告》显示,截至2024年4月,特斯拉全球保有量超600万辆,FSD累计行驶里程达20亿公里。然而,截至今年7月底,小鹏XNGP实车测试里程达756万公里;截至8月,华为智驾总里程为4.6亿公里,与特斯拉存在显著差异。“数据采集已经进入依靠用户车辆采集数据的阶段,谁的销量更高,谁的数据量就更大。”朱西产表示,国内鸿蒙智行旗下车型、理想汽车保有量明年有望突破100万辆,将缩小与特斯拉的数据量差距。
此外,《报告》指出,在算法层面,特斯拉技术进展领先国内1.5年,量产进度领先。目前,国内企业端到端技术均处于由分段式向一体式过渡阶段,特斯拉FSD则已实现了规控模块的神经网络化,感知-规控模块之间实现了可导向量的无损传递,神经网络化更加彻底。据业内人士表示,如果国内主流厂商的神经网络与人工定义规则算法比例在6∶4,那么特斯拉的比例可能在9∶1。
不过,清华汽研院智能网联中心技术总监孙辉认为,国内端到端技术与特斯拉并不存在明显代差,采用分段式端到端策略是技术上的常规选择。一方面,分段训练可抑制反向传播时链路过长导致的梯度弥散问题;另一方面,大部分标注数据尚不完备,采用分段训练,并将这部分训练好的模型冻结,再训练下一部分的模型,有助于数据的充分利用,并减少训练抖动。
完全“端到端”仍有待时日
据介绍,目前行业普遍认可的“端到端”主要有两类:一类是感知规划“端到端”,以多传感器数据为输入,行驶轨迹规划为输出,该路线继承自BEV、OCC,有良好的产业量产基础和较低的运行算力需求,是最主要的路线;一类则是基于多模态大模型(VLM,MLM)的“端到端”,利用大语言模型的知识底座,通过微调的方式适应自动驾驶场景理解和决策,这类大模型由于参数量过大的原因,无法用于实时推理,但对corner case的理解能力更强,决策更拟人化,可作为有效补充。
孙辉认为,在发展趋势上,端到端技术路线避免了当前模块化系统中各部分独立优化可能带来的整体性能损失,并具备利用数据闭环进行快速更新的能力,对高级别智能驾驶有着较大的推动作用。但在量产上车方面,“端到端”路线仍然面临可靠性、适应性和实时性等因素的制约。“当网络规模受限时,要如何训练出可靠性高、泛化能力好的模型,仍在攻坚克难阶段;在升级为大模型之前,边缘场景对于端到端算法来说也仍是一大挑战,因为边缘场景在数据中呈现出极度稀疏的状态,很难被有效学习。”孙辉表示。
朱西产同样认为,目前“端到端”路线并不能称得上完美。“我们在技术路线上不能盲目跟风特斯拉。事实上,准则模型挺好的。”朱西产表示,在准则模型被拿掉的同时,智驾系统的安全下限也随之变低,“用AI训练安全下限,很难知道它有没有学会。”对此,余承东也提到,在对特斯拉FSD V12版本进行测试时,出现了无法识别静止不动的货车的情况,安全性难以得到保障。今年4月,一位特斯拉Model S车主便在西雅图发生事故,美国华盛顿州当局称,事发时车辆启动了FSD功能,但车主存在分神看手机的行为。
除了安全下限低,极越汽车首席执行官夏一平表示,真正的“端到端”背后需要巨大的投入。“‘端到端’最终的成本投入,不在于开发模型,而是背后的算力投资。越往‘端到端’走,模型越大,参数越多,需要的数据越多。”他认为,用AI方式解决物理世界统一场景的思路是对的,但现在没有一家企业能做到100%“端到端”。
在英伟达汽车事业部副总裁吴新宙看来,接下来几年,自动驾驶行业将出现一个新趋势,即“端到端”模型和原有的模型相辅相成。其中,端到端模型在一些复杂的路口可以处理得更加拟人化,而原有的模型和方法则可以在安全性上发挥作用。