商汤科技王晓刚:端到端大模型正成为智驾路线的新趋势和新希望|专访

发布日期:2024-03-19· 中国汽车报网 张雅慧 编辑:薛亚培
张雅慧 编辑:薛亚培

端到端大模型的发展给予车企和智驾企业无限思路,也让高阶智驾开发、多功能融合、车载体验提升都得到了巨大进展。

3月17日,中国电动汽车百人会论坛上,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚接受多家媒体采访,分享了在新技术引领下,商汤科技智驾方案目前的进展与未来的规划。

01 大模型智驾走向必然

在端到端大模型方面,商汤科技可以说是开展最早的企业之一。王晓刚介绍,2022年底,商汤发布了端到端自动驾驶大模型UniAD,这也是业内第一家,该模型论文随后在2023年国际计算机视觉与模式识别和计算机视觉大会(CVPR)被评选为最佳优秀论文。2023年9月,特斯拉宣布未来自动驾驶量产路线也是端到端的方式,这同商汤提出来的技术路线相吻合,也意味着端到端大模型正成为智驾路线的新趋势和新希望。

“自动驾驶经过几年发展,发展思路和路线也逐渐清晰,面向端到端这种以大模型为基础的自动驾驶解决方案,仍然以视觉方案为主,靠数据驱动。之前大家觉得商汤的感知比较强,本质原因就在于商汤拥有AI能力储备。当前自动驾驶系统里有许多模块,其中只有感知模块是基于人工智能和神经网络,而其他模块基本是靠着手动编写规则来实现的。”王晓刚说。

随着自动驾驶从高速走向城区,复杂程度大幅提升,每天近千个案例体量使得代码量翻倍增长,继续通过人工编写规则的方式成本非常高,效率却比较较低,因此走向端到端基于大模型的自动驾驶几乎成为一种必然的选择。

在此基础上,商汤进一步提出来多模态大模型自动驾驶,这种方案的输入,除了各种感知传感器,系统的信息以外,可以通过自然语言作为输入,实现人机交互、车车交互。比如,在自动驾驶过程中感知到旁边行驶车辆距离较近,有压迫感时,可以通过语言模型进行交互,离它远一点,或者提前超车。

据王晓刚介绍,在不久后的北京车展,商汤将带来基于UniAD端到端大模型的自动驾驶体验,让更多合作伙伴和客户亲自体验大模型智驾落地。

02 大算力之战

此外,端到端大模型的优势在于,不仅可以输出感知,还可以输出规控,对自动驾驶的决策提供解释性。但是基于大模型的算法,一定要依托强大基础设及充足的算力,王晓刚介绍道,“商汤大算力装置目前有4万块GPU,8200P算力,今年我们还会把算力整个翻一番。特斯拉提出今年要有10万块GPU,只有这样的体量才能支撑智能化的演进。相比来说,我们国内很多车厂,包括供应商,跟特斯拉提出的目标还差一到两个数量级。但是商汤在这方面有着独有的优势,依托这方面的技术底蕴,我们能够跟客户展开深入的合作,在大模型的时代充分发挥商汤优势,推动自动驾驶往前进一步。”

诚如王晓刚所言,商汤在构建充足算力方面有着先见之明。2018年商汤在上海临港新片区建立了AIDC算力中心,基于这样的基础设施,商汤通过多年的积累,还形成了SenseCore商汤大装置,2022年初正式对外开始进行运营。一方面,它满足了商汤内部所有大模型的开发,如自然语言的模型、文生图的模型、多模态的模型、文生视频模型、AI智能体的模型等,包括端到端自动驾驶大模型都是基于此算力中心实现的的。另一方面,这一装置数据中心现在也开放给商汤的客户、合作伙伴,并且处于供不应求的状态,一些大模型公司会在这个基础上去训练他们的大模型,商汤也和一些车厂达成合作,帮助他们去训练模型,实现数据的闭环。

“今天我们可以看到,整个AI界的发展对算力还是处于快速增长的状态,因此商汤仍在完善算力模型的建设。我们积极适配各种国产芯片,包括像华为,以及其他国产芯片在内,不断对大模型进行训练,还有千卡并行的训练,只有这样,这样才能够保证未来算力快速增长。”王晓刚说。

03 寻找新机会

从2022年开始大模型的出现和发展给人工智能带来了颠覆式的变化,也给汽车智能化带来非常大的机遇,这些竞争可能是刚刚开始。在此之前,汽车智能化可能拥有多重发展思路,技术路线还有比较多的不确定性,但随着技术突破,大家能够看到更为清晰的发展路径,并全力前进,争相发挥出自身的特长。

“在以通用人工智能、大模型为基础的全新竞争格局下,整个汽车产业对智能化产生了更高的要求。我们可以看到,无论是海外的特斯拉,还是国内行业标杆的车企,包括华为,都在瞄准智能化义无反顾前行,我觉得这实际上是给到了这个行业很大的机遇。”王晓刚有几分欣慰,但同时他认为当下也存在很多挑战。

他表示:“车企也好,供应商也好,在智能化方面的储备,软硬件资源,人才的储备方面都面临着较多挑战,之前我们提到特斯拉有10万GPU,而国内很多车厂与其有两个数量级甚至三个数量级的差距。而这便是商汤与车厂深度合作的机会所在。”

“大模型的出现推动了技术的一体化进展趋势,而这是一个不可逆的趋势。原来在一个技术体系里,一个解决方案可分成很多模块,每个模块可能由不同的供应商来完成。今天大模型的出现,可以将所有东西串联起来,实现端到端的体验,在这个新的形势下能够给我们带来新的机会。”王晓刚说。

编辑:薛亚培

热门推荐