第三届汽车智能座舱技术峰会演讲实录 | 德赛西威李南山:座舱大模型的实践和思考

发布日期:2024-03-12· 中国汽车报网 记者:赵玲玲 整理 编辑:李沛洋
记者:赵玲玲 整理 编辑:李沛洋

2024年3月8日,在深圳举办的2024汽车供应链新生态大会的第三届汽车智能座舱技术峰会上,德赛西威技术中心大模型技术专家李南山做了题为《座舱大模型的实践和思考》的演讲。以下为演讲实录:

各位专家,各位在场的小伙伴,大家下午好,接下来由我跟大家一起分享一下德赛西威AI大模型上车的实践和思考。

我先自我介绍一下,我是来自德赛西威的李南山,在德赛西威工作也有12年,这12年主要搞的是软件的设计,参加过公司很多平台的开发,目前做AI大模型技术这一块。同时服务的车厂比较多,就不一一赘述了。

说到大模型,大家会想到openAI和ChatGPT,大模型拥有广泛知识能力,同时具有决策和推理能力的大型数据结构,就是模拟人类的认知过程,它就是我们的大脑。大模型的特点,首先是一个生成式的模型,同时需要大量的数据进行预训练的数据结构,同时具有Transformer架构的模型,Transformer是可以模拟人的大脑思考的方式,对问题进行合理推理的能力。

以人工智能发展的历史来看,从起步阶段到稳定发展蓬勃发展的阶段经历了很多年的发展。对大模型预训练技术也是经过了很多代的迭代,到现在比较成熟的是ChatGPT4,这样的情况下诞生出了很多为人类服务的层次,从最底层的算力层到最上层的应用层,这边需要重点提一下的就是服务层。为什么要提服务层?比如有了大脑之后,怎么样为我们服务,完全取决于服务层,意味着我们可以对模型进行定制化的开发,比如说服务于智能座舱和办公领域,所以我们有了大脑的框架之后,就可以为现代智能座舱进行赋能。

接下来看一下大模型智能座舱,首先从市场的角度来看,预测智能座舱在2025年市场的份额可以达到2千多亿元,同时对乘用车的语音交互市场的规模来说,2022年突破22亿元。从消费者的角度来看,消费者为智能座舱的功能模块买单,比如儿童专属的功能模块,多模交互模块、车载语音模块,这些模块是大模型在这些模块里可以发挥很大的能力作用。

智能交互未来会趋向于智能交互和多模交互的方式,所以德赛西威对这些内容做了主动感知,基于计算机的大平台和算力的加持,加上多模态的感知融合,就可以形成中央控制大脑。中央控制大脑由大模型和大算力组成,这些基础的情况下就可以为智能座舱赋能,可以做到自主决策性的交互,比如车内乘客的关怀和智能多媒体的控制,甚至做到智能的管家。

从情感和智能化两条线进行区域的划分,可以划分出安全性、便利性、智能管家,当前阶段的话,在智能座舱里面,语音在便利性这个阶段的。但是未来的趋势,肯定会走向智能管家的方向。

基于大模型座舱的产品理念,基于车载智能语音来看,有三大难点,一是语音的获取;二是语义的理解;三是语音的识别。从这三大方向来看,语音的获取和语音的识别在市场上是有比较成熟的技术了,这边最困难的就是语义的理解,然而大模型刚好就是可以弥补这一个缺陷的,因为大模型具有一定的决策能力和推理能力,所以利用大模型可以做到更加便利性和智能性。

对比普通的车载语音系统与搭载德赛西威大模型车载语音系统,可以看到普通的语音系统里面,它是基于域定义的结构化的模型,这种模型比较简单,同时无法进行上下文的理解,所以说无法进行多轮对话。同时模型的自我更新能力是比较差的,因为它的知识量是有限的,所以产生的对话是比较生硬的。而搭载了德赛西威车载大模型系统,首先这个大模型系统是基于Transformer的架构,域训练的模型,同时基于海量预训练的模型,意味着我们开发这个模型的时候,采用了大量的数据训练它,从而可以实现非常自然的对话,同时也可以实现在后续用户的使用过程中是无监督的,自己学习,不停提升自己能力的。

在车载智能座舱中,大模型的使用来说或者开发来说有比较多的难点,我列出来四个难点,一是平台使用什么样的平台搭载这样的大模型。二是如何在智能座舱里让大模型有更精准答案回答。三是如何让大模型可以做到上下文的理解和多轮对话。四是让大模型更快的响应用户速度,提高用户体验。

德赛西威在这些技术探索和研究的基础上有很多的突破,比如说平台方面的话,采用了B/S架构,这种架构充分利用算力资源打造了一个云和端的架构平台。二是精准知识库方面做到了专业知识库的搭载形式,所以在智能座舱里大模型有很专业的知识,它都可以一一回答出来。三是使用了槽位技术,实现上下文的串通理解,同时可以实现很顺畅的多轮对话。四是快速回答方面做了流式的数据输出,可以达到毫秒级的应答速度,大大提升了用户的体验。

接下来看一下基于大模型的车载语音产品,主要以儿童出行的痛点为例,我们罗列了带着儿童出行三大痛点阐述。对于儿童陪伴有很多基于模型出来的产品,比如说儿童故事机、早教机,有了这些之后,我们的智能座舱为什么还需要开发一个儿童陪伴的解决方案或者产品。首先,我们的思考是这样的,大模型在智能座舱需要解决对儿童的陪伴,一是养成式的玩偶,玩偶可以见证孩子的成长,可以陪着孩子一起成长。同时它有多种模式的选择,这种模式主要体现在不同小孩的年龄段,都可以适应,同时可以进行多模的交互,多模交互主要体现在大模型在智能座舱里可以控制,控制或者使用智能座舱里多种传感器或者是一些外围的技术。

首先看一下场景一,一个安抚模式,这个场景的背景是这样的,一个妈妈独自带着3岁的小孩去外婆家,宝宝在后面熟睡,清醒之后孩子要听故事,大模型可以接入进来,大模型给宝宝讲述儿童故事。宝宝哭闹的时候,大模型可以联动车内的摄像头,感知到宝宝正在哭闹的情绪,大模型识别到这些场景之后,给到妈妈一个信号,是不是要进行安抚模式。开车妈妈启动了安抚模式之后,大模型会自动地利用外婆的声纹给小孩进行安抚,让小孩不再哭闹。

场景二,陪伴模式,7岁的小明的爱好是喜欢唱歌,上车之后,大模型识别到小明比较开心,比如说六一儿童节表演了唱歌的节目,大模型识别到这样的场景之后,会调出歌曲的一些伴奏,可以哼唱,让小明进行一定的哼唱,大模型可以控制车内的灯光。整个过程大模型对数据有一定的记录,同时在这些数据,可以发送到家长的手机上,一起让家长参与共享,同时对小明的成长来说是打卡性的,所以大模型有陪伴和成长的功能。

场景三是教育模式,说到教育,对于大多数家长来说,都是一个比较头痛的事情,所以我们列举了一个爸爸带着小孩一起出差旅行。爸爸在前面开车,小孩对车外的事物有新鲜感,所以会时不时会问前面的山是什么山,前面有什么样的风景,类似这种情况,我们的大模型可以介入进来,比如说大模型可以识别到儿童问了这样的一些问题之后,联动汽车上的外部摄像头拍摄到的画面,同时大模型还有综合上网的能力,查到答案之后给孩子一个解释,当前这座山是什么样的山。类似这样的信息,也可以投屏到车内的前后屏,和父母做一个有效的互动。

看一下德赛西威对大模型的规划和进展,首先看一下视频,这个视频是德赛西威自己研发的德赛数字人,德赛数字人和智能座舱有效的融合在一起了,这个融合带来的好处,首先是取代了传统的语音助手,可以实现对车内信号的控制,比如车内报警都可以进行实时的播报。二是数字人可以帮我们在开车的过程中实现简单的办公模式,比如帮我们回复邮件或者回复信息。

对于大模型在办公领域,德赛西威是这样看待的。首先,在公司的内网和大模型已经打通了,同时在工作中想问一下当前项目的进度,当前的项目成员有哪些,都可以通过大模型给出一个精准的答案,甚至在软件领域开发的程序员来说,他可以借助大模型帮他生成功能性的片段代码,这样的方式可以提高一定的生产率。

接下来看一下德赛西威对AI大模型后续的一些规划,这边我罗列了三点。

首先是有感智知,通过AI技术感知舱内生命的身心状态,意味着大模型可以给座舱内的生命状态进行一定的监督,同时给出更好更健康的信息。二是数字情绪,也就是通过AI技术理性表达有温度的情绪,这一点是在智能座舱里,它并不是一个冰冷的座舱,而是有温度、有情绪的座舱。三是具身相通,主要是通过AI技术与个人身心的深度联合,最后打造人机一体的效果。

我的演讲完毕,谢谢!

中国汽车报记者赵玲玲 整理

热门推荐