马斯克确认砍掉自研训练芯片而转型训推一体,有何深意?
一切从成本和效率出发,是特斯拉一贯的风格。
近日,有报道称,特斯拉公司正在解散其Dojo超级计算机团队,团队负责人Peter Bannon将离开特斯拉。对此,马斯克承认,Dojo团队确实没了,产品也不做了,以后Dojo直接集成到FSD用的车端芯片中,实现训推一体,并指定三星代工,AI6就是Dojo3。显然,在智能驾驶竞争白热化的今天,这一做法标志着特斯拉退出了自主研发智驾芯片的计划,令人大跌眼镜。而当初,特斯拉是自研智驾芯片的“先驱者”之一。
重构带来新的变化
据分析,这很可能在自动驾驶行业,掀起一股新的潮流。
而马斯克这样做的理由也很简单,现在要走从“双轨并行”到“训推合一”的架构重构,就是为了降本增效。
其实,早在上月的财报电话会上,马斯克就曾暗示特斯拉的战略可能正在转向。他提到,未来的内部芯片开发可能与合作伙伴的技术实现“融合”。
耐人寻味的是,几乎与此同时,三星电子也向监管机构提交文件,宣布与一家全球大型企业签订价值22.7648万亿韩元(约合165亿美元)的芯片代工供应协议。三星称,出于商业保密要求,不便透露客户具体信息及合同详细内容,仅表示这些信息将在2033年底前披露。
但马斯克却罕见地主动爆料称,是特斯拉与三星签下这一大单。他在社交平台上表示,三星在得克萨斯州新建的芯片超级工厂,将专门用于生产特斯拉的下一代AI6芯片。
而更早前的2021年,特斯拉就公布了全新的超级计算机Dojo的宏大计划,这是一个强大的算力中心,有能力处理大量的AI任务,例如视频处理和复杂的模型训练等。Dojo的设计初衷就是为了处理自动驾驶中大量的视频数据,加速特斯拉的Autopilot和完全自动驾驶(FSD)系统的迭代,同时也将为特斯拉的人形机器人Optimus提供算力支持。马斯克曾提及,Dojo将有助于特斯拉实现全自动驾驶目标。
对此,之前外界也认为,Dojo系统可能为特斯拉带来巨大价值。投行摩根士丹利于2023年表示,Dojo或可为特斯拉增加多达5000亿美元的估值,因其可能成为关键的竞争优势。
但在实际落地过程中,Dojo进展屡屡出现Bug。今年4月,有报道称,特斯拉位于得州奥斯汀的Dojo数据中心建设严重滞后,一向讲究效率的马斯克对此“非常愤怒”。同时,特斯拉Dojo还面临关键人才大量流失的困扰。近期Dojo团队中有约20名员工跳槽至新美国新创科技公司Density AI。而有意思的是,Density AI是由前Dojo负责人Ganesh Venkataramanan与前特斯拉员工Bill Chang和Ben Floering共同创立的公司,专注于为汽车应用、机器人、AI代理等领域的数据中心开发芯片、硬件和软件。
新的布局打通壁垒
据报道,此次特斯拉将原分散于训练芯片(Dojo)与车端推理芯片(HW 系列)的研发团队合并,集中资源完成AI5、AI6等芯片的设计。其中,AI5作为过渡型产品,已完成设计并交由台积电生产,算力声称突破2000TOPS,较现在特斯拉使用的HW4芯片性能实现跨代提升。未来的AI6则定位战略级产品,架构上直接集成原Dojo训练模块,成为首款真正意义上的“训推一体”芯片,并将交给三星代工。
从特斯拉的情况看,之前的FSD开发需在英伟达GPU集群完成训练后,再适配车端自研芯片,单次算法迭代需数周验证周期。此次转型后,AI5/AI6芯片可同时支持云端超算集群训练与车端实时推理,通过在单芯片内集成训练架构,即类Dojo与推理引擎,实现“训练-验证-部署”全流程闭环,云端基于AI6集群完成模型训练后,无需额外适配即可直接下发至装车的同构芯片运行,开发周期缩短60%以上,网络布线成本与复杂度降低若干个数量级。
有分析认为,随着特斯拉AI5/AI6陆续上车,特斯拉百万级存量车辆将变身“移动式数据中心”。每辆车的芯片在完成本地推理任务之余,可通过加密网络接入云端超算,形成分布式训练集群。这种“车云协同”模式使特斯拉无需依赖第三方算力平台,即可利用真实路况数据实时优化算法,预计每年可减少数亿美元的外部算力采购支出。
特斯拉此次的选择为何如此果断,有舆论称,核心原因是特斯拉从“技术理想”到“商业现实”的战略取舍。其中,Dojo项目自2019年启动以来,累计投入超50亿美元,虽推出含500亿晶体管、7nm制程的D1芯片,但因架构高度专用化,仅能用于云端训练,与车端HW系列芯片形成“双轨研发”格局。2024年数据显示,两支团队消耗了特斯拉60%的芯片研发预算,却因技术路线差异,导致协同效率低下,训练芯片量产进度较原计划滞后18个月之久。
这一问题,也呈现在特斯拉2024年财报上。其中显示,自动驾驶研发费用同比增长45%,其中算力成本占比达32%。原模式下,训练依赖英伟达H200集群,单卡采购价超4万美元,车端推理依赖定制化HW芯片,软硬件适配成本高企。而AI5/AI6通过“一芯两用”,单芯片可同时满足训练与推理需求。据测算,单辆车算力硬件成本下降40%,云端超算部署成本下降55%,规模化效应下边际成本趋近于传统车规芯片。
行业竞争的新焦点
目前,智驾行业的竞争较多集中于端到端、VLM、VLA等方面,但内核是算力与芯片的竞争。
2024年下半年,英伟达推出Blackwell B200芯片,算力较H200提升3倍。Waymo、Cruise等自动驾驶竞争对手正全力加速落地全无人驾驶。因此,有分析指出,特斯拉若继续推进Dojo独立研发,至少需2年时间才能推出对标产品,期间可能丧失技术领先优势。所以,马斯克选择“借势转型”,将Dojo核心技术高效数据吞吐量架构嵌入车端芯片,以“训推一体”架构实现“硬件即算力平台”,在保持技术独特性的同时,将产品迭代周期压缩至12个月以内,有助于提升特斯拉在智驾领域的竞争力。
有专业人士认为,“训推一体”重新定义了自动驾驶硬件范式,开启了“端云同构”的硬件新时代。从实际看,特斯拉打破传统“训练用GPU、推理用ASIC” 的二分法,证明车规级芯片可兼顾训练与推理需求。这种“训推一体”架构预计将引发行业跟风。同时,“训推一体”架构解决了大规模车队实时数据闭环的核心难题。以特斯拉Robotaxi试点为例,每辆车每天可采集约10GB有效路况数据,通过AI6芯片实时预处理后上传云端,超算集群利用分布式算力同步训练,24小时内即可完成算法更新并推送至全车队。这种“数据采集-训练-部署”的分钟级闭环,将使L4级自动驾驶系统的迭代效率提升5倍,为2028年实现百万辆Robotaxi商业化运营奠定技术基础。
事实上,近两年,已经有多家智能电动汽车企业或造车新势力正在加速自研或定制类似芯片,推动自动驾驶硬件从“功能分化”走向“架构统一”。有研报预计,这一市场2028年规模或将达150亿美元。
摩根士丹利最新报告指出,若“训推一体”架构使特斯拉FSD渗透率从当前的约35%到2027年提升至60%,叠加算力成本下降带来的利润率改善,可额外贡献5000亿美元市值(约合人民币3.6万亿元)。这一战略不仅将有利于巩固特斯拉在自动驾驶领域的技术护城河,更可能将重新定义汽车产业的估值逻辑,即从“硬件制造”转向“算力驱动的移动数据平台”。因此,有分析认为,马斯克此次看似“颠覆自我”的转型,实则是对自动驾驶技术演进规律的深刻洞察。当算力需求与商业效率产生冲突时,打破技术路径依赖,通过架构创新实现“降维打击”,或许才是有利于在智驾竞争中保持领先的“密码”。由此,也将给行业带来一些值得思考的启示。