图片来源:视觉中国

蓝鲸新闻6月19日讯(记者 李卓玲)近两年来,车企"造芯"消息不断。

今年5月底,比亚迪发布首款4nm制程智驾芯片璇玑A3,并官宣已开启规模化量产,支持L3、L4自动驾驶。按照官方的说法,这款自研4nm智驾芯片,代表了中国智驾芯片的最高水平。更早前,蔚来于2025年推出自研神玑NX9031,将其称为"全球首颗车规级5nm智驾芯片";同年小鹏自研图灵AI芯片也宣告量产上车,小鹏将其称为"全球首颗多端通用芯片"。

6月15日,在Livis Day理想汽车软件与具身智能发布会上,理想透露了自研芯片马赫M100的更多研发细节。该芯片采用5纳米车规级工艺,单芯片算力1280TOPS,双芯算力2560TOPS,于2022年正式立项,并于2026年5月实现量产上车。

理想汽车CEO李想彼时直言,这是"全世界性能最强AI芯片"。该言论一出,随即引发热议,甚至是质疑,有意见认为"都说自己领先,到底谁更优秀"。

对于为何敢说自己是"世界第一"?理想汽车CTO谢炎日前在接受蓝鲸汽车记者采访时回应,主要是因为跟市面上标准可以获得的芯片做对比,它是英伟达Thor-U三倍的性能。"我们可以拿出Benchmark(基准测试),甚至可以让第三方做测试。我们也跟一个第三方测试机构聊过,测试机构说其它家都不愿意拿出来做比较。如果要公平地比较,可以拿到一个公平、综合的Benchmark去做合适的比较。"


理想汽车CTO谢炎图片来源:理想汽车

谈及自研芯片原因,谢炎回忆,四年前芯片立项时与李想达成共识:自研不是为了证明自己有能力做,而是真正去解决问题。

"四年前我们看到的问题一是算力成本非常高,而且会不断变高,因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。当时我们用英伟达和地平线,我们给自己定的目标是,如果做不到比外购芯片更好,那做的意义不大。当时定的目标是4倍Orin的性能。"

但在内部看来,要达成这一目标,即要做得比英伟达更好,用英伟达的技术路线是不可行的。"因为英伟达比你早启动几十年,积累比你深,资源比你多几个数量级。"

基于此,唯一的机会就是跑另外一条路径:放弃主流的冯·诺依曼架构,转而选择数据流架构。"冯·诺依曼架构相当于帮人类做一个中介去实现计算,中间有翻译层,这个翻译帮助人类更好地去编程,但这个中介和翻译会降低效率。如果回到计算的本质,可以把中间的翻译拿掉。当然的确很少有企业做过实践,中国也是如此。所以大家看到的机会都是一样的,关键是如何极致地解决这个问题,从第一性原理来倒推。我们四年前定了这样的目标,并且觉得是可行的。"谢炎表示。

按照谢炎的说法,冯·诺依曼架构用七十年推动了通用计算的辉煌,理想汽车希望以马赫M100为起点,用数据流架构接过历史的这一棒,继续推动AI计算再辉煌七十年。

作为理想芯片自研项目的负责人,谢炎于2022年7月加盟理想,随后很快晋升为理想CTO。谢炎刚加入时,理想芯片团队只有两名员工。

被蓝鲸汽车记者问及整个自研芯片过程中有否遇到什么挑战时,谢炎直言,遇到困难肯定是有的,软件、编译、模型适配,这都是有很多困难在里面,而且这些坑只有你做了才知道。"我觉得数据流架构for AI是一个大的技术方向,它比其它架构更适合,我希望更多的同行能跟随这条路。就像冯·诺伊曼提出来技术路线,很多公司跟随。从更长时间来看,这不是一件坏事。"

值得关注的是,今年以来,理想被曝多次调整组织架构:先是2月重组智能化部门,形成软件本体、基座模型等团队;随后,今年5月,其基座模型部门被曝新增3个与具身智能相关的二级部门等。

蓝鲸汽车记者了解到,目前理想汽车研发体系主要有Infra团队,负责算力基础设施与数据工程;基座模型团队负责多模态预训练与后训练;软件本体团队负责通用Agent、工具链、记忆与上下文工程;硬件本体团队负责芯片、传感器、机器人硬件;评估团队负责独立评估Agent/Robot工作质量。

对于组织架构调整,谢炎回应,技术迭代快是理想进行组织整合的一个目标。在其看来,如果技术处于高速发展期时,很多公司会回过头来做整合,因为需要在技术边界上把分工打破。

"除此之外,组织规模小一点也是优势。如果需要高密度、高整合度,组织规模不能太大,如果组织规模太大,就会导致很多部门墙。这是为什么我在公司强调要保证比较小的组织规模的原因,就是想让大家合作得更紧密些。"

以下为与理想汽车CTO谢炎、理想汽车基座模型负责人詹锟对话实录(经编辑删减整理):

"自研芯片要做得比英伟达更好,用英伟达的技术路线是不可行的"

提问:为何马赫M100会采用动态数据流架构?该芯片四年前立项时,整个行业都还在冯·诺依曼架构的路径依赖中,您当时看到了什么需求和变化?

谢炎:四年前,我们给自己立了一个很高的目标,这个目标也是一个非常合理的目标:就是自研。我们为什么要自研?我和李想有一个非常一致的意见:自研不是为了证明自己有能力做,而是真正去解决问题。

四年前我们看到的问题:一是算力成本非常高,而且会不断变高,因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。当时我们用英伟达和地平线,我们给自己定的目标是,如果做不到比外购芯片更好,那做的意义不大。当时定的目标是4倍Orin的性能。

当然这个目标不是瞎定的,我们花了半年时间进行分析。如果要达到这个目标,背后有一套逻辑:你要做得比英伟达更好,用英伟达的技术路线是不可行的。因为英伟达比你早启动几十年,积累比你深,资源比你多几个数量级。就像你跟博尔特在100米赛道上,他比你早跑2秒,你不可能超过。你唯一的机会就是跑另外一条路径。

在这个思路的指引下,我们开始看其他技术路线。就是扔掉所有以前的架构依赖,回到本质,从第一性原理看AI计算本身还有什么机会。我在读研究生时,我导师高光荣教授是数据流架构的奠基人之一,他在MIT时就做这个事。当然在通用计算时代并不成功。我们发现他的思想本质是:你要做的是计算,冯·诺依曼架构相当于帮人类做一个中介去实现计算,中间有翻译层,这个翻译帮助人类更好地去编程,但这个中介和翻译会降低效率。如果回到计算的本质,可以把中间的翻译拿掉。当然的确很少有企业做过实践,中国也是如此。所以大家看到的机会都是一样的,关键是如何极致地解决这个问题,从第一性原理来倒推。我们四年前定了这样的目标,并且觉得是可行的。


图片来源:理想汽车

提问:马赫M100芯片在理想的定义里是一款AI推理芯片,而不是AI训练芯片,这两者的边界是什么,背后的思考是什么?在AI训练领域英伟达已经很垄断了,跟它做竞争是不是很难追上?

谢炎:我认为AI计算的算力市场,最终会出现99%的推理,训练只占很小的部分。从这个角度来讲,今天中国和美国大量的公司在为了更高的效率专门做推理芯片,也是这个原因,因为最终推理市场更大。如果推理市场没起来,说明AI没有真正落地。

从我们的角度而言,我们公司先要解决推理问题。训练的话,用市场上好的训练芯片,目前够我们用了。

从经济模型角度来讲,训练要的是效率,它对成本不太敏感。训练要的是在足够短的时间内迭代。至于成本高了50%,甚至高了100%,也没关系。英伟达最高端的芯片,很多公司以翻倍的价格也愿意买。但是推理芯片不一样,它要同时考虑成本与效率,而且考虑成本的比重非常高。从解决公司和业务问题来讲,推理问题更大,它跟我们想要达到目标的gap(差距)更大。如果我们做一件事的话,我们就解决机会最大的问题。

提问:请问自研芯片背后需要什么条件,比如销量、营收、研发投入等?

谢炎:如果你的业务需要自研核心技术,比如芯片,先期投入的确不小,可能一年要好几亿。

第一个条件是达到一定的营收规模。对车企来说,营收规模一年1000亿以上,研发投入至少10%,就有大几十亿到上百亿,每年投钱研发芯片是可以的。

第二个条件是,你研发芯片解决的问题,要能让你的产品能力更强。回到十年前,一些房地产公司也做高科技,问题是它投入的高科技对主营业务帮助非常小。比如我是房地产公司去投芯片,这个意义不大,芯片对卖房子没帮助,对未来也没帮助,更多是象征意义,而没有实际意义。

以上是最重要的两个条件。

这里有个误区,很多人说芯片要有很大的出货规模才行。其实芯片的成本和面积相关。一辆车上的芯片,比如Livis是2颗马赫M100,加起来800平方毫米。而一部高端手机芯片大概100平方毫米,所以一辆车的智驾芯片相当于8台手机的芯片面积。你会说车的量比较少,但成本不仅仅跟数量有关,也跟面积有关。这样算下来,大几十万辆车需要的晶圆面积非常大,完全可以摊薄成本。所以成本不能仅用颗数来衡量。有的IT公司说一年出货好几亿颗,但其实每颗面积非常小。不能脱离背景只谈量,这是不完整的。

我们在马赫M100立项时算过,做这个芯片不会让公司的效益变差,而是会变好。我们不是为了证明自己能做而做,不仅性能要做到最好,在成本上也要帮助公司省钱。

提问:理想自研芯片从2022年立项,去年流片,为什么今年才量产上车,有什么考量?在做芯片过程中,有什么挑战或故事可以分享下吗?

谢炎:对于上车时间我们已经做得很快了。做芯片基本要5年时间,而我们基本快4年年时间就上车,而且把所有模型都跑起来,这已经很快了。

至于在过程中遇到的困难,肯定是有的。软件、编译、模型适配,这都是有很多困难在里面,而且这些坑只有你做了才知道。日前有些同行说,看了我们的论文以后,说你们把论文写得那么详细,别人家拿你的论文是不是就可以复刻。但我们不担心,因为把这个架构要落地是非常长的距离,而且中间有很多坑,只有真正做才知道,才能迈过去,迈不过去,就停在那儿了。

第二,我觉得数据流架构for AI是一个大的技术方向,它比其它架构更适合,我希望更多的同行能跟随这条路。就像冯·诺伊曼提出来技术路线,很多公司跟随。从更长时间来看,这不是一件坏事。

谈车企自研芯片:很多公司宣布做了,但并没真正落到车上

提问:李想日前说马赫M100"是全世界性能最强的AI芯片"引起了很大的讨论,包括有些质疑声音会说小鹏、蔚来、比亚迪也都说自己很领先。那么,跟这些友商相比,理想的领先性体现在哪些方面,或者被市场低估了哪些方面?

谢炎:我们为什么敢说自己是世界第一呢?因为我们跟市面上标准可以获得的芯片做对比,它是英伟达Thor-U三倍的性能。我们可以拿出Benchmark(基准测试),甚至可以让第三方做测试。我们也跟一个第三方测试机构聊过,测试机构说其它家都不愿意拿出来做比较。如果要公平地比较,可以拿到一个公平、综合的Benchmark去做合适的比较。

提问:这两年很多车企都发布了自己的芯片,正常来讲芯片是高投入、长研发、需要验证的产品,这是否意味着这件事很容易?

谢炎:我想说其实挺不容易。我们自己做这颗芯片花了4年,在新势力里我们启动最晚。大家要看发布芯片后,最终结果是最领先的模型什么时候真正落到车上。从这个时间来看,除了我们以外,其他家一般要5年时间甚至更长,我们是最快的。所以要有点耐心,第一颗芯片如果真的自己做的话,没那么容易,一般要花5年时间。

做一颗芯片和做一颗领先的芯片,难度又是不一样的。有些公司做了芯片,但这颗芯片不够领先。我跟李想说过,我最担心的事不是做不出来,最糟糕的事情是做出来了但它不领先,那公司这个钱就白花了,这是我最不想看到的结局。

我们看业界,并不是每一家公司都能做到。现在很多公司宣布做了,但并没有真正落到车上。要看它什么时候落到车上,什么时候把最高端的智驾用自研芯片跑起来,并且还能做好用户体验。再者,看是不是所有车都能用。有的公司为了证明自己能用,只用了一款车型,出货量只有几千辆,其他车还是用外购芯片,说明它也知道这件事并没有帮它解决真正的问题。

我认为要看几个指标:全量的车能不能用上,能不能快速上车,能不能跑最先进或最新一代模型,并且部署到所有车上。另外一个指标是能不能持续迭代。做一代芯片不说明问题,最终要做出第二代、第三代。很多公司只做了第一代,第二代就不做了。有些公司也可能买个IP就做了,也可以宣传自己自研。

但我们不是,因为我们连论文都可以看到,这个世界上没有第二个芯片跟我们做的一样,完全没有,甚至连这个思路都是我们提出来的,没有任何已有的IP可以follow。

提问:在芯片产业链里,哪些环节是可以被加速的,哪些环节是必须要自己踩坑的?

谢炎:有些技术是成熟的,比如偏后端的部分,有点像造房子,你找工程队,比如垒砖,是可以找到供应链帮你加速的。但是真正要做到量产、做到最领先,设计肯定要自己做,软件要自己做。如果你连软件都外包给别人的话,你不可能迭代芯片性能。当然生产一般都是fabless,大家不会自己再去造工厂,这是另外一回事,生产今天是成熟的。

回到国内,我们会越做越深。如果做芯片要持续领先的话,仅仅做芯片设计,做成GDS2(版图数据库),交给Fab(晶圆厂)去做流片,这也不够。很多部分要跟封装厂联合设计,要垂直整合。有些技术不仅仅是货架商品,由别人提供就可以,你要深入到封装制造领域才能领先。我们不会停留于此,会越做越深。

提问:李想在罗永浩的节目中聊过,想基于下一代马赫芯片做一个家庭算力中心,类似英伟达DGX Spark的理念。这个项目现在是否在推进中?出于什么考虑?适用于怎样的场景?

谢炎:我们做的M100本质上是一个通用AI推理芯片,理论上讲,它能很好地推理自动驾驶模型,也可以推理语言模型。有人说这个芯片这么好,能不能装到家里面,因为他需要一个私人的家庭算力。出发点是从这里开始的。下一代芯片毫无疑问会更强,经过一定的改造,我相信放在家里非常有竞争力。

谈组织:规模太大会导致部门墙,迭代快是进行整合的目标

提问:理想汽车这几年经过很多次智能化的体系调整,最终把芯片、基座模型和智能辅助驾驶整合成统一的团队,从CTO视角来看,理想的"三位一体"和特斯拉的FSD、HW、xAI相比,差异化的护城河在哪?

谢炎:跟特斯拉相比,大家出发点是一样的。如果想围绕AI做出强竞争力有两方面。第一是,需要快速迭代。今天的AI发展很快。从芯片领域来说,英伟达也迭代很快,不仅是自己迭代快,还不断收购公司补充自己的技术,说明这个行业竞争非常激烈。所以迭代快,是我们进行组织整合的一个目标,几个团队更紧密地合作,迭代速度会上去。

第二是,需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代,如果没有自己的芯片,只做自己的模型,那么如果遇到需要芯片和模型联合设计,才能把问题解决得更好的情况下,我们就失去了这样的机会,特别是一些大的创新。

我个人观点是,当技术发展到平台期时,这时分工会很细。比如PC计算机发展到2010年时,分工非常细了,操作系统归操作系统、应用归应用、芯片归芯片、制造归制造。但是如果技术处于高速发展期,斜率非常高时,你会发现很多公司又回过头来做整合,因为需要在技术边界上把分工打破,重新做整合。

比如英伟达之前只做芯片,现在英伟达连封装和机架都开始收购公司来做。所以英伟达要解决更进一步的问题时,需要上下游一起来做,如果分成多家公司来做,其实效率是非常低的,甚至是不可能的。英伟达做Vera Rubin(AI超级芯片平台)时,可以看到不仅是多种处理器,而且机架、散热技术、互联技术都是英伟达来做。虽然英伟达是做计算的公司,但现在全拓展开了。我认为技术快速发展的时代,这是有志于领先的公司肯定要走的一条路。当然这个投入肯定不小,很多公司不具备这种能力。在我们团队,以我个人为例,我的背景是做过操作系统、架构、应用层等AI各个方向,所以我们的整合效率相对更高一些。

除此之外,组织规模小一点也是优势。如果需要高密度、高整合度,组织规模不能太大,如果组织规模太大,就会导致很多部门墙。这是为什么我在公司强调要保证比较小的组织规模的原因,就是想让大家合作得更紧密些。如果团队规模很大,每个团队都给自己立一道墙,自己成为一道闭环,相互之间的合作就会很难。

提问:从产品到技术到组织,您作为CTO是如何重构协作体系的?

谢炎:关于组织协作。为什么垂直整合比较重要?因为要做到这一点,只有硬件团队不够,还必须有模型团队。我们设计芯片时,软件团队、模型团队坐在一起分析。可能跟其他公司不一样,我们是这几个团队坐在一起,而且大家比较兴奋:之前很多做软件的人根本没有机会直接对硬件团队提需求。

在组织上,我们希望以某一个核心的、有挑战的目标为中心,围绕它构建项目团队。实际团队是分开的,但像一团篝火一样,有硬件的人、有软件的人、有模型的人,大家在大目标下一起共创、一起实现。我们内部越来越多的项目会往这个方向走。它不是一个硬的组织隔离,而是一种软的合作机制。

"要追上特斯拉FSD V14需在基础体验、能力上下功夫"

提问:马赫VLA模型要达到特斯拉FSD V14的效果,还需要做哪些工作?

詹锟:真正的难题是能不能追上FSD。我讲讲我的想法。什么叫追赶FSD,怎么算追上FSD V14?业界都说要追上FSD的水平,但不一定能追上。

我认为追上FSD有两个层面。

第一是基础体验,具体是三方面:安全感、效率、舒适度是否能达到FSD的同等水平。相信大家如果开过FSD,它的安全感非常足,效率很好,舒适度很好,这是它的基本功。我不一定跑很难的路,但这些基本功可以达到这个水平。

第二是能力,这一点也很难追。FSD有哪些能力是别人没有的?比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,它会识别交警指挥,这些能力非常强。

如果我们能做到这两项,就能追上FSD。在基础体验上,这需要非常好的评价体系。我们希望从自己的测试团队和产品团队开始,跟用户和媒体一起想,怎么去评价我们的模型:它的安全感、舒适和效率怎么平衡。这里有很多方法,我们很有信心可以追上FSD V14的水平。再加上我们芯片性能还没完全释放,我们可以效率更高、反应更快,所以这个问题不大。

关于能力方面,这里有架构升级的机会。为什么别人没有、只有特斯拉有?这里有我们的一些思考。我们会去做这样的改进,把这些能力提升上来。大家想想,这些能力是怎么来的?为什么别人没有?可能是以前的范式限制了这些能力,有架构的原因,有数据的原因。它怎么就能找到这么多倒车数据?这是采集的还是合成的?怎么把这些坑坑洼洼的信息传回去?这在架构上有很好的设计。我们在这个层面做了很多尝试,目前也有一些初步的实践结果。如果这两个方面能追上FSD V14,就是一个很厉害的结果。

提问:我们看到提升模型帧率对系统体验有明显改善,什么时候能看到更高帧率的模型上车?

詹锟:首先,LiDAR(激光雷达)我们不是去掉了。但LiDAR能不能作为前融合的主传感器,这需要我们思考。如果我想提高帧率,LiDAR的帧率有物理限制,因为机械结构的原因,10到15赫兹就到顶了,不能再高。如果想做到更高的输入频率,只能靠视觉。更高的输入频率对细节反应有很大提升,像特斯拉的细节反应速度就是这么来的,这是上限。所以我们必须拉高上限,基于纯视觉把输入上限拉高。我们正在往这个方向做,大概率会在某一个节点切入到类似的水平。

我们内部有很多版本的纯视觉方案,最难的是看效果怎么样,这不是拍脑袋的事,要以实践结果来证明。特斯拉是36赫兹的输入,输出不一定是36赫兹。所以我们肯定要提高帧率,接下来会先上15赫兹、20赫兹。趋势就是这样,一定会以更高的帧率做输入,纯视觉带来更好效果以后,我们就会替换上来。

第二,我们认为LiDAR有一个很大的优势,就是对L3和L4场景下的安全兜底。我们会一直往L4这些方向去努力。我们能不能在真正的安全底线下做得更好,这是很重要的事。毕竟纯视觉输入信息有限,而LiDAR在极端情况下可以帮你解决很多问题,所以LiDAR的作用很重要,我们会通过其他方式保证更强的安全。

基于这样的判断,下半年最重要的两件事:第一,用纯视觉提高帧率,把芯片性能发挥到更大,反应速度大幅提升。第二,LiDAR会承担很重要的数据采集环节,它对L3、L4各种极端场景很有帮助,我们会持续提升安全,安全不能妥协。

提问:蔚来和小鹏也都在做基座模型,做基座模型是不是汽车公司想站在AI前沿的必要基础能力?

詹锟:关于基座模型,我认为答案是肯定的。只要想走具身智能和AI方向,基座模型一定是必争之地。基座模型不太可能像OS(操作系统)一样有一个标准件,因为每个人的场景任务不一样,需求也不一样,所以基座模型需要自己建。特别是语言模型的基座,做汽车有汽车的基座,我们对视觉语言的重视更多,参数量的分配比例也跟通用模型不同。

所以基座模型一定要做。现在大家都讲基座模型,其实每个公司表述的意思都不一样,要看具体是什么含义。核心有两种类型的任务:语言智能和机器智能,这两个对基座模型的需求是不一样的。可以共用一个云端大模型做基础,但实际使用中一定是有区分、有差异化的,我们也是在往这个方向做。我们已经有非常强大的统一基座模型,可以构建物理环境,我们对它有很多反馈和评价机制。但真正落到车上时,需要有裁剪、有取舍、有参数量的适配、芯片能否承载,我们要做不同的改造。

提问:手机行业一开始大家都做操作系统和芯片,最后收敛到安卓生态。那么基座模型有没有可能也出现类似的外部统一生态,可以给所有公司去适用?

詹锟:至于将来会不会有一个技术收敛的外部模型给所有厂商直接用?如果说有开源的pre-training(预训练)模型,这是有可能的。但你想让一个pre-training模型就直接给大家当基座用,我觉很难。大概率大家还是要做很强的post-training(后训练),才能变成真正能用的基座模型。

谈舱驾融合:核心在AI算力,其他部分是否一体并非关键

提问:马赫M100芯片可以跑在不同的AI场景下,那么后续理想汽车车内的算力中心有没有可能全部使用自研马赫芯片?

谢炎:我们就是这么思考的。虽然业内有一个说法叫"舱驾一体",我们认为舱驾一体最核心的是AI算力部分,其他部分是不是一体没那么关键。因为座舱系统跟AI智驾系统可以完全独立,但AI算力可以集中在一起,这样分配效率会高很多。所以我们路线图的最终形态是车内一个AI计算中心,所有AI任务都可以到这个计算中心去计算。就像笔记本上跑OpenClaw一样,AI的计算不在笔记本上,而是在Token Provider Server(Token供应服务器)上,车里也类似,有一个Token Server(Token服务器)。

这个Token Server的优势:第一,效率非常高。第二,能做到不同任务互相隔离、互不影响。比如智驾任务的确定性:无论是内存还是带宽,能够保证不被其他任务干扰,这是软件和硬件一起设计才能实现的。只靠芯片提供商做不到这一点,需要软件跟硬件一起配合设计。

我们的优势在于,可以把一些计算单元完全隔离给智驾用,另一部分给其他任务用。如果是通用的SRT(Secure Reliable Transport,安全可靠传输协议)架构,它不能完全做到这一点,因为这些东西藏在硬件里,而硬件并不知道上层应用的语义。它不知道下面跑的线程是智驾任务还是其他任务,或者说它做这些事情的代价非常高。就像日前发布会说的,我们走向数据流架构有很多原因,有效率的原因,也有AI场景下多任务需要并行运行、对时延非常敏感、对资源确定性要求很高的原因。

提问:为什么现在的大算力芯片方案,比如英伟达或小鹏、理想自研的这些,都没有做芯片级的舱驾融合,反倒是高通在低算力芯片方案上做了这件事?这是为什么?

谢炎:从本质上讲,舱和驾是两个独立系统。特别是对高端的L3往L4走,智驾需要一个更高确定性的系统,内存是专属、计算资源是专属,这时融合的意义就小了很多。因为资源不能实时切换,实时切换会降低确定性。如果变成越来越独占的方向,融合的价值就不大了:你只是把芯片拼在一起,但资源还是两份,并不会带来成本的降低,甚至会影响效率。

对低端来说,L2对切换的实时性要求不高,有一部分确实可以有限地共享,但我认为也不多,未来会证明这一点,因为今天只是个概念。

我认为真正的舱驾融合是舱需要的资源和驾需要的资源在物理上完全是一块,可以动态共享。不是形式上放在一起,但实际切成两半,这不叫融合。融合就像你的笔记本跑浏览器和其他应用程序,笔记本的内存完全可以共用,一会儿跑这个,一会儿跑那个。你看现在那些舱驾融合系统,它肯定还是分开的,今天做不到一会儿跑这个一会儿跑那个。如果做到的话,融合的价值确实很大,但做不到的话,只是减少一定的成本:因为把两个芯片放成一个芯片,晶体管数目也许不变,只是省了一次封装的成本。对中低端芯片来说这部分钱可以省,但也省不了太多。我的观点是,越往后走智驾越来越高端,舱驾融合这件事可能意义并不大。

如果把这些芯片做得更近一点,在一块板上做成很小体积的集成化方案,这是可以的,并不一定要做成一块芯片,也可以多块芯片放在一起。

提问:如果座舱和智驾共用一个统一的模型底座,座舱允许一定的不确定性,但自动驾驶对安全和确定性要求更高,你怎么确保智驾链路的可靠性不受影响?在算力分配上,座舱运行大模型推理时需要较大的算力和内存,怎么确保智驾的算力不受挤占?

谢炎:简单说,你可以想象一个职业司机和一个生活助手,这是两个角色,不是一个人。不是说一个人一会儿给你开车,一会儿帮你放音乐。你可以想象下面的算力和相关软硬件基础设施也是独立的,这是两套系统。我们的算力可以灵活分配给不同角色使用,但在使用时,两者不会互相干扰。

谈3DViT:让纯视觉达到激光雷达级别的空间理解

提问:之前的智驾感知是先做BEV(鸟瞰图),先拍图,后面再做OCC(占用网络)立起来,再到今年理想新做3DViT(三维视觉Transformer),更接近于人类的感知。倒着看有点像弯路,为什么会走这个弯路?

詹锟:我认为这不叫技术的弯路。无论是做模型还是三维空间建模,我们把OCC定义为空间建模,这些思想都来自于上世纪。CNN(卷积神经网络)是80年代的东西,只不过2012年GPU发展时才爆发。LSTM(长短期记忆网络)也是1997的东西,到了2010年才逐渐应用。Transformer也是如此,稠密计算很早就有了,但之前没有爆发。本质原因是你的思想要随着当前的基础设施、硬件、算力统筹升级,不是说有一个想法就能直接用起来。所以技术迭代会一直跟随当前的环境、硬件、任务需要在变。

从自动驾驶来说,2022年特斯拉在发布会上讲BEV方案,方案也不是新的,只是基于它的强大算力,在特征级把场景做融合,这是大家没有想到的。那会儿由于算力就那么大,不能做很深的稠密高度估计,只能变成单层或者采样很稀疏的BEV。到了OCC阶段,是把稀疏变密,这是算力或硬件的一次升级带来的东西。

3DViT是什么?可以理解为基于3DGS(三维高斯溅射)或全新稠密三维空间的新的三维表示。从2025年到2026年,CVPR(计算机视觉与模式识别会议)的Best Paper都是这个领域。去年的论文是剑桥大学老师做的,基于图像直接投射出三维空间,直接预测三维深度。2026年的CVPR是DeepMind基于传感器把三维空间动静分离。所以我们未来三年内,就是基于这个路径做。我们把大家之前认为的栅格化、需要人类表征的东西,变成不用表征。OCC先不定义类别,任何物体和任何元素我都可以投射三维空间,它有外观、RGB、纹理、属性。这样的建模方式需要随着下一代的算力增加才能做到。

它不是绕弯路,而是你的思想随着条件的成熟才能用起来。随着大家相信Scaling Law(规模定律),把模型规模和参数规模越提越高,让这些思考发挥越来越大的作用。如果算力不够用,规模不够,你的想法再好也实现不了效果。

谢炎:我补充一下。高科技技术产品的商业化落地是一步一步的。比如特斯拉早期没有Mobileye,就没有今天的FSD,它不可能做到今天这种程度。今天来看,你会说Mobileye的方法太古老了,为什么它不能一下子做到今天的端到端呢?因为当时的条件完全不具备。而条件完全不具备时你去做,不能完全落地,也不能商业化。所以肯定先从Mobileye的技术栈开始,再到FSD的第一代,再不断完善。它在2021年有很多规则,现在规则越来越少。商业化是一步一步做的,大家认为有好的想法就应该一步到位,这不太现实。

提问:大概是什么时候开始研发3DViT这个技术路径的?3DViT目前能达到跟激光雷达一样的效果吗?

詹锟:3DViT来自于去年的CVPR的论文VGGT(VGGT: Visual Geometry Grounded Transformer),这证明了2D视觉也能学会完整的3D空间结构,证明了Scaling Law在3D空间的全新可行性。

第二,之前团队一直在往这方面探索和尝试,中间做了很多方案的取舍和权衡。最后因为我们看到3D ViT对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果,我们去年才正式从研究探索阶段转入产品开发阶段。在这个过程中,我们把它变成一个真实项目,放到最新的马赫VLA里面来。原来马赫VLA不一定使用3D ViT,但有了会更好。3D ViT后续还有更大的改进与优化空间,这也是追上FSD V14很重要的一环,中间的视觉信息能不能表征清楚,这是非常关键的。

3D ViT是一个纯视觉方案,它不依赖于激光雷达。它基于视觉,把空间建模成带有色彩信息的全彩点云,基于更强的视觉编码器和空间视觉表征,做到更丰富的3D理解。

关于帧率和激光雷达效果,这其实是两个问题。高帧率主要是提高反应速度,因为激光雷达帧率有限,只有10Hz,视觉能做到30Hz甚至更高,我们基于视觉能做到更高的反应速度。

能不能达到激光雷达的效果?我们是有信心的。因为我们最新所有的车都标配了激光雷达,激光雷达对纯视觉方案有非常强的监督和校验作用。一定要达到跟激光雷达完全一样的精度吗?不一定。特别是看远处时,人也分不清大货车是20.8米还是19.8米。但在极近处,人对深度的感知非常敏感,我们也是如此,在极近处能达到激光雷达的水平,这是上线的标准。另外,理解空间以后更重要的是做出更拟人的行为决策。

谈智驾格局:第一梯队差距感觉变小了,但大家跟特斯拉的距离没缩小

提问:前年有一个共识,理想、华为、小鹏处于自动驾驶的第一梯队。接下来VLA、世界模型、数据驱动,大家投入了很大的数据、算力和资金。大家认为随着时间延长,各家的能力差距会越来越大。但从最近的表现来看,差距反而在缩小,自动驾驶的Scaling Law(规模效应)似乎没有起来。接下来理想要拉大差距的话,会做什么事?

詹锟:一年前到现在,智驾格局确实发生了变化,感觉差距变小了。但从另一个角度看,从一年前到现在,很多玩家已经不在了,现在至少智驾的玩家收敛了。

有几个原因。一是智驾是重投入,它不是把一个公司的算法带到另一个公司就能转起来,它是一个系统,涉及到系统、人、技术、算力、平台,这是很大的壁垒,无法在短期内建起来。

为什么你感觉第一梯队差距没拉大?这里要思考,我们如何建立护城河,靠什么能让别人无法快速追上。我认为要参考特斯拉。

第一,全栈才能建立真正的护城河。你的算力、芯片、基础设施能不能完全统一在自己的可控范围内,这很重要。如果你只是算法,中美之间的人才流动很快,很容易被迁移。但如果你是全栈的,迁移成本很高,也很难。

第二,下苦功夫。你愿不愿意把精力投入到苦功夫上,这是护城河。哪些是苦功夫?比如精细地洗数据。这里有很多细节,这些细节并不高大上,但这些一点一滴的细节才能形成护城河。我们也会在这方面持续加大投入,逐步把护城河建起来。现在已经有全栈自研的机会了,我们会加大投入,把这些苦功夫做下来。

虽然第一梯队之间的差距感觉变小了,但大家跟特斯拉的距离并没有缩小,特斯拉还是很强。如果我们完成年底追上特斯拉的计划,是有机会脱颖而出的,也是我们一直想做的事情。

提问:我们一直在提全域的软硬一体,包括主动悬架等系统,其他车企也做了一些零散式的开发。理想说的全域一体,到底有什么核心优势?

谢炎:全域到底解决什么问题?假设我们停留在L2、L2+,以自动驾驶为例,不做垂直整合也可以,无非是从供应商采买。车还是人类监督,人类随时准备接管,开得慢一点、效率低一点也没关系,要求不高。但日前发布会上理想希望它像机器人一样独立地完成任务,那对它的智能要求就非常高了。不仅是脑子,对手脚的掌握、对加速、轮子、纵向横向的控制,要求都很高。

从L2往L3走的时候有很多问题,今天没有供应商可以解决。你分开采买,可以给你系统、给你线控,但加在一起,有大量的冗余,成本又高,延迟又高,出了问题还很难定位。所以要解决未知问题、想达到更高标准时,领先企业一定会选择一起做。当然我不排除20年后技术进入平台期时,会拆分出各种供应商。但在技术还没收敛的阶段,要达到这个目标,必须自己整合。

就是因为一些问题不好解决,我们才要自己出手,而且这些问题是长期性、重要性的问题。比如L3、L4,今天没有人完全做到,特斯拉也没完全做到,这是无人区,你需要解决这些问题,需要投入巨大的资源。

车的内卷就是因为同质化。要摆脱同质化,就是要做别人不好做或做不到的事。这些事如果供应商能做到,那又同质化了。这就是基本逻辑。

提问:理想日前提出具身智能汽车的定义,即电动车、职业司机、AI计算机、生活助手四位一体。若这四块拆开来看,未来三年哪部分的竞争最关键?

谢炎:我觉得这四个能力其实不是割裂存在的,而是共同构成具身智能汽车的完整能力体系。

电动车解决的是移动能力,让智能真正能够进入物理世界;职业司机解决的是执行能力,让车辆能够安全可靠地完成出行和任务;AI计算机提供的是算力和系统基础,支撑越来越复杂的模型和能力运行;生活助手则是交互入口,让用户能够以最自然的方式使用这些能力。

提问:有意见认为理想喜欢用类比,是因为研发人员觉得李想听不懂技术,技术判断穿透力不足,能否回应一下?

谢炎:我在内部也希望给大家做类比,因为类比是帮助大家理解,只有理解的比较深,才能做出合适的类比。类比不等于我们不知道背后的原因,相反,我们希望通过类比把复杂的原理讲得更清楚。大家如果关注理想汽车的技术,会发现无论是在芯片还是智驾领域,我们都有大量公开的技术论文。每年我们都会发表几十篇顶会论文,覆盖从模型、系统到芯片的完整技术链路,而且这些论文对技术思考和实现路径都有比较清晰的阐述。

如果感兴趣,可以去看一下我们的论文,会看到我们背后的技术思考到底是什么。所以我们的类比并不是凭空产生的,也不是为了包装概念,而是建立在真实技术原理之上的。一个有技术根基、有原理支撑的类比,才是有效的类比。

詹锟:关于类比的问题,我来补充一下。类比有两种。

第一种是帮助对外宣传和沟通,帮助大家理解。类比成人、类比成大脑,这是为了帮助大家更好地理解技术。

第二种类比,大家也要关注。从第一性原理出发,我们在思考为什么要造未来的硅基人或具身智能,这个类比是从第一性原理看到的,而不是生硬地从技术上对应到一个简单的事物。其实技术思考很深刻,我们有很多深入的工作、精细的工作在做。从2022年到现在,我们发了近200篇论文或技术报告,这个数量非常多。虽然不是所有顶会都有中稿的文章,但投稿的文章更是不知道有多少篇了,我们在这方面有非常深的研究。

类比只是为了帮助大家理解,深入浅出地做一些说明而已。但其实技术思考是很深入的,并不是简单类比一个简单的事物。