BEV感知引领辅助驾驶大混战,激光雷达终将走下神坛?
作者|孟祥威 来源|智造前研(ID:zhizao-qianyan)
短短一个多月的时间里,禾赛科技上市、蔚来 NOP+ 开启公测、理想宣布切换融合感知框架、特斯拉在投资者日证实 HW4.0 存在,辅助驾驶行业刚一开年就是“神仙打架”的状态,对于其他汽车厂商来说无疑非常头大。2022 年,随着国产激光雷达的大量出货,让很多技术积累不那么雄厚的企业刚刚摸上高阶辅助驾驶的牌桌,现在椅子还没坐热呢,发现头部企业已然悄悄统一技术路线进入下一个维度的竞争了。在车企争相转向 BEV 大模型感知路线的当下,激光雷达还是自动驾驶的香饽饽吗?摄像头又能否完成自我革命让车辆感知能力再上一个台阶呢?
车载激光雷达可以通过计算激光到达被摄物体的时间精确判断相对距离,并通过生成的点云对周围环境成像。这种工作原理使激光雷达可以无视被摄物体的材质、颜色以及环境明暗等外部因素,快速准确的输出结果,对于高速行驶的汽车来说至关重要。在所有前装量产车市场里,除了业界鼻祖 Mobileye 和 不走寻常路的 Tesla 坚定的选择纯视觉感知路线外,其他汽车厂商大多都会在高端车型中加入激光雷达用于辅助决策。
有了激光雷达的加入,车辆就能在夜间无照明路段或进出隧道等大光比场景下及时发现前方障碍物并引导车辆躲避和制动,也能在高速巡航时对施工占道物体提前预警,这将大大提升车辆辅助驾驶过程中的安全性和舒适性。
当然,任何技术都有优劣势,激光雷达也不是无所不能的。首先就是极端天气下无法工作,例如大雾、沙尘暴等非晴朗气候条件下,红外线透波率降低会导致激光雷达作用距离减小甚至完全无效。二是激光雷达无法感知色彩信息,对于交通信号灯和其他标志的识别无能为力。三是对数据处理的需求较高,目前市面上主流的激光雷达出点数基本都在 150 万/秒左右,既每秒能产生 150 万个探测点,且每个点具有独立的三维坐标信息,车载计算机必须在短时间内进行分析决策,这对车辆电子电气架构和硬件整合能力提出了更高的要求。最后就是老生常谈的价格问题,虽然目前激光雷达的采购价格已经降低到万元以内,甚至一些规格较低的能到千元级,但有的产品动辄配置两个甚至四个激光雷达,整体成本的提升对消费者来说仍有较大压力,与白菜价的摄像头相比更是天壤之别。
对于车企来说,在软件实力和数据积累比较薄弱的情况下,采用激光雷达方案可以通过少量的资金投入快速提高自身辅助驾驶系统的可用程度,抢占市场份额以获取更高的主动权。
当然不是,我们知道摄像头获取的图像是 2D 数据,信息丰富程度是够了,但是很难对深度信息和速度做出准确判断,而激光雷达获取的是 3D 数据,这恰恰是它最擅长的地方。如何才能把摄像头产生的 2D 画面与激光雷达产生的 3D 画面准确的映射在一起,就成了自动驾驶开发中的关键问题。
在传统的开发模式中,每个传感器互相独立,前向主视觉摄像头依然在环境感知和决策中占据主导地位,其他设备更多的是起到对数据交叉验证的作用,无法深度参与到整个规控流程。这种情况下,即便是激光雷达,也很难发挥其优势,只能在 AEB 主动紧急制动等少数场景做针对性的优化,大多数场景下与未搭载激光雷达的车型没有体验上的差距。更尴尬的是,一旦各个传感器得到的数据出现较大的误差,那么分析决策的过程就会变的混乱且低效。
为了解决多传感器数据融合判断的难题,Tesla 自 2021 年起在全新的 FSD beta 版本中,引入了 BEV 技术进行环境感知。BEV 全称 Bird’s eye view,也就是鸟瞰图,BEV 感知算法的本质是多传感器融合背景下的一种视角表达形式,可以使多个传感器数据在相同视角下表达。
通过改进版的 Transformer 模型,Tesla 对全车 8 个摄像头的画面进行坐标转换,并放置在同一个坐标系中(BEV 空间),这样就可以形成一个虚拟的向量空间。后续所有的分析和决策都在这个空间中进行,当所有的传感器都用同一种语言的时候,沟通就变得更方便了。由于坐标系相同,在这个空间中图像数据、毫米波雷达数据、激光雷达数据、高精地图数据都可以进行融合。
BEV 大模型对车辆感知能力的提升使之成为兵家必争之地,理想汽车在 L7 的新品发布会上提到了智能驾驶方面的最新进展:全面切换到与清华大学联合开发的混合 BEV 框架,并实现了不同传感器类型的“可插拔”,使得一套算法同时兼容纯视觉感知和激光雷达增强感知;蔚来也在全新 NOP+ 开放测试时表示将在 2023 年上半年完成向 BEV 感知路线的切换,小鹏、毫末智行、百度Apollo 等厂商也先后分享了自家基于 BEV 的新一代感知架构的最新进展,目前,不管是理想 AD Max,蔚来 NOP+还是小鹏 NGP,感知能力和边界都较上一代产品有了大幅度提升,决策和规控也更加成熟,随着研发人员对人工智能模型和计算机视觉理解的进一步深入,等 BEV 算法正式推送到用户手中的时候,领航辅助驾驶产品才算到达历史上的“iPhone 节点”,完成了从能用到好用的跨越。
当各大厂商通过 BEV 更好的识别周围车辆和行人之后,新的问题也随之出现了。
我们知道,汽车如果想要感知周围环境除了要“看得见”还要“认得清”,这就需要开发阶段对交通参与者进行标注,帮助汽车逐渐认识什么是轿车、卡车、行人、自行车,也就是所谓的白名单机制。但是,实际的道路环境非常复杂,掉落的石块、狂风折断的树木、违规占道停放的车辆等等,厂家不可能提前标注好所有可能出现在路上的物体,当车辆遇到白名单中不存在的物体时,大概率会直接忽略从而无法做出反应,早些年自动巡航状态下的车辆撞上高速公路施工设施就是这个原因。
为了解决“一般障碍物感知与规控”问题,国内厂商的做法就是加装激光雷达,通过激光点云判断未知障碍物的体积,再结合高精地图数据选择制动或者变道绕行;而高精地图数据的及时性和准确性又直接决定了整套系统的可用程度,当前市面上所有已交付的高速导航辅助驾驶系统,在遇到高精地图与实际道路不符的情况时都会直接降级退出,如果车辆不能摆脱对高精地图的依赖,那城市道路导航辅助驾驶就几乎不可能实现。
对于面向全球市场发售的 Tesla 来说,获取发售国家所有城市的高精地图是不现实的,即便是国内厂商,高精地图覆盖范围也小的可怜。为此,马斯克破釜沉舟的选择了完全使用摄像头感知标注道路标线,完全使用摄像头生成虚拟点云取代激光雷达的方案,统称“Tesla Vision”。在 2022 年的 AI Day 上,他们介绍了 BEV 进化后的算法网络——Occupancy Network 占用网络。
搞清楚啥是占用网络之前,先来看看效果吧。
它能在 10 毫秒内向车载计算机输出车辆周围每个 3D 位置的占用概率,并能够预测被瞬时遮挡的障碍物。同时它还会标注画面中出现的物体语义并用颜色区分,例如:路边的汽车、永久性障碍物或低小碎片等并划分当前“可安全行驶区域”,也就是上图中蓝紫色框线的部分,由下游决策系统在框线范围内自由选择行进路线。
由于占用网络将现实世界分割成了一个个小方块,从而跳出了物体识别的固有思维,所以不管画面中出现的是什么、体型多么怪异又是否处在运动过程中,车辆都可以快速准确的做出判断。
这是一辆正在起步出站的加长公交车,可以看到在占用网络的视角中精准预测了其前半段车厢为运动状态(蓝色标识),后半段车厢为静止状态(红色标识),随着公交车速度的增加后半段车厢会逐步变蓝直到整节车辆都被标识为运动物体。在其他的演示案例中,这套模型对于卡车和拖挂房车等特殊车辆判断都有良好的适应性。
可以看到,在多种深度学习模型的加持下,仅有 144 TOPS 算力和 8 颗环视摄像头的 Model 3 拥有了比肩激光雷达的探测能力,配合全自动 4D 标注技术 Model 3 可以在车机端完成当前道路高精地图的实时绘制,如果说 BEV 感知让汽车迈过了自动驾驶的门槛的话,那么占用网络显然直接把自动驾驶的大门砸开了,当然,如此恐怖的态势感知能力也使得 FSD 引进国内市场变得愈加艰难。
既然纯视觉方案完全可以满足车辆对于自动驾驶的需求,那么激光雷达的市场会不会逐步萎缩呢?
还在纠结这个问题的人显然没搞清楚激光雷达的对手到底是谁,摄像头从来都不是,甚至任何其他的传感器之间也完全没有竞争关系,真正决定硬件去留的,是软件的能力边界;而软件的能力边界背后是数据、算力和资金持续不断地投入。
李想本人在春季媒体沟通会上非常坦诚的表示,要做基于 BEV 的城市 NOA,基本上要 20 亿美金起步。必须保证可以持续创造健康的收入、健康的毛利来供给模型的迭代,很多公司做着做着就投不起了。
显然并不是所有玩家都可以玩转城市 NOA 的,随着供应链的成熟,激光雷达采购价格肯定会进进一步走低,对于一些中低端车型来说,搭配较为基础的算法仅实现高可用度的高速 NOA也是一个不错的选择。而一线的头部品牌在精进软件能力后,也可以选择放弃车顶的主激光雷达,仅使用小型激光雷达用作补充,进一步优化凸出的雷达对车辆外观的影响。
总之,是否采用激光雷达完全取决于企业的软件研发与成本控制策略,未来如果遇到摄像头无法解决的问题,那么不管 Tesla 把什么类型的传感器再加回来我都不会奇怪。
编者按:本文转载自微信公众号:智造前研(ID:zhizao-qianyan),作者:孟祥威
广告、内容合作请点这里:寻求合作
咨询·服务