后ChatGPT时代的自动驾驶算法竞争力构建
作者简介
Dr. Luo:东南大学工学博士,英国布里斯托大学博士后,是复睿微电子英国研发中心GRUK首席AI科学家,常驻英国剑桥。Dr. Luo长期从事科学研究和机器视觉先进产品开发,曾在某500强ICT企业担任机器视觉首席科学家。
图1 人脑fMRI信号的可视化案例(Takagi 2023)
ChatGPT和ADS对比
图2 ChatGPT与SOTA专项NLP/CV 类任务的差别总结(Kocon2023)
如图 2所示,ChatGPT与其它SOTA专项任务是有很大差别的,这里所说的专项任务,可以包括机器视觉和ADS的感知决策类的模型任务,具体差别可以体现在通用或者专用,是生成式还是可重复生产,是否可解释或者可交互等几个方面。
ChatGPT模型结合了监督学习和强化学习方法,采用了基于人类反馈的强化学习RLHF训练方法,与此同时也采用了迁移学习(或者叫自监督学习)的训练方法,即通过预训练方式加上人工监督进行调优(近端策略优化PPO算法)。RLHF训练方法确实可以控制输出的调节,对结果进行更有理解性的排序,这种激励反馈的提示机制,可以通过自我改进有效提升训练速度和性能。这些针对语言文本基础大模型LLM的学习和训练方法,能否引入来推动类似自动驾驶这种跨模态/多模态的视觉大模型LVM或者只是特定端到端的融合模型性能改进,通过打破多模态空间融合和多视觉任务学习的屏障,从而引起AI理论和应用的根本改变,推动人类进入通用人工智能AGI时代确切令人期待。
ADS:潜在空间的特征表达
人脑活动信号的可视化说明了大模型Stable Diffusion在潜在空间或者叫隐空间Latent Space的条件分布特征编码表达与人脑区域中特定组成部分即体素voxel活动有非常强的线性映射关系。ChatGPT也成功说明了语言/文本的语义空间特征能够和其它媒体内容(例如图片和音视频)甚至是其它形式的人机行为事件数据可以在一个潜在空间进行时空对齐,其优势是多任务的语义可解释性和与预测生成决策的通用性和可拆解性。自动驾驶ADS目前虽然没有一个通用的LVM大模型可用,但如何进行多模态输入的空间融合对齐和多任务学习依旧是一个重大难题,海量的2D、BEV或者3D空间下的数据标注,需要耗费全行业的海量人力物力财力,但数据的长尾效应和特征的维度诅咒依旧难以有效解决。
统一网格GRID空间和多模态融合表征
当前自动驾驶算法主要是针对Camera/LiDAR/Radar海量数据流进行特征提取,DL网络主流趋势是卷积CNN+Transformer的组合架构,在统一的BEV特征空间实现多模感知,特征融合共享以及多任务来提升算力的整体效率。多模态的互补融合有助于减少状态的不确定性从而使3D目标检测任务更加具有鲁棒性。显而易见,不同的模态对于目标属性的内容呈现有不同的侧重,但多模态融合需要解决的第一个问题是不同的数据采集/表征空间如何进行有效对齐问题,而BEV特征的对齐和深度融合就是一个非常好的实现思路,时空特征通过深度概率估计或者Transformer查询的方式来实现。
后ChatGPT时代,需要寻找一个类似的统一潜在空间的数据表达,推动ADS模型在BEV空间以目标为中心的流水线设计(3D目标检测跟踪和轨迹预测)继续向通用模型演进。这其中几个最主要局限性体现在:ADS是一个开放世界的交通场景,所有目标的形状和外形不能够完全进行有效定义,障碍物的长尾效应体现在严重遮挡场景下的呈现的类似目标被攻击后的错误识别;多类可变形的障碍物的特征难以有效表达;未知障碍物不可检测;BEV空间目标高度的语义模糊和导致的目标框定位误差大等等。而采用对3D环绕空间的任何一个mini小空间或者分割出的空间体素Voxel进行空间占用状态和语义信息进行有效特征表达会是下一代ADS算法的发力方向。
图3 ADS潜在空间的实现案例:BEV和3D网格空间(Shi 2023)
如图 3所示,ADS潜在空间的一个可行实现思路是采用统一的网格空间,这包括BEV和3D网格,这样完整的场景几何特征表达可以通过上述所用的显性映射或者类似神经辐射场NeRF的 隐性映射来实现。为了减少工程实现的复杂度,主流算法多采用将3D网格特征从上到下投影到水平面来构建BEV空间的紧凑表达,由于保留了目标时空位置和平均高度信息,某种意义上可以定义为2.5D特征空间。
后ChatGPT时代,大规模的预训练和自监督的视觉学习方法也纷纷应用到了ADS领域。从数据标注维度,3D特征的线性和隐性表达的一个主要区别是,有关数据标签问题,构建Voxel层级的网格GT标签也是非常费事的,而直接利用点云标签可以轻松实现部分自标签,通过自监督学习的方式可以对Voxel网格实现任意感知范围的多分辨率语义分割和场景重建。统一网格的潜在空间实现,比较充分的解决了3D目标检测的长尾效应,其实是在数据有限场景下模型对未知的障碍物的优势非常明显,但工程实现的难度增加也是毫无疑问的,但这类确定性的加速问题是完全可以用多任务学习、稀疏计算和逼近计算等方法来有效解决。这里更大的挑战还是来自于提供Label-Efficient Geometry Learning,来提供自监督的空间学习和任务相关的调优。
3D潜在空间的特征表达,即多分辨率场景语义理解所带来的行驶风险和不确定性描述,对安全决策来驱动感知的设计来说,可以比以目标为中心的的设计,提供更高分辨率的细节来有效避免碰撞的风险,尤其是行车附近和前行中的危险区域。3D体素的占用状态、表面语义和运动状态等信息本身也是一种固有的碰撞概率呈现,是对环境状态的一种天然表征,也易于实现基于采样的ADS运动规划。而潜在空间的Volumetric Flow表达(Shi 2023)可以将3D动态场景和静态环境进行联合建模,从而实现对ADS场景中未知类别的运动目标的一个更有效的表征。
关于复睿微电子
复睿微电子是世界500强企业复星集团出资设立的高新技术企业。复睿微电子植根于创新驱动的文化,通过技术创新改变人们的生活、工作、学习和娱乐方式。
公司成立于2022年1月,目标成为世界领先的智能出行时代的大算力方案提供商,致力于为汽车电子、人工智能、通用计算等领域提供以高性能芯片为基础的解决方案。
目前主要从事汽车智能座舱、ADS/ADAS芯片研发,以领先的芯片设计能力和人工智能算法,通过底层技术赋能,推动汽车产业的创新发展,提升人们的出行体验。在智能出行的时代,芯片是汽车的大脑。复星智能出行集团已经构建了完善的智能出行生态,复睿微是整个生态的通用大算力和人工智能大算力的基础平台。复睿微以提升客户体验为使命,在后摩尔定律时代持续通过先进封装、先进制程和解决方案提升算力,与合作伙伴共同面对汽车智能化的新时代。
参考文献:
【1】J. Kocon and etc., “ChatGPT: Jack of all trades, master of none”, https://arxiv.org/pdf/2302.10724.pdf
【2】Y. Takagi and etc., “High-resolution image reconstruction with Latent diffusion models from human brain activity”,
https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
【3】Y. Shi and etc., “Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review”,
https://arxiv.org/pdf/2303.01212.pdf