王飞跃的个人博客分享 http://blog.sciencenet.cn/u/王飞跃

博文

面向智能驾驶的平行视觉感知:基本概念、框架与应用 精选

已有 2506 次阅读 2021-3-3 08:49 |个人分类:论文交流|系统分类:论文交流

引用格式:李轩, 王飞跃, "面向智能驾驶的平行视觉感知:基本概念、框架与应用", 中国图象图形学报, 2021, Vol. 26, No.1, pp. 67-81. DOI: 10.11834/jig.200402

Citation:  Li X, Wang F Y, "Parallel visual perception for intelligent driving: basic concept, framework and application", Journal of Image and Graphics, 2021, Vol. 26, No.1, pp. 67-81. 


面向智能驾驶的平行视觉感知:基本概念、框架与应用


李轩, 王飞跃


摘 要:目的 视觉感知技术是智能车系统中的一项关键技术,但是在复杂挑战下如何有效提高视觉性能已经成为智能驾驶领域的重要研究内容。本文将人工社会(artificial societies)、计算实验(computational experiments)和平行执行(parallel execution)构成的ACP方法引入智能驾驶的视觉感知领域,提出了面向智能驾驶的平行视觉感知,解决了视觉模型合理训练和评估问题,有助于智能驾驶进一步走向实际应用。方法 平行视觉感知通过人工子系统组合来模拟实际驾驶场景,构建人工驾驶场景使之成为智能车视觉感知的“计算实验室”;借助计算实验两种操作模式完成视觉模型训练与评估;最后采用平行执行动态优化视觉模型,保障智能驾驶对复杂挑战的感知与理解长期有效。结果 实验表明,目标检测的训练阶段虚实混合数据最高精度可达60.9%,比单纯用KPC(包括:KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute),PASCAL VOC(pattern analysis,statistical modelling and computational learning visual object classes)和MS COCO(Microsoft common objects in context))数据和虚拟数据分别高出17.9%和5.3%;在评估阶段相较于基准数据,常规任务(-30°且垂直移动)平均精度下降11.3%,环境任务(雾天)平均精度下降21.0%,困难任务(所有挑战)平均精度下降33.7%。结论 本文为智能驾驶设计和实施了在实际驾驶场景难以甚至无法进行的视觉计算实验,对复杂视觉挑战进行分析和评估,具备加强智能车在行驶过程中感知和理解周围场景的意义。


关键词:智能驾驶, 平行智能, 虚拟图像, 合成图像, 目标检测


Parallel visual perception for intelligent driving: basic concept, framework and application


Li Xuan,Wang Feiyue


Abstract: Objective As a promising solution to traffic congestion and accidents, intelligent vehicles are receiving increasing attention. Efficient visual perception technology can meet the safety, comfortable, and convenience requirements of intelligent vehicles. Therefore, visual perception is a key technology in intelligent vehicle systems. Intelligent driving focuses on improving visual performance under complex tasks. However, the complex imaging conditions bring significant challenges to visual perception research. As we know, vision models rely on diverse datasets to ensure performance. Unfortunately, obtaining annotations by hand is cumbersome, labor intensive, and error prone. Moreover, the cost of data collection and annotation is high. As a result of the limitation of model design and data diversity, general visual tasks still face problems such as weather and illumination changes, and occlusions. A critical question arises naturally: How could we ensure that an intelligent vehicle is able to drive safely in complex and challenging traffic? In this paper, the artificial systems, computational experiments, and parallel execution (ACP) method is introduced into the field of visual perception. We propose parallel visual perception for intelligent driving. The purpose of this paper is to solve the problem of reasonable training and evaluation of the vision model of intelligent driving, which is helpful for the further application of intelligent vehicles. Method Parallel visual perception consists of three parts: artificial driving scene, computational experiments, and parallel execution. Specifically, artificial driving scene is a scene defined by software, which is completed by modern 3D model software, computer graphics, and virtual reality. Artificial driving scene modeling adopts the combination of artificial subsystems, which is helpful for intelligent driving to perceive and understand the experiment of complex conditions. In the artificial scene, we use computer graphics to automatically generate accurate ground-truth labels, including semantic/instance segmentation, object bounding box, object tracking, optical flow, and depth. According to the imaging conditions, we design 19 challenging tasks divided into normal, environmental, and difficult tasks. The reliability of the vision model requires repeatable computational experiments to obtain the optimal solution. Two models of computational experiments are used, namely, learning and training, and experiment and evaluation. In the training stage, the artificial driving scene provides a large variety of virtual images, which, combined with the real images, can improve the performance of the vision model. Therefore, the experiment can be conducted in an artificial driving scene at a low cost and with high efficiency. In the evaluation stage, complex imaging conditions (weather, illumination, and occlusion) in an artificial driving scene can be used to comprehensively evaluate the performance of the vision model. The vision algorithm can be specially tested, which is helpful to improve the visual perception performance of intelligent driving. The parallel execution in artificial and real driving scenes can ensure dynamic and long-term vision model training and evaluation. Through the virtual and real interaction method, the experimental results of the vision model in the artificial driving scene can become a possible result of the real system. Result This paper presents a systematic method to design driving scene tasks and generate virtual datasets for vehicle intelligence testing research. Currently, the virtual dataset consists of 39 010 frames (virtual training data with 27 970 frames, normal tasks with 5 520 frames, environmental tasks with 2 760 frames, and difficult tasks with 2 760 frames) taken from our constructed artificial scenes. In addition, we conduct a series of comparative experiments for visual object detection. In the training stage, the experimental results show that the training data with large scale and diversity can greatly improve the performance of object detection. In addition, the data augmentation method can significantly improve the accuracy of the vision models. For instance, the highest accuracy of the mixed training sets is 60.9%, and that of KPC(KITTI(Karlsruhe Institute of Technology and Toyta Technological Institute), PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes), MS COCO(Microsoft common objects in context)) and pure virtual data decreased by 17.9% and 5.3%, respectively. In the evaluation stage, compared with the baseline model, the average accuracy of normal tasks (-30° and up-down) decreased by 11.3%, environmental tasks (fog) by 21.0%, and difficult tasks (all challenges) by 33.7%. Experimental results suggest that 1) object detectors are slightly disturbed under different camera angles and are more challenged when the height and angle of the camera are changed simultaneously. The vision model of intelligent vehicle is prone to overfitting, which is why object detection can be performed under limited conditions only; 2) the vision model cannot obtain the features of different environments from the training data. Therefore, bad weather (e.g., fog and rain) causes a stronger degradation of performance than normal tasks; and 3) the performance of object detection will be greatly influenced in difficult tasks, which is mainly caused by the poor generalization performance of the vision model. Conclusion In this study, we use computer graphics, virtual reality technology, and machine learning theory to build artificial driving scenes and generate a realistic and challenging virtual driving dataset. On this basis, we conduct visual perception experiments under complex imaging conditions. The vision models of intelligent vehicle are effectively trained and evaluated in artificial and real driving scenes. In the future, we plan to add more visual challenges to the artificial driving scene.


Keywords: intelligent driving, parallel intelligence, virtual image, synthetic image, object detection


0  引言 


早在20世纪70年代,麻省理工学院教授马尔(David Marr)等提出视觉计算理论框架(Marr,1976),该理论对计算机视觉的研究产生了巨大影响。马尔认为视觉是一个多级的、自下而上的分析过程,核心问题是从图像结构推导出外部世界结构,最后达到对外部现实世界的认识。经过多年发展,计算机视觉呈现出不同领域的新发展趋势,特别在自动驾驶、智能安防、机器人、智慧医疗、无人机和增强现实等方向都出现了各种形态的视觉计算应用。智能车(intelligent vehicle, IV)作为解决交通拥堵和交通事故的一种有效解决方案,引起了许多研究者的兴趣和关注。智能车是集合环境感知、规划与决策、控制与执行等功能于一体的综合智能系统,其依靠计算机、现代通讯传感、信息融合、人工智能及自动控制等技术,在复杂交通系统中完成精准感知、快速决策和稳定控制等任务。在业界,智能车的视觉感知技术由于其广泛的应用前景,其对应的研发工作成为全球学术热点。


智能驾驶能够带来更加安全、舒适、高效和稳定的驾驶体验,而智能车视觉感知技术是影响驾驶安全的主要因素。该技术运用车载传感系统(激光雷达、摄像头和毫米波雷达)获取车辆行驶中的详细环境信息数据,通过信息处理终端将数据转换成现实世界的全面视图,使车辆具备完整的环境感知能力。同时模型自动分析车辆行驶状态,给驾驶员提供可靠的车辆周围环境信息。尽管传感设备能够获取大量原始图像,然而视觉模型的学习特性使其在设计、训练和评估时对大规模标记数据有极大需求。深度学习之前模型设计通常先要投入精力来研究手动图像特征提取方法,随后利用机器学习方法将标记数据开发模式分类器(例如DPM(deformable parts model)检测器(Felzenszwalb等,2010)),以获取较好的视觉精度。基于深度学习的视觉模型不仅能为智能车提供最优性能,而且能将任务范围从平面2维扩展到空间3维。深度学习的视觉模型依靠多层结构自动拟合不同特征:视觉几何群网络(visual geometry group network,VGG-16)(Simonyan和Zisserman,2014)和残差网络(residual network,ResNet)(He等,2016),强大的拟合能力是通过海量标记数据学习得来,即图像数据提供的特征空间来满足神经元参数需求。既然视觉模型拥有了自动提取特征的能力,是否意味着智能驾驶在复杂环境条件下也能够很好地感知和理解周围信息。实际上在视觉模型确定的情况下,一个关键性问题出现:标记数据多样性将决定智能车在实际复杂环境下的可靠性。例如:训练数据是否包含变化的采集角度、背景环境、光照条件和目标遮挡等。但是由于数据匮乏问题,许多视觉模型仅在简单约束条件下有效,难以在复杂条件下得到充分的训练和评估。因此实际驾驶过程中遇到多层次的复杂成像条件引起图像中目标和细节不清晰时,智能驾驶对周围环境感知和理解性能得不到保证。


从视觉模型设计、训练和评估以及实际智能驾驶过程中,可以发现数据起到至关重要的作用。然而传统智能驾驶的视觉感知系统在采集和标注大规模多样性数据集有许多实际困难。例如:手工标注获取数据需要耗费大量人力和物力并且精度难以保证,面对遮挡、天气变换和光照变换等情况造成的图像细节模糊,进一步增加了获取数据的难度。因此,传统视觉感知系统方法难以满足智能驾驶面对突发事件、特殊挑战和紧急状况时复杂视觉感知系统的内在需求。王飞跃研究员(王飞跃, 2004, 2013;Wang,2010)提出基于ACP方法的平行系统理论,该方法将人工社会(artificial societies)、计算实验(computational experiments)和平行执行(parallel execution)有效结合,以大数据、知识自动化、物联网、机器学习等技术为支撑,建立与实际系统等价的人工系统,从而构成“双闭环”的平行控制和管理系统,为处理复杂系统建模、计算、评估和管理提供有效途径。ACP方法在应用中逐渐发展为平行智能体系,呈现出平行车联网(王晓等,2018)、平行视觉(王坤峰等,2016)、平行学习(李力等,2017)和平行数据(刘昕等,2017)等理论与相应方法,广泛应用于智能交通(Wang,2015)、无人驾驶(Li等,2019b, c)、人工智能(李力等,2017)和机器人(白天翔等,2017)等领域。


本文针对复杂条件下智能驾驶视觉感知问题,将平行智能原创性研究范式引入智能车视觉领域,提出了平行视觉感知。具体来说,构建人工驾驶场景用于模拟和替代复杂挑战的实际场景,可以获取大规模多样性虚拟数据;通过精心设计的计算实验对智能车视觉模型进行训练与评估;最后采用虚实互动的平行执行,可以保障视觉模型动态和长期优化过程。


1 相关研究


从1994年起,IEEE Virtual Reality (VR)国际会议连续举办26年,旨在推动计算机图形学(computer graphics,CG)和虚拟现实技术(virtual reality,VR)发展。Subrahmanian和Dickerson(2009)以及Bainbridge(2007)相继在Science上发表论文,研究使用虚拟世界作为复杂社会空间的模拟,为研究者提供一个计算机视觉、军事学、行为学和电影学等研究新环境。迪士尼公司2019年翻拍了经典电影《狮子王》,该部影片是第一部以实景美学指导布置利用虚拟现实拍摄的关键帧动画电影,标志着计算机图形学、虚拟现实技术和视觉应用成功结合。


虚拟世界已经成为支持计算机视觉研究快速发展的方向。Peng等人(2015)针对真实训练图像新种类目标不足的情况,采用网络众包CAD(computer aided design)模型完成了深度卷积神经网络检测器的训练。Rozantsev等人(2015)使用3D模型,采用参数设置方法获取任意数量且姿态不同的目标图像,由于虚拟图像渲染效果与真实图像在检测特征空间相似,可用于有限训练图像下提高分类性能。Zhang等人(2017)使用OpenGL创建室内虚拟场景,通过调节不同的照明条件、渲染方法和摄像头设置来评估室内场景理解任务(法线估计、目标分割和目标边缘预测)受到上述变化的性能影响。上述研究完成了通用人工场景构建的视觉感知研究,一方面启发式地为智能车视觉感知研究进行了探索,另一方面为人工驾驶场景建模给出了建议。


智能驾驶的视觉感知利用人工驾驶场景提供多样性数据完成视觉算法训练,虚拟摄像头是智能车主要传感设备,通过图形渲染获取虚拟图像,从而完成对应视觉任务研究。Stark等人(2010)使用形状模型从3D车辆图像学习并用于目标分类任务。该实验表明良好的局部形状和空间布局模型使虚拟摄像头获取的图像可以有效提升视觉性能。Movshovitz-Attias等人(2016)采用数据增强和高精度渲染方法生成虚拟图像数据“RenderCar”和人工驾驶场景“RenderScene”。图像渲染阶段考虑了光源位置、强度和色温、摄像机光圈、快门速度和镜头渐晕效果等。实验在虚拟图像数据Render-Car、RenderScene和真实数据PASCAL3D+(pattern analysis,statistical modelling and computational learning visual object classes)、CMU-Car(Carnegie Mellon University-Car)进行训练,结果表明精细图像渲染可以有效减少数据偏差。


上述研究在图形渲染基础上完成了虚拟图像生成,然而没有更多考虑人工驾驶场景和背景的多样性。Hattori等人(2015)使用3DS Max(3D Studio Max)对已知的场景几何信息和摄像机参数设计了特定场景的行人运动轨迹,获取虚拟训练数据,方便模型得到场景提供的平面和3维定位信息。Zhang等人(2018)基于Unreal Engine 4游戏引擎开发了虚拟数据生成工具“UnrealStereo”,用于测试和分析4种驾驶危险区域(反光区域、无纹理区域、透明区域和视觉跳跃区域)对双目视觉匹配算法的影响。Ros等人(2016)利用Unity3D游戏引擎构建了一个大型虚拟城市,并收集了虚拟数据集“SYNTHIA” (synthetic collection of imagery and annotations),目的是解决自动驾驶中图像语义分割问题。在虚拟城市中使用多个车载摄像头从不同方位获取数据,同时渲染四季和天气变化等,所获得语义标注的虚拟图像可以有效用于模型训练。Gaidon等人(2016)使用克隆模式在Unity3D游戏引擎上采用半自动方法生成虚拟“KITTI”数据集。该数据共包含5个视频序列,自动生成6种标注信息:目标检测、跟踪、语义、实例分割、光流和深度信息等。虚拟“KITTI” (Karlsruhe Institute of Technology and Toyota Technological Institute)世界中感兴趣的物体位置都是参照真实场景设置,为了增加数据多样性还可以改变车辆的数量、轨迹和速度以及不同成像条件(摄像机位置和角度,光源和天气等),如图 1所示。尽管人工驾驶场景建模是以克隆模式实现,但是真实和虚拟图像数据存在领域迁移问题。


1.png

图 1 虚拟 KITTI 数据集

 Fig. 1 Virtual KITTI dataset

((a) imaging conditions: camera horizontally rotated to the left;(b) imaging conditions: rain)


为了降低不同领域数据之间的差异,需要人工驾驶场景具备足够真实性和多样性。Tsirikoglou等人(2017)使用程序世界建模方法,在综合考虑了场景组成、几何结构、光源信息、材质属性和光学效果后,结合物理光学模拟方法构建了像素级语义分割虚拟数据。该数据保留了低维特征和高维多样性,通过与SYNTHIA和GTA(grand theft auto)数据实验对比,语义分割能达到性能最优。Jaipuria等人(2020)研究数据集的长尾分布不因数据量级扩大而容易获取。定义F(u)为重尾分布,其分布函数可以表示为


image.png


式中,a,β≥0,a(0<a<2) 为形状参数,决定分布函数拖尾的严重程度,β为位置参数。在一个累积分布函数中,随机变量X的分布状况,在式(2)状况时被称为是一个重尾分布。这是一个动差生成函数Pr,通常对于数据集的数量来说是无穷


image.png


该作者针对特定任务(停车位检测、车道线检测、单目深度估计)采用多种方式(例如:Unreal Engine游戏引擎增加特定噪声获取虚拟图像、生成式模型获取合成图像)增强人工图像多样性,以减小数据之间的偏差分布。实验结果表明虚实混合数据(一定比例)能达到性能最优。Tremblay等人(2018)使用领域随机化方法(domain randomization)弥补了虚拟图像与实际图像之间领域关系的差异。具体来说,通过随机改变人工驾驶场景的成像条件来获取多样性的虚拟图像(如各异背景,车辆数目和类型,干扰目标不同数目、类别、颜色和尺寸,摄像机位置,光源数量和位置等)。实验结果表明领域随机化方法可以提供大量标注数据,并且其检测效果与精细制作的虚拟KITTI数据类似。Prakash等人(2019)受到领域随机化思想的启发,考虑场景的结构和背景信息提出了结构领域随机化方法(structured domain randomization)。该方法根据特定任务概率分布(全局参数、环境样条和物体定位)设置物体和干扰项的位置信息,有助于智能车检测模型获取整体场景信息。如图 2所示,比较了虚拟KITTI、领域随机方法和结构领域随机方法生成的虚拟数据集特点。


2.png

图 2 不同虚拟数据集特点 

Fig. 2 Different characteristic of virtual datasets

((a) virtual KITTI produces realistic images;(b) domain randomization intentionally avoids photorealism for variety;(c)structured domain randomization strikes a balance between these two extremes)


相对于传统方法,人工驾驶场景可以轻易获得大规模和精确注释的虚拟图像。但是精细化模型设计和场景构建需要耗费精力,一种可行的方法是使用商业赛车游戏来替代。Johnson-Roberson等人(2017)和Richter等(2016, 2017)使用GTA V(游戏:侠盗飞车5)获取了大量虚拟数据,如图 3所示。游戏场景可用来获取多样性标注数据(目标检测和跟踪、语义和实例分割、光流和深度等)。商业赛车游戏提供了超现实的虚拟数据,在对应视觉任务中进行实验取得优异结果。一种更重要的方法是使用机器学习算法将人工驾驶场景建模过程转化为模型学习和推理问题,即采用软件定义的算法(图像风格迁移和生成式模型)获取虚拟图像,该方法不仅简化了建模过程也增加了人工图像的多样性。图像风格迁移的实现方法主要有两种:基于手工特征和基于卷积神经网络的迁移方法。其中,基于手工特征的图像风格迁移方法又可以细分为:笔触渲染(Hertzmann,1998)、区块渲染(Kolliopoulos,2005)、实例渲染(Hertzmann等,2001)和图像滤波(Winnemöller等,2006)等方法。这些方法针对特定任务进行相应风格迁移,但通常都受限于灵活性、风格多样性和图像结构信息的有效性。随后,Gatys等人(2016)提出基于卷积神经网络(convolutional neural networks,CNN)的风格迁移方法,通过重建VGG-19网络中间层的特征可以从任意图像提取内容信息,该方法定义了两个损失函数:内容损失Lc和风格损失Ls,最终的损失函数是两者的加权和Lt


image.png


3.png

图 3 GTA 游戏中不同图像的视觉任务 

Fig. 3 Visual tasks for different images in GTA games

 ((a) input video frame;(b) semantic segmentation; (c) optical flow;(d) visual odometry)


式中,x、p、a分别代表原始图像、生成图像和风格图像。α和β是风格和内容重建权重因子,ωl是不同特征层对损失函数的权重,F、P、E分别代表滤波器激活值、特征矩阵和总损失函数贡献。可以实现从任意风格图像中提取风格信息,减小内容和目标图像高层特征的差异来重建内容信息,通过减小风格图像和目标图像格拉姆矩阵(Gram matrix)统计特征的差异来重建风格信息。


生成式模型进行图像转换获取合成图像的实现方法也分为两种(无监督和有监督)。Zhu等人(2017)提出无监督通用图像转换方法CycleGAN,可用于解决风格迁移、目标变形和季节转换等任务,强调循环一致损失函数来完成不同数据领域之间的映射约束。Liu等人(2017)基于联合分布有无限多种可能性,提出了UNIT网络(unsupervised image-to-image translation networks),根据“共享潜在空间”的假定成功地将任意随机图像在不同领域之间进行转换。通过与其他类似模型相比较,UNIT网络在驾驶场景图像合成任务中均给出了高质量的结果,如图 4所示。原始生成式模型及其相关变体不能有效地控制生成数据模式,在生成器和判别器中引入条件变量来监督数据生成过程,可以成功地生成指定类别的图像。Isola等人(2017)提出了一种监督的成对图像合成方法(pix2pix),该方法研究条件对抗性网络作为图像合成问题通用解决方案。实验发现条件对抗网络能够很好地解决涉及高结构化的图形输出问题(驾驶场景、卫星图像等)。Wang等人(2018)设计多尺度生成器和判别器结构以及新颖的对抗损失函数来合成高分辨率(2 048×1 024像素)图像。这项研究结果表明,条件生成式对抗网络在不采用预训练网络和人工损失函数的情况下可以合成高分辨率图像。


4.png

图 4 人工驾驶场景的图像转换结果 

Fig. 4 Artificial driving scene image translation results 

((a) input images;(b) translated images; (c) input images;(d) translated images)


本文调研获取的虚拟图像均包含自动标注信息,从生成方式可以分为人工驾驶场景中使用计算机图形学渲染方式获取以及采用机器学习方法生成的虚拟图像。但是由机器学习算法直接获取的虚拟图像本身不包含标注信息,因此通常与渲染方式获取的虚拟图像结合。即图形渲染虚拟图像提供注释信息,机器学习算法丰富虚拟图像多样性、简化图像获取流程。Kar等人(2019)提出了Meta-Sim方法,学习与目标任务相关的标记数据集。作者利用生成式模型对数据生成进行参数化,能够从目标场景内容分布概率中获得场景结构图属性,以减小虚拟图像和目标图像内容分布之间的差异。为了进一步验证该想法,将虚拟图像采用先进的MUNIT(multimodel unsupervised image-to-image translation)图像转换网络来缩小与真实图像视觉差距。实验结果说明该方法可以提升内容生成质量,逼真的合成图像比虚拟图像能更多提升检测性能。


智能车在2维图像中的视觉感知任务研究已经十分成熟,在此基础上提出了3维视觉任务,可以给出更多感知目标的信息(例如:位置和尺寸)。Manhardt等人(2019)提出了端到端的3维目标检测模型,新颖损失函数可以有效度量3维检测的空间性,同时采用3D模型叠加于真实背景之上,自动生成3D包围框信息。这种图像增强方法对改善3维目标检测和姿态估计有重要帮助。在3维空间中,智能驾驶更多依靠激光雷达传感器得到精确的3维立体图像,可以实现高精度自定位、物体识别跟踪和距离信息。然而,昂贵造价使得激光雷达难以广泛应用。Yue等人(2018)提出从人工驾驶场景中生成虚拟激光雷达数据的框架,并给出一种自动标定点云分割和场景图像方法。该框架支持驾驶场景和用户自定义场景采集数据,其中驾驶场景数据有效提高点云分割结果精度,用户自定义场景数据可以系统评估基于神经网络的视觉感知模型设计弱点。百度公司的Li等人(2019a)和Fang等人(2020)开发了用于视觉感知学习的增强驾驶场景模拟系统。该系统通过模拟交通流来增强真实场景信息,从而创建逼真虚拟图像。具体来说,使用摄像机和激光雷达获得原始RGB图像、激光点云和深度图,根据统计学规律引入虚拟模型生成对应的汽车和行人交通流,通过复杂数据处理(动态物体消除、光照模拟和纹理增强等)将其合成到真实背景中。最后,生成动态物体图像和点云数据,标记信息通过机器学习模型和仿真软件自动实现。


综上所述,传统视觉感知方法难以满足智能驾驶对图像数据的重要内在需求(规模和质量),尤其在复杂驾驶挑战中,智能车的视觉感知模型设计、训练和评估面临着难以进行的局面。近年来随着人工驾驶场景、图形渲染技术和机器学习算法的进步,虚拟图像可以部分代替实际图像,这对智能驾驶的视觉感知研究起到较大推动作用。然而相关研究尚处于初级阶段,许多研究工作缺乏统一性,不能充分发挥其实际价值。因此,本文提出面向智能驾驶的平行视觉感知研究,将上述工作纳入统一的理论框架中。在先进理论和方法指导下,进一步促进相关研究领域的良性发展。


2 基于ACP方法的平行视觉感知基本框架


平行系统ACP方法是一种解决复杂系统的建模、分析、控制与综合问题的科学研究与实践方法。该理论和方法的关键是根据实际系统来建立与之对应软件定义的人工系统,采用模块方法在人工系统中进行科学计算与评估,最终实现人工系统和实际系统的循环虚实互动,为复杂系统的管理和控制提供可靠保障。本文提出的平行视觉感知框架是在现有智能车视觉感知技术基础上,引入先进的ACP方法, 目标是采用功能模块(感知与理解、实验与评估、学习与训练)解决智能驾驶在复杂成像条件的感知与理解难题。平行视觉感知关键技术除了本身软件定义的系统,还包括平行视觉、平行学习、平行驾驶和平行测试等具体方法。该框架的提出为解决智能车所处复杂成像系统的建模、感知、预测和规划等方面的问题提供了更高效的研究思路。图 5展示了面向智能驾驶的平行视觉感知基本框架。总的来说,该基本框架由“ACP三步曲”组成。


5.png

图 5 平行视觉感知的基本框架

Fig. 5 Basic framework for parallel visual perception


2.1 平行视觉感知实现基础——人工驾驶场景


面向智能驾驶的人工驾驶场景实质上是利用现代3维模型软件、计算机图形学、虚拟现实技术和机器学习等理论和方法,针对复杂交通路况的各类元素和挑战,构建软件定义的场景(software-defined scenes, SDS)。具体来说,采用人工子系统的组合方式为人工驾驶场景建模,使之成为智能车的视觉感知“计算实验室”,有助于智能车对复杂路况感知和理解实验。本文以自底向上的多智能体方法完成场景建模,至少包含7类智能体对象:人工传感器、人工道路、人工车辆、人工建筑、人工天气、人工时间和人工光照等,最终构成人工驾驶场景。实际过程中将驾驶场景和成像条件作为两类特殊智能体进行独立建模,如图 6所示。


6.png

图 6 人工驾驶场景子系统组成

Fig. 6 Composition of artificial driving scene subsystem


1) 驾驶场景建模。人工驾驶场景构建一方面解决了实际驾驶场景规模的局限,另一方面可以模拟不同传感器数据并进行精确标注。首先驾驶场景建模需要考虑前景目标物体和背景获取,可选方案是利用人工道路、人工车辆和人工建筑进行混合建模设计;其次是整体配置场景内结构和语境,根据目标问题解决视觉感知场景上下文信息;最后为场景中设置人工传感器(摄像头、激光雷达等),生成对应虚拟图像序列并且自动生成标注信息,包括目标检测、跟踪、目标姿态、运动轨迹、图像语义分割、深度、光流等信息。驾驶场景中每类智能体将遵循实际物理交互、组织和协同规则。


2) 成像条件建模。人工驾驶场景可以提供大规模标注数据,同时驾驶过程中复杂环境对智能车视觉感知研究也极为重要。成像条件建模在虚拟图像生成过程中设定各种物理模型和参数,来“定制”生成条件。一方面借助仿真软件中的虚拟环境为场景设定不同成像条件(光照、时间和天气),另一方面使用机器学习算法获得对应合成图像,进一步丰富成像条件多样性和逼真性。采用上述两类方法为驾驶场景定制人工天气、人工时间和人工季节,这样既保留了原始标注信息,也可以从复杂成像条件“可重复性”满足视觉算法设计和评估要求。


此外,人工驾驶场景在建模过程中充分考虑实际性、完备性和交互性。相对于实际驾驶场景,定制化的成像条件可以丰富图像多样性和逼真性。同时,人工子系统和世界信息可以准确获取模型的位置、种类和材质等状态信息,因此无论成像条件如何改变,图像细节多么恶劣、模糊,都能自动得到详细且精确标注信息。


2.2 平行视觉感知实现核心——计算实验


计算实验将使用人工驾驶场景这一信息化和数字化的“计算实验室”,动态设计人工子系统的组合与规则,根据特定学习目标来实例化一个或者多个人工驾驶场景,并在场景中生成复杂成像条件,使得智能车能够在计算实验中完成视觉感知学习和评估。若要视觉系统真正有效,通过人工驾驶场景中大量、可重复的计算实验来获得最优化解决方案。此外,人工驾驶场景对视觉算法实施难以完成的各类“压力”、“极限”实验,实际驾驶场景与人工驾驶场景的平行互动与协同演化,据此引导智能驾驶在实际系统实时、自适应的感知与理解。


计算实验有两种操作模式:学习与训练、实验与评估。平行视觉感知中分别指对智能车视觉算法进行训练和评估。在训练阶段无论是传统统计学习还是基于深度学习的模型,监督学习模式中训练数据发挥着关键作用,即数据通过标签指定模型学习目标特征。尤其对于深度学习视觉算法,数据增多意味着性能会随之变好。人工驾驶场景能提供大规模多样性虚拟图像,结合实际图像能够提高视觉算法性能。训练方式包括3种:1)使用虚拟图像进行单独训练,要求人工驾驶场景有足够多样性和真实性;2)可采用虚拟图像预训练、实际图像微调模型的方式;3)虚拟图像和实际图像混合训练,根据特定比例探究最优化训练模式。在评估阶段,人工驾驶场景和复杂成像条件(位置、天气和光照等)相结合的方式,综合评价视觉算法性能。在人工系统进行计算实验,扩展了实验的广度和深度。根据算法在特定任务下的虚拟图像测试表现,实现高效率和低成本的视觉模型分析和评估,有助于以“实际逼近人工”的方式引导实际系统和视觉模型发展和演变。


综上所述,将计算实验从实际驾驶场景发展到人工驾驶场景,采用最先进的信息化和数字化方法来完备视觉模型实验。在学习阶段,人工驾驶场景提供精确标注信息使得原本需要付出巨大人力代价的实验得以高效进行;在评估阶段,面向具体任务、场景和应用,视觉算法可以进行专项测试,有助于全面提高和测试智能驾驶的视觉感知性能。


2.3 平行视觉感知实现关键——平行执行


当智能车在人工驾驶场景和实际驾驶场景中平行执行,可以保障视觉模型训练和评估动态化、长期化。平行视觉感知是根据实际系统来建立与之对应的软件定义的人工系统,并在人工系统中进行科学计算与评估。由于实际驾驶场景存在变化性和动态性,视觉感知模型单次实验很难满足所有需求,而在人工驾驶场景中可完成大量可观察、可控制和可重复计算实验。通过虚实互动方式,人工驾驶场景中的视觉模型实验结果可成为实际系统运行状态的一种可能结果。在实时运行过程中不断调节和改善,即将虚实互动和人机混合常态化,以平行执行的方式持续优化视觉系统,在复杂环境下进行有效的驾驶与感知。图 7展现了平行视觉感知的虚实互动和平行执行。


7.png

图 7 平行视觉感知的虚实互动和平行执行

Fig. 7 Virtual interaction and parallel execution between parallel visual perception


此外,平行执行将在人工驾驶场景和实际驾驶场景之间完成重复、配置、计算和引导的循环虚实互动,为实际视觉系统长期的感知与理解提供可靠保障。实际驾驶场景中各种参数(传感器、成像条件)是不断进步和变化的,因此人工驾驶场景在系统信息同化情况下,使其修正成为“等价”的实际系统。在实现虚实系统协同演化过程中,人工驾驶场景可预先配置比实际系统更为复杂困难的挑战,充分给予智能车视觉模型所需提前量。最后通过视觉模型在虚实系统计算实验,有针对性地完成面向特定任务的训练和评估,一方面提高现阶段智能车处理主要感知矛盾的能力,另一方面根据人工驾驶场景先进性为未来可能出现的复杂挑战做好应对措施,给实际驾驶场景提供先进理论建议。


综上,面向智能驾驶的平行视觉感知基本思想如下:运用计算机图形学、虚拟现实、知识自动化和机器学习等技术,通过人工子系统完成人工驾驶场景建模,获取大规模多样性标注虚拟图像;在智能驾驶的复杂环境因素驱动下,采用虚实数据结合的方式完成智能车视觉感知计算实验,增强感知模型训练和评估效果;在实际驾驶场景和人工驾驶场景动态交互过程中,完成视觉模型的平行执行,使得虚实驾驶场景和视觉模型在动态过程中持续进化和升级。该方法建立了面向智能驾驶的平行视觉感知方法体系,其中人工驾驶场景是基础,计算实验是核心,平行执行是关键。


3 智能驾驶的平行视觉感知典型应用


3.1 面向智能驾驶的人工驾驶场景建模


为了解决实际驾驶图像多样性不足和标注困难等问题,重点是构建软件定义的人工驾驶场景。以中国智能车未来挑战赛(Intelligent Vehicle Future Challenge,IVFC)的智能车测试场地和北京中关村地区为原型进行多智能体对象的人工驾驶场景建模。通过前期现场调研、视频等方式采集相关数据,使用3维建模工具包括3DS Max、CityEngine以及开源模型资源包,其目的是提高建模精度和速度,采用领域随机化方法增强视觉数据多样性,做到高效逼真地完成建模过程。在人工子系统中将实际测试道路信息转换为人工道路,并添加人工模型(包括建筑、隧道、树木、路灯和交通标志等)和人工车辆(小汽车、公交车和卡车)。此外,使用人工传感器为复杂交通图像自动生成精确、多标注视觉信息数据图像,自动标注方法具有提供大量实用数据的潜力,详细标注包括:目标检测和跟踪、语义和实例分割、深度信息和光流等,如图 8所示。


8.png

图 8 虚拟图像标注信息的示例

Fig. 8 Examples of virtual image ground-truth annotations ((a)object detection; (b)object tracking; (c)instance segmentation; (d)semantic segmentation; (e)depth; (f)optical flow)


人工驾驶场景具有灵活设置成像条件的潜力,使得定量分析不同视觉挑战对算法性能的影响成为可能。借助仿真软件中的虚拟环境为场景设定不同成像条件,具体来说可以改变的成像条件包括(但不限于):1)摄像头的位置(角度和高度);2)天气条件和照明条件;3)目标物体的状态(运动轨迹、数量、速度等)。计算实验研究关注智能驾驶过程中可能发生的极端驾驶条件,对智能车视觉算法性能的干扰,因此将成像条件细分为3类主要任务:常规任务、环境任务和困难任务。为了增加测试任务的挑战性和多样性,常规任务和环境任务在同一个测试地点设计,而困难任务在另一个测试地点设计。常规任务旨在调查智能车辆视觉感知区域的能力;环境任务研究智能车辆在不同天气和光照条件下受到的影响;困难任务设计研究智能车辆检测遮挡目标的能力。在人工驾驶场景中收集了智能驾驶虚拟图像集。当前,该数据集包括16类测试任务,共由39 010帧图像组成(智能车测试场地包括虚拟训练数据3 650帧,常规任务5 520帧,环境任务2 760帧,困难任务2 760帧;北京中关村地区包括虚拟训练数据24 320帧)。智能车虚拟图像集的优势体现在以下3个方面:


1) 与现有的实际数据集相比,虚拟图像能够自动有效产生不同的环境条件和生成精确的标注信息;


2) 与现有的虚拟数据集相比,智能驾驶虚拟图像集提供了更多样性的关于智能驾驶场景的测试挑战;


3) 在人工驾驶场景中,系统可以灵活地模拟有威胁事件和挑战,视觉算法也很容易进行测试。


3.2 视觉感知计算实验


人工驾驶场景中进行视觉智能计算实验,是使用智能车虚拟图像集结合实际图像完成对应自动驾驶任务。计算实验包含两个阶段,即训练阶段和评估阶段。训练阶段在于提高视觉算法性能;评估阶段综合评判视觉算法在复杂成像条件下的性能。实验挑选经典目标检测模型Faster R-CNN(Ren等,2017),该模型采用了两阶段方法(区域候选+分类回归),使得精度相对于传统方法大幅度提高;语义分割模型:全卷积网络(fully convolutional networks,FCN)(Long等,2015),网络定义跳跃式架构结合深层语义和浅层表征信息来生成精细的分割效果。


接下来对实验进行细节说明,目标检测实际数据由PASCAL VOC(pattern analysis, statistical mode-lling and computational learning visual object classes) (Everingham等,2010)、KITTI(Karlsruhe Institute of Technology and Toyta Technological Institute)(Geiger等,2013)和MS COCO(Microsoft common objects in context) (Lin等,2014)混合组成,命名为“KPC”;语义分割实际数据包括CityScapes和CamVid,计算实验以3 :1的比例分为训练集和测试集。智能车测试场地虚拟图像集如图 9所示,常规任务包括:晴天、-15°(表示维持摄像头在固定角度)、+15°、-30°、+30°、-15°且垂直移动、+15°且垂直移动、-30°且垂直移动和+30°且垂直移动(垂直移动表示维持摄像头在某一固定角度,并连续不断地改变摄像头的高度);环境任务包括:不同光照(晴天、傍晚)和天气(雨天、雾天和积水)的效果;困难任务包括:晴天、围墙、路障、交通流和所有挑战;虚拟训练数据:晴天、+15°、-15°、+30°和-30°。


9.png

图 9 虚拟图像任务的多样性

Fig. 9 Illustration of the diversity of all tasks((a)normal tasks; (b)environmental tasks; (c)difficult tasks)


1) 目标检测实验训练阶段。人工驾驶场景给出的智能车虚拟图像集,作为实际场景数据补充,可用于共同训练视觉模型。接下来实验将分别使用:虚拟集(晴天)、虚拟集(所有)、KPC、KPC+虚拟集(所有)等混合数据进行模型训练,用来说明训练数据对算法性能的影响。上述视觉模型都将在常规任务中进行测试,实验定量结果如表 1所示,结果说明当训练数据具有较强多样性时,特别是虚实混合数据(结合实际数据和虚拟数据)可以较大提高目标检测准确性。同时,采用数据增强的方法也能够提高视觉算法精度(将晴天结果与所有虚拟数据结果进行比较)。


表 1 目标检测视觉模型训练阶段的性能(平均正确率AP) 

Table 1 Performance(average precision, AP) of object detection models in training stage  

image.png


2) 语义分割实验训练阶段。从北京中关村虚拟训练数据中随机挑选2 000幅(非雨雾条件)图像作为训练集用于FCN模型预训练。随后预训练模型分别在CityScapes和CamVid训练集上进行微调,最终得到模型命名为FCN-CS(v→r)和FCN-CV(v→r)。除此之外,实验不改变模型参数情况下,直接在CityScapes和CamVid训练集上进行训练,最终模型命名为FCN-CS(r)和FCN-CV(r)。随后,将上述4个模型分别在对应的测试集上进行测试,测试采用通用指标来评估语义分割结果。实验定量结果如表 2所示,从表 2中可以看出交通场景的语义分割实验经过虚拟图像预训练的模型比直接采用真实数据集的精度更高,特别是围墙、杆子精度提升效果,这是由于真实数据中缺少这些类别实例。


表 2 语义分割视觉模型训练阶段的性能(AP) 

Table 2 Performance(AP) of semantic segmentation models in training stage  

image.png


从上述计算实验来看,通过精心设计的人工场景对智能车视觉进行全方面训练和评估仍然有很大潜力。众所周知,在极端成像条件下收集和标注大量数据十分困难,因此在人工驾驶场景中进行的计算实验是对实际系统有效和必要补充。在训练阶段,采用适当的训练模式可以优化模型参数的学习过程,使其在目标任务下获得更好的拟合效果。在评估阶段,视觉模型可在不同成像条件下进行性能综合量化,为定量分析和改进模型提供客观指标。


3.3 虚实互动的平行执行


实际驾驶过程通常存在各种变化和挑战,导致难以进行针对性的可控、可观和可重复视觉计算实验,使得智能驾驶规避风险能力降低,这将会给驾驶员和乘客带来极大威胁。使用多人工系统智能体为中国智能车未来挑战赛的人工驾驶场景进行建模,人工驾驶场景参照实际驾驶场景的状态进行增进和迭代,可灵活设置和配置成像条件,使得虚实场景保障视觉模型进行动态化和长期化平行执行。


鉴于人工驾驶场景在规模、多样性、硬件传感系统特性等方面与实际驾驶场景具有相应一致性,因此在虚实驾驶场景获取的数据和视觉模型都在各自领域相互等价,具有互相指导和借鉴意义。同时人工驾驶场景配置性和重复性能力强,相关计算实验可根据需求动态变化,其结果作为实际运行状态进行预先反馈,使智能车视觉模型有先验知识来预测危险。例如:本文构建的人工驾驶场景有常规任务、环境任务和困难任务,根据实际系统需求可以动态切换任务,满足视觉算法进行训练和评估计算实验。最终,视觉感知性能随着任务变化逐渐调节和改善,其结果供实际系统使用和参考。


平行执行过程中实际驾驶场景和人工驾驶场景之间信息架构同化,形成相互配置、引导的循环虚互动体系,在体系内持续优化视觉系统,实现视觉计算的知识自动化。复杂环境下的智能驾驶感知极其困难,尚不存在一劳永逸的解决方案,由于实际和人工驾驶场景可交互、迭代和进化,利用双场景获取的标注图像定期评价模型性能,如果模型性能无偏差,则不需要进行调整。如果模型性能不一致,需要根据需求动态调整实际或人工驾驶场景,以可靠的训练图像数据使视觉模型性能达到要求。综上,平行执行通过完善人工驾驶场景和实际驾驶场景的互动体系,提高参数配置和成像条件能力,可实现动态、持续优化智能驾驶的视觉算法,从而降低事故发生率。


4 结论


智能驾驶的视觉感知研究对保障驾驶安全和稳定至关重要。由于传统智能车传感设备难以获取大规模多样性标记数据,导致视觉模型在复杂成像条件下训练精度得不到保障,同时严重影响视觉挑战定量评估的实施。本文提出面向智能驾驶的平行视觉感知系统概念、体系框架和应用,构建了人工驾驶场景、计算实验和平行执行等核心模块,初步解决了复杂条件下智能驾驶场景感知与理解以及智能车视觉感知系统训练和评估等问题。以智能驾驶测试场景为典型应用验证了平行视觉感知系统的有效性,运用计算机图形学、虚拟现实技术和机器学习理论建立人工驾驶场景,获取大规模多样性虚拟数据。在此基础上设计并实施了关于复杂成像条件视觉感知计算实验,在虚实系统中完成智能车视觉有效训练和科学评估。通过开展实际系统与人工系统结果等价的平行执行,形成相互配置、引导的循环虚实互动体系,保障视觉模型进行动态和长期的性能优化。本文针对智能驾驶视觉感知技术的实际应用需求而产生,对进一步发展智能驾驶自动化、科学化和信息化水平具有现实意义。


参考文献

Document4.png



http://wap.sciencenet.cn/blog-2374-1274739.html

上一篇:[转载]深度 | 卡特彼勒的无人化“掘金术”
下一篇:[转载]“美丽心灵”的另一个版本——数学家埃弗雷特

3 黄永义 侯德鑫 刘博

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-15 16:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部