原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)
结果
上图展示了三个指标的总体趋势:COCO数据集上的推理准确性、速度和能耗。以“精度”为关键指标对主干和检测头进行排序,并将结果从低到高排序。为了更容易进行性能分析,作者将主干和头分为三个频谱,即低、中和高,其中低和高是最不准确和最准确的主干和头组合,中间频谱包含具有平均性能的网络。
精度:从主干网络来看,VoVNet-39、HarDNet-68和Xception在所有头上始终保持高精度,属于高频谱主干。VoVNet和HardDNet的准确性可以分别归功于One-Shot Aggregation(OSA)模块和局部特征增强模块,而36个CNN层的线性堆栈有助于Xception。中谱被ResNet-18、DarkNet-19和DeiT-T占据。ResNet和DarkNet都是轻量级架构,而DeiT享有自注意力模块的好处,有助于利用全局信息。最后,EfficientNet-B0、MobileNet-v2和ShuffleNet-v2这些主要为减少MAC计数而设计的网络,精度最低。
对于检测头,处于精度高频谱的基本都是anchor-free的方法,比如NanoDet,FCOS,TTFNetandCenterNet等。它们没有根据目标大小定义anchor大小的麻烦。FCOS的FPN执行多尺度预测,并有一个中心分支来过滤低质量的预测。NanoDet使用PAN增强低级特征并使用有助于优化位置的GIoU损失。TTFNet和CenterNet还包含多个分辨率并进一步优化目标框定位。DETR中的注意力模块提高了精度,但由于主干仍然是CNN,因此性能掉到了中间频谱。SSD也占据了中间频谱,较低的频谱由YOLO和ThunderNet组成,它们分别是anchor-based的检测器和两阶段检测器。
速度:推理速度与精度相比呈现出不同的趋势。在主干网络中,“精度”位于中间频谱的网络最快,即ResNet-18、DarkNet-19和DeiT-T,从而促进准确性和速度之间的良好平衡。尽管ShuffleNet-v2是最不准确的一种,但由于其为低延迟而设计的架构,推理速度相当高。准确度最高的VoVNet-39和HardDNet-68在速度方面位于中等频谱范围。然而,Xception是最慢的之一,因为它有大量的线性卷积层。
在检测头中,CenterNet、TTFNet和NanoDet是最快的,并且比其他检测器有很大的优势。CenterNet和TTFNet没有NMS瓶颈(因为它使用基于热力图峰值的max-pooling NMS而不是基于IoU的NMS),这有助于提高推理速度。FCOS,具有最高的精度,但在速度方面处于最低频谱,因为它具有五个特征图和一个额外的中心分支的重型架构。NanoDet类似于FCOS,但具有更轻量级的架构,只有三个特征图并且没有单独的分支,从而提高了推理速度。DETR在这里处于中间频谱,因为Transformer架构没有像CNN那样进行硬件优化(Ivanov等人,2020)。SSD和YOLO也位于中间频谱,达到平均速度。基于两阶段的检测器,ThunderNet是最慢的。此外,下图显示了COCO数据集上所有检测头和主干(72种组合)的速度、准确性和参数权衡。
每个气泡的大小表示网络中的参数量。大多数组合在15到50FPS的速度范围,而NanoDet和CenterNet为所有主干网实现了更高的速度。能源和资源。在骨干网中,低频谱网络消耗的能量最少因为这些网络的规模非常小,这也反映在较少的参数量上。DeiT-T证明是非常节能的。
在这些检测头中,除了FCOS之外,高频谱检测器的表现相当不错,因为FCOS比其他anchor-free的检测器更重型。NanoDet消耗的能量最少,因为其专门设计用于在移动硬件上运行。SSD和DETR在能耗方面保持中等频谱。ThunderNet除了分类和回归阶段外,还有proposal阶段,比单阶段检测器消耗更多的能量。详细分析:下表提供了两个不同数据集VOC和COCO的八个检测头、九个主干的更详细信息。
FCOS+VoVNet-39组合具有最高的准确度,而NanoDet+DarkNet-19组合具有最高的推理速度。Transformer组合DETR+DeiT-T有最低的MAC计数,因为DETR在单个特征图上工作,而最新的DeiT-T(带有5M参数)可谓足智多谋。两个数据集的资源占用是相似的,除了在SSD中,在将数据集从VOC更改为COCO时参数量增加(在某些情况下约为2倍)。由于SSD使用六个特征图,每个特征图都有单独的anchor,因此当类数量增加时会产生资源开销。这种效果在anchor-free设计中的放大程度较小。
总体而言,在主干网中,高频谱网络HardNet-68和VoVNet-39在所有指标上都表现良好,Xception除了精度外,在所有指标上都表现不佳。中间频谱由ResNet-18、DarkNet-19和DeiT-Toff组成,在精度、速度和资源占用之间取得了良好的平衡。DeiT-T因为没有卷积,是资源占用最友好且MAC数量最少的。
在检测头中,NanoDet实现了高精度和速度,同时还具有较高的计算效率。CenterNet和TTFNet也提供了良好的平衡,而TTFNet有更快的训练时间。DETR(同样,NanoDet)在与较轻的主干配对时显示较低的MAC计数。为了进一步证明在不同指标上评估网络的重要性,正如所见,精度与所有其他指标正相关,GMAC在F1得分之后是最高相关的。速度仅与推理能耗高度负相关。能耗与GMAC的正相关性最高,表明MAC操作较多的网络往往会消耗更多的能量。
解耦影响
目标尺寸的影响
对于大多数目标检测器来说,小目标的检测是一个具有挑战性的问题(Liuetal.,2021)。为了展示网络在不同尺度目标上的性能,作者比较了三种不同大小(即小、中、大)的主干和检测头的精度。下图显示所有主干和检测头的组合在不同尺度的上表现。TTFNet、NanoDet和FCOS优于其他网络,主要是因为得到性能最佳的重型主干网的加持,如HardDNet-68或VoVNet-39。重型主干的更高分辨率的特征图与这些检测头中的FPN/PAN相结合能得到更好性能,使得中型和大型目标的精度要好得多。在检测头中,FCOS和NanoDet对各种尺寸的目标总体表现更好。TTFNet、CenterNet和SSD,位于中频谱,配上更快的主干网络对于需要更高推理速度的应用来说是不错的选择。FCOS的稳定性能归功于其更重型的架构,其使用了五个不同尺度的特征图。为了进一步分析,作者考虑所有具有HardNet-68主干的检测头,因为它在更复杂的数据集COCO上提供了最佳平衡。
输入图像尺寸的影响
用于训练的输入图像的分辨率对最终精度起着重要作用。所有先前实验中使用的图像分辨率均为512×512。为了分析其他输入分辨率在精度和速度上的权衡,作者使用不同图像尺寸进行训练,包括256、384、512和736。图像尺寸选择为“16的偶数倍”。
上图表明,检测头的精度遵循“收益递减”的趋势。在大多数情况下,从256到384的图像分辨率有显着的精度跳跃。但是,随着图像尺寸的进一步增加,增益会降低,当图像尺寸从512变为736时增益最小(在某些情况下,它也会降低精度)。此外,作者观察到更高图像尺寸的精度增益被更大的速度下降所掩盖。例如,FCOS中从512到736的4.4%精度增益被37%的速度降低所掩盖,因此FCOS切换到高分辨率不是最优选择。对于YOLO、TTFNet和FCOS,速度随着分辨率的增加而明显下降,因为YOLO和其它FPN中的多分辨率尺度特征连接中的操作数量随着图像大小的增加而增加。DETR使用注意力块来捕获图像的全局上下文信息,而ThunderNet具有单独的区域每个样本的proposal,它们对不同的图像大小不太敏感。
anchor尺寸的影响
anchor大小和纵横比需要与数据集中存在的目标的大小一致,因此是anchor-based网络中的重要参数。anchor大小也需要先验,因此很难适应新的数据集。在作者研究的八个检测头中,SSD、YOLO和Thundernet使用anchor-based的方法进行检测。为了分析anchors对检测性能的影响,作者对所有三个anchor的检测头进行了实验,这些检测头具有不同的anchor尺寸,由它们各自的宽度和高度定义。目的是为anchor的宽度和高度添加一些偏移量,并分析网络速度和准确性的变化。作者不是线性增加/减少anchor尺寸,而是从具有不同sigma的高斯分布中采样偏移量,并将其添加到原始anchor的宽度和高度以创建修改后的anchor尺寸。此外,修改后的anchor在整个特定实验中保持不变。原始anchor的宽度和高度(来自这些网络的原始架构)被视为基线。
下表显示了修改后的anchor相对于基线(第一行)的精度和推理速度方面的变化。作者观察到不同大小的anchor的精度变化遵循随机模式,精度和速度之间没有相关性。ThunderNet在精度上,对anchor框大小的变化不敏感,而其推理速度不断提高。SSD对这些变化非常敏感,因为所有三组anchor框大小的准确性都降低了,而其中一个的速度增加了。这些变化提高了YOLO的精度,但并不是都影响其推理速度。anchor尺寸影响检测的非确定性方式证明,修改anchors以提高检测效果不是一项简单而直接的做法。
置信度阈值的影响
目标检测器会产生许多框,并使用一个阈值来过滤掉冗余和低置信度预测。改变这个阈值会影响准确率和召回率。因此,置信度阈值在计算精度和推理速度方面起着至关重要的作用。由于未明确提及此类参数,因此从先前的目标检测文献中再现结果存在差异。使用不同的阈值显示出精度和推理数量的显著差异。ThunderNet有基于区域的proposal,并利用Soft-NMS,分数衰减而不是固定硬阈值,因此这个参数不影响结果。CenterNet和TTFNet使用maxpool来选择预测,而DETR去除了传统的检测模块,因此不使用这个阈值。因此,本研究仅考虑了YOLO、SSD、FCOS和NanoDet。下表显示了使用较高阈值时准确度的下降以及使用较低阈值时速度的降低。例如,通过将阈值从0.01更改为0.4,YOLO的mAP下降了∼22%,而速度提高了∼71%。
可变形卷积的影响
引入了可变形卷积(DCN)层,有助于检测具有几何变形的目标。传统的卷积根据定义的内核大小在图像上使用固定的矩形网格。在DCN中,每个网格点都可以移动一个可学习的偏移量,即网格是可变形的。DCN基准测试主要关注精度的提升,而不是其他指标。为了获得有关速度和资源需求的更多信息,作者分析了DCN层对在其最初提出的架构中使用DCN的两个检测器的影响,即CenterNet和TTFNet。下表提供了上述两个检测器的精度、速度、参数数量和能耗并且没有DCN层。在两个数据集COCO和BDD上测试结果。在BDD数据集上,将CenterNet中的DCN层替换为标准卷积层,导致准确率下降1.8%,速度提升8%以上。DCN层的使用也增加了参数量,导致能耗增加13%。在COCO数据集上,将TTFNet中的DCN改为标准卷积层后,精度下降不到5%,而速度提高了10%,能耗提高了约6%。这些结果表明,使用DCN层时存在固有的精度、速度和资源需求权衡。
目标检测器的可靠性
许多应用程序,尤其是对安全至关重要的应用程序,需要检测网络高度准确和可靠。检测器不仅必须精确,还应该指出它们何时可能不正确。模型校准提供了对模型不确定性的洞察,随后可以将其传达给最终用户或协助进一步处理模型输出。它是指与一个预测相关的概率反映整体精度可能性的度量。大多数工作只专注于提高网络的预测精度,但必须有一个经过良好校准的模型。大型且精度高的网络往往过于自信(Guoetal.,2017)并且校准错误。因此,迫切需要重新审视和测量SOTA检测器的校准,以获得完整的评估。校准的大部分工作都集中在分类领域,但Kuppers等人。(2020)包括边界框预测以及分类标签,以评估检测器的整体校准。预期校准误差(ECE)(Naeinietal.,2015)是衡量校准的常用指标之一,用于衡量预测置信度和准确度之间的期望差异。在分类领域,该分数表示分类准确度与估计的信心。检测ECE(D-ECE)(Kuppersetal.,2020)测量观察到的平均精度(AP)与分类和边界框属性的偏差。置信空间和边界框空间被划分为相等的bin,通过迭代所有bin并在每个bin中累积AP和置信度之间的差异来计算D-ECE。一维案例只考虑置信度,但作者使用多维D-ECE案例,它结合了所有因素:p、cx、cy、w、h,分别表示预测的类别概率、中心坐标、宽度和高度。
可靠性图(DeGroot&Fienberg,1983)用于直观地表示模型校准,其中准确度被绘制为置信度的函数。下表和图分别提供了可靠性分数和图表。
在可靠性图中,对角线表示完美校准,绿色阴影表示校准中的差距。在anchor-based的检测器中,SSD校准得很好,而YOLO则更不自信。所有基于关键点的方法(上图中的最后一行)都更倾向于不自信,并且对他们的预测更加谨慎,因此可能更适合安全关键型应用。但是,基于Transformer(DETR)和基于两阶段(ThunderNet)的检测器过于自信,在安全关键型应用中可能不受欢迎。当还包括定位时,校准误差会增加(如D-ECE中所反映的)。作者注意到有几个分类领域的校准解决方案,例如直方图分箱(Zadrozny&Elkan,2001)、逻辑校准/普拉特缩放(Plattetal.,1999)、温度缩放(Guoetal.,2017)和beta校准(Kulletal..,2017)。然而,将这些应用于目标检测可能没有那么有效,因此已经提出了其他工作(Neumann等人,2018年;Kuppers等人,2020年)来采纳专门针对目标检测的经过良好校准的估计。在这项研究中,作者专注于比较不同检测器的可靠性,而不是深入研究解决方案以改进其校准。
自然鲁棒性
自动驾驶等实时目标检测应用非常重视安全性和精度。在此类应用中使用的目标检测器需要在其预测中保持一致,并且对各种因素(例如不断变化的天气条件、光照和各种其他成像效果)具有鲁棒性。公共数据集没有充分覆盖所有这些影响,因此作者通过在它们上添加不同的损坏来模拟它们。Corrupted COCO数据集创建有15种不同的损坏。下图显示了每个检测头在四种损坏类别上的结果:噪声、模糊、天气和数字化影响。精度值是该特定类别中不同损坏的平均值。这些 level0是网络在原始数据上的表现。所有网络的性能在所有损坏上都会恶化,并且随着严重性的增加而下降得更快。在噪声、模糊和数字化影响方面,与天气类别相比,这些网络的性能下降幅度相对较大。对于所有损坏类别,FCOS是最稳健的,而YOLO是最不稳健的。就IID数据的准确度而言,检测器的顶部、中部和低谱在OOD设置上仍然保持良好。FCOS在IID测试集中被证明是最准确的,即使在具有挑战性的OOD设置(即自然损坏的数据)上也能保持这种性能。
为了提供更详细的分析,作者在下图中显示了每个网络的所有15种不同损坏的结果。在每个热图中,作者通过对所有损坏进行平均来计算平均损坏准确度(mCA)。所有检测器在所有三种噪声(高斯噪声、散粒噪声和脉冲噪声)上都显示出类似的性能下降趋势。与其他噪声相比,FCOS和TTFNet的下降最少,并且对噪声损坏相对更稳健。在模糊损坏中,散焦和运动模糊的下降更为稳定,而对于玻璃模糊,精度最初逐渐下降,但在严重级别3之后急剧下降。在变焦模糊中,所有检测器的性能下降都从严重级别1开始。与霜和雪相比,所有检测器对不同亮度和雾的破坏都具有鲁棒性。最差的性能出现在下雪的条件下,并且趋势相似。在数字效果中,与像素化和对比度相比,网络对弹性变换和JPEG压缩的鲁棒性更强。所有模型对对比变化的鲁棒性都较低,而YOLO是最不鲁棒的。
对抗鲁棒性
一些工作已经表明深度神经网络对对抗性攻击的脆弱性。对抗性扰动是难以察觉的噪声,当添加到数据中时,人眼无法察觉,但可能导致网络做出错误的预测。在自动驾驶等安全关键型应用中,稳健性对于防止网络做出不合时宜的决策更为重要。因此,对抗鲁棒性是目标检测的关键指标。然而,它在文献中并不突出。在这里,作者评估了所有八个检测器网络对对抗性攻击的鲁棒性。
作者采用基于梯度的攻击,利用网络的梯度信息来产生扰动。投影梯度下降(PGD)(Madryetal.,2017)是一种常见的非目标攻击,它最大化训练损失以产生对抗性扰动,该扰动被限制在epsilon范围内。作者同时使用分类损失和回归损失作为PGD攻击的目标。作者以不同的攻击强度执行PGD攻击,并在下图中展示精度。Epsilon=0时的精度是指原始测试集上的干净准确度。随着攻击强度的增加,性能下降。与其他检测器相比,CenterNet和DETR表现出稳定且更好的鲁棒性。FCOS具有最高的自然精度,并且对非常弱的攻击表现出良好的抵抗力,但在更高的扰动下性能急剧下降。TTFNet和ThunderNet表现次之。YOLO、NanoDet和SSD占据下一个频谱。
案例研究:自动驾驶
实时目标检测在自动驾驶(AD)领域具有高度相关性,网络需要学习各种目标,例如城市道路和高速公路上的行人、车辆和路标。检测网络的大多数基准都在VOC和COCO上提供数据集,主要由家常目标组成。这些数据集的结果不足以衡量网络在AD场景中的性能。因此,作者使用BDD数据集(Yuetal.,2018)对AD进行了实际案例研究,该数据集是该领域中最大和最多样化的数据集之一。
首先,作者展示了这个复杂数据集上所有网络的性能。然后,作者通过使用在BDD上训练的模型并在不同的数据集(即Cityscapes(Cordtsetal.,2016))上进行测试来解决分布外(OOD)泛化问题。最后,作者将所有在BDD上训练的模型部署在嵌入式设备上,并展示每个网络的实时应用能力。因为与速度下降相比,DCN获得的准确度并不显着。因此,在本节中,作者统一考虑所有没有DCN层的网络。
下表是作者展示了在BDD验证集上获得的结果。类似于赵等人。(2018a),作者以IoU=0.7计算了模型的准确度(mAP)。NanoDetex表现出最好的准确度。FCOS是次之最准确的,但速度慢,能耗也最高。CenterNet速度最快,但准确度略低。SSD消耗的能量最少,YOLO有准确率最低。有趣的是,BDD数据集中目标位置的偏差导致生成的区域建议更少,从而使ThunderNet更快。
分布转移的泛化是AD场景中的主要挑战之一。网络在实际应用中部署时,需要适应看不见的数据并始终如一地执行。然而,大多数深度学习基准都显示在测试集上,其分布与训练数据相同(Geirhosetal.,2020)。因此,为了测试网络对分布变化的鲁棒性,作者在Cityscapes数据上测试了BDD训练模型。作者从Cityscapes数据集的实例分割注释中提取真实边界框。作者观察到FCOS的准确度最高,NanoDet紧随其后。CenterNet是最快的网络,SSD在这两个集合中是最节能的。一般来说,anchor-free的检测器是跨具有挑战性的AD数据集泛化的较好选择。
AD应用程序具有功率和资源限制,因为网络部署在板载边缘设备上。检测网络在低功耗设备上的实时性能对其功效至关重要。对于部署,作者使用TensorRT库将网络转换为优化的高性能推理引擎。TensorRT是NVIDIA的并行编程模型,可以优化神经网络以部署在嵌入式或汽车产品平台上。然后,这些引擎在NVIDIA的三个不同范围的GPU上进行测试:(1)2080Ti,一种常用的桌面GPU,(2)Jetson-Xavier,一种强大的移动GPU,以及(3)Jetson-TX2,一种低功耗的移动GPU。下表显示了所有8个检测器在三种精度模式下的推理速度,即FP32、FP16和INT8。
性能趋势可能与之前看到的不同,因为它取决于TensorRT对不同层的优化。优化融合了后续层并使计算并行化。anchor-based的检测器ThunderNet、YOLO和SSD具有相对简单的架构,优化后的速度增益最高。YOLO是最简单的,得到的优化最多,是所有平台上最快的。然而,所有anchor-free的检测器从优化中获得的速度增益最小。DETR位于中间频谱,并且由于transformer架构相对较新,它不像其他卷积层那样被TensorRT引擎优化。这个独特的案例研究表明,性能在一台设备上看到的趋势不一定会转化为其他硬件。该基准在选择模型以部署在边缘设备上以实现实时AD应用程序时非常有用。
案例研究:健康领域
深度学习的最新进展使人工智能模型能够帮助外科医生和放射科医生诊断和治疗危及生命的疾病。手动检测需要专业知识,需要时间,并且可以也会受到人为错误的影响。基于AI的检测解决方案有助于降低成本和资源,并可以为医学成像中的检测提供准确的工具。其中一个应用是使用DNN检测医学图像中的息肉。结肠和直肠(结肠直肠)癌通常是由结肠或直肠内层的息肉引起的。
检测这些息肉并在早期阶段对其进行治疗对于癌症治疗至关重要。医学图像的分布与COCO和VOC等标准数据集截然不同。因此,标准基准可能无法提供有关为此应用程序选择哪种模型的重要信息。此外,不同的指标更相关,具体取决于应用程序。虽然标准基准侧重于准确性的精度指标,但在医疗保健行业,即使是一个假阴性也可能比假阳性结果造成更大的损害,召回更为重要。为了解决这种新的数据分布和指标,作者专门针对通过评估Kvasir-SEG数据集上的检测器来评估医学图像。下表显示了在Kvasir-SEG的testsplit上获得的结果。召回与此应用程序更相关,因此,作者将平均平均召回(mAR)与mAP一起报告。某些网络(如YOLO)可能没有最高的精度,但召回低。FCOS具有最高的召回率和精度,这使其成为此类测试用例的理想候选者。在速度方面,SSD是最快的,而Nanodet次之。
讨论
作者在跨不同数据集的统一实验设置下对特征提取器和检测器的组合(范围从两阶段、单阶段、anchor-based、anchor-free到基于Transformer的架构)进行了全面研究。作者得出了一组广泛的结果,包括精度、速度、资源和能耗,以及稳健性和校准分析。作者评估了检测器对两种自然对抗性破坏的鲁棒性。此外,还突出显示了详细的见解,以全面了解不同变量对最终结果的影响。对不同的变量,如主干网络的影响、图像大小、目标大小、置信阈值和特定架构层进行了解耦和研究。作者还就两个不同的行业贡献了两个独特的案例研究:自动驾驶和医疗保健。
作者进一步在嵌入式硬件上优化和基准测试网络,以检查网络部署在边缘设备上的可行性。结果表明,anchor-free的检测器倾向于很好地泛化多个数据集,因为不再需要对anchor进行优化。NanoDet在准确性和速度方面都很好,同时对资源也很友好。CenterNet是第二快的,并且在所有其他指标上也处于良好的范围内,TTFNet位于中间范围内。FCOS的准确性最高,但在其他指标上表现不佳,而DETR是基于Transformer的检测器具有最低的MAC计数,位于中间频谱。在主干网中,专门设计的现代网络对于低内存流量,例如HardDNet,在精度、推理速度和能耗之间提供最佳平衡。所有检测器在检测小目标时都表现不佳,FCOS的表现相对更好。不同的anchor以非确定性的方式影响性能,因此难以泛化。
作者指出在切换到更高图像尺寸或使用DCN层时应考虑的精度-速度-资源要求权衡。在对抗自然损坏的鲁棒性上,所有网络的性能在所有15次损坏上都下降了,并且随着严重性的增加下降得更快。一般来说,anchor-free的检测器比其他检测器对自然损坏的鲁棒性相对更强。FCOS是最鲁棒的,而YOLO是最不鲁棒的。FCOS和TTFNet对嘈杂和模糊的损坏相对更鲁棒,但所有检测器在雪天条件下表现都很差。CenterNet被证明是最强大的对对抗性扰动具有鲁棒性,而FCOS和DETR对这些攻击也具有很强的抵抗力。在可靠性分析方面,SSD的校准相对最佳,而anchor-free的检测器在预测中更加谨慎,因此使其在安全关键型应用中比较推荐。ThunderNet和DETR倾向于更加过度自信。
作者对基于深度学习的实时目标检测网络在不同数据集和不同域上进行全面的分析。广泛的分析了新架构(Transformer vs. CNN)的能力和缺陷。不同的应用有不同的标准,作者的研究可以作为工业界衡量不同标准的指南,在为各自的应用选择检测器时可以进行权衡。而且由于新的检测网络正在不断的出现,作者也希望能启发研究人员将这项研究作为设计新网络的参考准则。本研究强调了标准化、透明和公平的重要性,同时强调需要将重点从名义上的改进转移到更开阔的视野。
参考
[1] A Comprehensive Study of Real-Time Object Detection Networks Across Multiple Domains: A Survey