研究文章|开放获取
张晓国,高烨,叶飞,刘启涵,张开新, "基于多尺度特征图跳过连接的SSD改进方法",计算智能和神经科学, 卷。2020, 文章的ID2936920, 13 页面, 2020. https://doi.org/10.1155/2020/2936920
基于多尺度特征图跳过连接的SSD改进方法
摘要
SSD (Single Shot MultiBox Detector, Single Shot MultiBox Detector)是目前最好的目标检测算法之一,能够提供高精度的实时目标检测性能。然而,SSD在小目标检测方面的性能相对较差,因为其负责小目标检测的预测层较浅,语义信息不足。为了解决这一问题,本文提出了一种新的多尺度特征图跳过连接的改进SSD,通过高级和低级特征图的跳过融合来增强预测层的语义信息和细节。针对融合方法的细节,设计了两个特征融合模块和多种融合策略,以提高SSD探测器的灵敏度和感知能力。在PASCAL VOC2007测试集上的实验结果表明,SKIPSSD显著提高了检测性能,优于许多最先进的目标检测器。在300 × 300的输入尺寸下,SKIPSSD在单个1080 GPU上以38.7 FPS(每秒帧数)达到79.0% mAP(平均平均精度),在保持实时检测速度的同时,比SSD的mAP高1.8%。
1.介绍
基于深度学习的目标检测算法大致可分为基于区域建议和基于端到端两类。众所周知,之前的模型一般包括R-CNN [1, Fast R-CNN [2更快的R-CNN [3.]和R-FCN [4,首先生成一组与类别无关的区域建议,用于后续的特征提取和分类。后一种模式中最受欢迎的两种是端到端的YOLO (You Only Look Once) [5]及SSD(单发多盒探测器)[6],需要设置默认框,训练网络,建立先验框、默认框和ground truth框之间的关系。
SPP-net等两阶段方法[7, Fast R-CNN [2,以及更快的R-CNN [3.[通常仅使用最后一层作为预测层,但是具有固定接收场大小的层不适用于太大和较小的物体检测。SSD创新地使用了Gromnet的金字塔特征层次结构,并将来自多个特征映射的预测与不同的分辨率相结合,以处理对象检测器的比例变化问题。一般而言,SSD不仅能够实现实时对象检测,还可以以其高检测精度来实现。在Pascal VOC 2007测试中[8], SSD以46帧/秒的速度实现77.2%的mAP,输入尺寸为300 × 300,使用单个NVIDIA Titan X GPU [6].然而,没有完全考虑SSD的多尺度预测层之间的联系,低级特征映射缺少足够的语义信息,用于小对象检测;因此,SSD在小对象检测方面表现出差的性能[9].如图所示1,一些小物体,例如红框中的船只,SSD无法探测到。
针对SSD检测小目标性能较差的问题,同时又能保持较好的检测速度,我们采用了一种新的多尺度特征映射到SSD的跳跃连接方式,整体架构如图所示2.主要研究成果如下:(1)提出了一种新的多尺度特征图跳过连接的改进SSD (SKIPSSD),通过跳过融合高、低特征,增强预测层的语义信息和细节;(2)基于SSD网络的6种多尺度特征图融合结构,设计2种特征融合模块和多种融合策略,研究最优特征融合框架;(3)在PASCAL VOC 2007测试集上进行实验,比较SKIPSSD与其他先进的目标探测器的性能。
实验结果表明,SPIPSSD显着提高了检测性能,优于许多最先进的物体探测器。在300 × 300的输入尺寸下,SKIPSSD在单个1080 GPU上以38.7 FPS(每秒帧数)达到79.0% mAP(平均平均精度),在保持实时检测速度的同时,比SSD的mAP高1.8%。
2.方法
2.1.相关工作
在对象检测领域中,通常用于解决由对象比例的变化引起的检测性能的降低的劣化。然而,这种算法非常耗时。SSD创新使用Convnet的金字塔特征层次结构,并将来自具有不同尺度的多层的预测组合,减轻了某些程度的对象比例变化问题[6].然而,没有完全考虑SSD的多尺度预测层之间的联系,低级特征映射缺少足够的语义信息,用于小对象检测;因此,SSD在小对象检测方面表现出差的性能[9].
为了应对SSD的上述问题,DSSD(Deconvolloollal单拍探测器)[10]使用Resnet-101 [11]代替SSD中使用的VGG,并添加碎屑层以引入大规模上下文。虽然DSSD改善了SSD的小对象检测的性能,但其检测速度比SSD慢得多,并且无法实现实时检测。之后,已经完成了很多,以平衡SSD的小对象检测的精度和速度。RSSD [12]采用不同层与SSD之间的权重共享策略,准确率提高了0.8%,但由于计算复杂度的增加,速度降至35 FPS。FSSD [9]使用了一个轻量级和高效的特征融合模块,在VOC2007测试集上以65.8 FPS的速度实现了78.8%的mAP,在准确性和速度上都优于RSSD300。Feature-Fused SSD300 [13]仅在SSD的Conv4_3和Conv5_3之间进行elt_sum函数,mAP达到78.9%,略高于FSSD。结合两阶段和一阶段方法的优点,RefineDet [14]采用ARM模块减少搜索空间,通过TCB连接模块将ARM的特性传递给ODM模块,在512 × 512输入尺寸下,以40.3 FPS的速度实现81.8% mAP,超过了DSSD513。为了进一步提高SSD的准确性,DES (Detection with enhenhsemantic) [15]中不仅引入了分割模块来获取掩模,客观上增强了浅层特征的语义信息,还引入了全局激活模块来增强高层特征的语义信息。DES512增强了VOC2007测试中的mAP,在31.7 FPS时设置为81.7%。DES512以速度为代价提高了精度。
上述算法提高了SSD的检测精度。然而,他们的推理时间增加了很多。总体而言,获得高精度、高实时性的目标检测性能具有重要的价值。
2.2.多尺度特征融合结构设计
通过大量的工作发现,网络中不同层次的特征是互补的,整合多尺度特征有利于多尺度目标检测[9,10,16].更具体地说,DCNN模型的不变性特性使高层特征图谱的DCNN学好抽象特性的数据适合对象识别,但副作用对象位置显示和低级特征图含有丰富的空间结构有利于定位对象的细节。受编解码器网络U-Net的启发[17],利用跳跃连接将低级特征图和高级特征图关联起来,实现像素级的定位,我们采用跳跃连接到SSD的思想,增强语义信息。在本文中,我们设计并评估了一系列基于SSD的多尺度特征图融合结构,以探索最优融合结构:多尺度预测特征映射跳过连接(SKIPSSD)、部分跳过连接(part -SKIPSSD)、双向跳过连接(Bi-SKIPSSD)、基网部分特征映射跳过连接(base -SKIPSSD)、相邻连接(AdjacentSSD)、多尺度预测特征金字塔网络(FPNSSD)。
数字3(一个)显示了MultiScale预测特征映射之间的跳过连接,其中Shipssd Upsamples Conver9_2融合到Conv7_2以获取Conv7_2_FF,Upsamples Conv8_2以Conv6_2融合,以获取CONV6_2_FF,Upsamples Conv7_2与FC7一起保险,以获取FC7_FF,以及Upsamples Conv6_2与Conv4_3保险费得到conv4_3_FF。多尺度预测特征映射跳过连接网络在本文中称为ShipsSD。数字3 (b)给出了SKIPSSD、Conv8_2、Conv9_2的预测层结构,并使用融合的特征映射Conv4_3_ff、fc7_ff、Conv6_2_ff、Conv7_2_ff作为多尺度预测层。
(一)
(b)
如图所示4(a),描述了Part-SKIPSSD的结构。与SKIPSSD相比,部分SKIPSSD去掉了Conv7_2层的特征融合,仅使用原SSD的Conv4_3_ff、fc7_ff、Conv6_2_ff和Conv7_2、Conv8_2、Conv9_2作为多尺度预测特征映射。
(一)
(b)
图中的结构5(a)本文称之为Bi-SKIPSSD。与SKIPSSD相比,Bi-SKIPSSD分别增加了Conv8_2和Conv9_2层的特征融合。Conv6_2经过卷积和池化层,然后与Conv8_2合并生成Conv8_2_ff。类似地,Conv7_2经过卷积和池化层,然后与Conv9_2合并生成Conv9_2_ff。这个数字5 (b)显示bi-skipssd使用conv4_3_ff,fc7_ff,conv6_2_ff,conv7_2_ff,conv8_2_ff和conv9_2_ff作为multiSCLE预测功能映射。
(一)
(b)
与上述三个网络不同,在图中的基础跳过6VGG基网各层与预测层之间进行跳跃连接。将卷积层、池化层的Conv4_1与Conv4_3合并,生成Conv4_3_ff;将卷积层fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2与对应的基本特征层进行合并,方法类似。融合特征映射Conv4_3_ff、fc7_ff、Conv6_2_ff、Conv7_2_ff、Conv8_2_ff和Conv9_2_ff作为多尺度预测特征映射。
(一)
(b)
图中的结构7(a)被称为AdjacentSSD。与SKIPSSD相比,AdjacentSSD采用的是相邻连接,而不是跳过连接。上采样层fc7与Conv4_3合并生成Conv4_3_ff,后一层Conv6_2、Conv7_2、Conv8_2、Conv9_2与相邻层合并。这个数字7(b)由此可见,AdjacentSSD使用Conv4_3_ff、fc7_ff、Conv6_2_ff、Conv7_2_ff、Conv8_2_ff、Conv9_2作为多尺度预测特征映射。
(一)
(b)
图中的结构8(a)被称为FPNSSD。与邻接ssd的高层Conv9_2仅与相邻层Conv8_2融合生成Conv8_2_ff不同,FPNSSD采用自顶向下的架构,具有横向连接,称为FPN [16],如图所示9,高层系Conv9_2层逐层融合,形成Con8_2_ff、Conv7_2_ff等。这个数字8 (b)表明FPNSSD使用Conv4_3_ff、fc7_ff、Conv6_2_ff、Conv7_2_ff、Conv8_2_ff、Conv9_2作为多尺度预测特征映射。
(一)
(b)
在本节的PASCAL VOC2007测试集上对上述六种SSD多尺度特征图融合结构进行了分析和评价3.4探讨最优多尺度特征图融合结构。
2.3.特征融合模块设计
在本文中,设计了两个特征融合模块,专为高级和低级特征融合而设计,并且在我们的实验中比较了融合效果。Concat和Eltsum是两个特征融合的常用方法。Concat操作是两个特征映射的频道串联。在Caffe中,有三个开展的开关:产品(点产品),总和(添加或减去),最大(取大值),并在本文中选择了总和操作。
如图所示10,融合模块一个首先对高级特征映射进行上采样,生成高级特征map_up,再经过3 × 3卷积层和relu激活函数得到高级特征map_fuse。将经过3 × 3卷积层和relu激活函数的低层特征映射转化为低层特征map_fusion。然后,利用concat或eltsum函数对低层特征map_fuse和高层特征map_fuse进行特征融合,得到高低层特征map concat/sum。最后,利用relu激活函数激活高低层feature map concat/sum,通过1 × 1卷积层降低通道维数,得到预测feature map高低层feature map_fuse。
与融合模块相比一个在图10,聚变模块b在图11情报官。首先,融合模块b对高级特征图进行上采样,生成高级特征map_up,并通过1 × 1卷积层将低级特征图转换为低级特征map_reduce。然后,利用concat或eltsum函数对低层特征map_reduce和高层特征map_up进行特征融合,得到高低层特征图concat/sum。最后,利用relu激活函数对高低层特征图concat/sum进行3 × 3卷积层以减小混叠效应,得到预测特征图高低层特征map_fuse。
3。结果与讨论
为了评估改进后的SSD网络的性能,寻找最优的多尺度特征图融合框架,本文设计了四类测试用例:(1)比较SKIPSSD在使用不同的特性融合模块时的性能。通过实验,可以找到最有效的特征融合模块。(2)比较不同融合策略对跳过模型性能的影响。通过该实验,可以选择最有效的融合策略。(3)比较不同的上采样方法对SKIPSSD模型性能的影响。通过实验,可以选择最有效的上采样方法。(4)比较不同特征图融合结构的SSD性能。通过实验,可以找到最有效的特征融合结构。
实验硬件和软件配置如表所示1.为了评估SKIPSSD的性能,VOC2007的联盟trainval和VOC2012trainval作为训练数据,VOC2007测试作为测试数据。为了比较公平,所有实验都是基于VGG16进行的,该VGG16预处理为SSD中进行的,SKIPSSD的训练方式与SSD相同。参数设置如表所示2.采用mAP和FPS作为检测性能的评价指标。
|
|
3.1。两个特征融合模块对模型性能的影响
为了找到最佳特征融合模块,在Pascal VOC 2007测试中评估了具有不同特征融合模块的SKIPSD,并记录了输入大小300×300评估的性能3..在本实验中,SKIPSSD的网络如图所示3.,并在融合模块中所有卷积核之后加入BN (Batch Normalization)层。
|
根据表中的结果3.,带融合模块的SKIPSSD一个mAP达到78.1%,比SSD高0.9%,且SKIPSSD的mAP带有融合模块b比SSD高1.1%地图,演示了MultiScale特征图的跳过连接确实可以提高SSD的性能。由于使用融合模块跳过b优于融合模块一个关于精度和速度,融合模块b本文选择的是进行高、低层次特征融合。
3.2.融合策略对模型性能的影响
本实验从两个方面对影响因素进行了比较:(1)concat和eltsum融合方法;(2)充分和部分使用BN层。实验结果记录在表中4.在实验中,上采样方法为反褶积和扩张褶积,融合模块为b.
|
从表中第一个和第三行的数据4结果表明,在网络结构相同的情况下,eltsum融合方法的精度优于concat融合方法。比较表中的第二、第三和第四行4,增加BN层可以提高SKIPSSD的精度。当只使用eltsum函数后的BN层时,SKIPSSD的mAP达到78.4%,比融合模块所有卷积层后使用BN层的SKIPSSD高0.1%。综合分析,本文的SKIPSSD采用的是eltsum融合方法,在eltsum函数后面的卷积层只使用BN层。
3.3.上采样方法对模型性能的影响
为了研究上采样方法对SKIPSSD性能的影响,我们采用两种上采样方法对SKIPSSD的特征融合模块进行特征融合。第一种方法是反卷积和扩张卷积,具体网络结构参数如图所示12.第二种方法是双线性插值,具体网络结构参数如图所示13.
表格5在PASCAL VOC2007测试集上,采用双线性插值上采样方法的SKIPSSD在38.7 FPS下获得79.0% mAP,在速度和精度上都优于反卷积和扩张卷积上采样方法。因此,本文选择双线性插值作为上采样方法。
|
3.4.特征融合结构对模型性能的影响
本实验比较了SKIPSSD、Part-SKIPSSD、Bi-SKIPSSD、Base-SKIPSSD、AdjacentSSD和FPNSSD六种不同特征融合结构在PASCAL VOC 2007测试集上的性能。在本实验中,上采样方法为双线性插值,融合模块为b,融合方法为eltsum, BN层仅用于eltsum函数后的卷积层。
如表所示6,基础跳过的映射达到78.6%,通过在VGG基础网络和预测层的层之间进行跳过连接来实现比SSD高1.4%。然而,诸如CONC4_3_FF之类的较低的预测层仍然缺乏足够的语义信息用于小对象检测。FPNSSD采用具有横向连接的自上而下的架构,以构建适用于多尺度对象检测的所有刻度的高级语义特征映射,但默认的功能层逐层不足,而在一起组合多层则不足。邻接和邻接会实现与FPNSD几乎相同的性能,表明无需通过自上而下的架构将具有层叠层的功能较密集。与FPNSD相比,通过跳过低级和高级特征映射,ShipsSD更轻便,高效。并且Parti-skipsd和Bi-skipssd的性能表明,跳过的连接较少不会带来明显的速度优势,并且更多的跳过连接会导致冗余,并不会提高显着的准确性改进。因此,最后,选择ShipsSD网络作为最佳特征融合结构。
|
3.5.PASCAL VOC 2007试验
跳过的损耗曲线如图所示(14日).在训练过程中损失不断减少。在最初的5万步中,损失急剧减少。16000步后,下降速度进一步放缓,200000步后损失曲线趋于不变。据此,如图所示14 (b),在前50,000步中,准确率急剧上升,并在2000步后趋于不变,在22500步时达到79.0%。
(一)
(b)
表格7展示了在PASCAL VOC 2007测试集上的目标检测结果。与SSD相比,SKIPSSD在瓶子、船、鸟、植物等18个类的小目标检测上有较大的改进,说明SSD小目标检测的薄弱环节得到了改善。通过300 × 300的低维输入,SKIPSSD实现79.0%的mAP,没有铃铛和口哨,超过了许多最先进的目标检测算法,如Faster R-CNN [3.],yolov2 [18],yolov3 [19],及DSSD [10].虽然跳水线的地图低于RefineTet320的1%[14[Refinedet_Skip320通过采用MultiScale特征图的跳过连接实现0.4%的地图,比refineet320高于RefineTet320,表明本文提出的跳过连接是有效的,也可以集成到其他物体探测器中。
|
3.6。推理时间
表格8显示了Pascal VOC 2007测试集上跳过的速度和准确性和最先进的对象探测器的比较。为了进行公平比较,我们还测试SSD300 [6], RSSD300 [12和RefineDet320 [14在GeForce GTX 1080上。
|
在单个1080 GPU上,SKIPSSD300在38.7 FPS下实现79.0% mAP,比原始SSD高出1.8% mAP,并超越了大多数其他最先进的对象检测模型,包括两阶段和一阶段方法以及其他改进的SSD模型。虽然SKIPSSD的检测速度比SSD稍慢,因为在高级和低级特征之间进行了额外的特征融合,但仍然比RSSD快[12]和RefineDet [14],并能实现实时检测。RefineDet_SKIP的性能优于RefineDet [14,表明本文提出的跳跃连接在目标检测任务中优于FPN。
3.7。可视化
如图所示15,与数字相比(15日)和15 (b),当目标密集时,SKIPSSD检测到的同类目标比SSD多。与数据15 (c)- - - - - -15 (h),与原始SSD相比,SKIPSSD可以更好地检测小目标,也可以“捕捉”远处的目标,这证明了提出的基于多尺度特征图跳跃连接的SKIPSSD可以提高整个模型的性能和对小目标的检测性能。
(一)
(b)
(c)
(d)
(e)
(F)
(G)
(h)
4.结论
本文提出了一种基于多尺度特征图跳跃连接的SSD改进算法SKIPSSD。为了有效融合高层和低层特征,设计并比较了各种特征融合模块和融合连接模块。实验结果表明,在1080 GPU上,在300 × 300的输入尺寸下,SKIPSSD在38.7 FPS下实现了79.0%的mAP,比SSD高出1.8%,且仍能保持实时检测速度。另外,虽然在本文中只对SSD和RefineDet采用了跳跃连接,但也可以集成到其他对象探测器中。
在未来的工作中,将采用通道注意机制,通过学习每个通道的重要性,过滤不重要的通道,提高特征的显著性。
数据可用性
用于支持本研究发现的数据可由通讯作者要求提供。
的利益冲突
提交人声明有关本文的出版物没有利益冲突。
致谢
作者谨此感谢江苏海外访问学者为支持的大学突出的年轻和中年教师和主席。该工作得到了中国国家重点研究和发展计划项目的支持(授予编号:2016YFB0502103)和中国江苏省的自然科学基金(Grant Number:BK20160696)。
参考文献
- R. Girshick, J. Donahue, T. Darrell,和J. Malik,“精确目标检测和语义分割的丰富特征层次结构”2014 IEEE计算机视觉与模式识别会议论文集,pp.580-587,CVPR,华盛顿,DC,美国,2014年6月。查看在:出版商网站|谷歌学术搜索
- R. Girshick,“Fast R-CNN,”IEEE计算机愿景国际会议的诉讼程序,第1440-1448页,智利圣地亚哥,2015年12月。查看在:出版商网站|谷歌学术搜索
- S. ren,K。他,R. Girshick和J. Sun,“更快的R-CNN:迈向与地区建议网络的实时对象检测,”神经信息处理系统进步的诉讼程序,第91-99页,麻省理工学院出版社,加拿大蒙特利尔,2015年12月。查看在:出版商网站|谷歌学术搜索
- J. Dai,L. Yi,K.He等人,“R-FCN:通过基于区域的完全卷积网络的物体检测”,神经信息处理系统进步的诉讼程序,pp.379-387,巴塞罗那,西班牙,2016年12月。查看在:谷歌学术搜索
- J. Redmon, S. Divvala, R. Girshick和A. Farhadi,“你只看一次:统一的,实时的目标检测”计算机视觉与模式识别会议论文集,pp.779-788,IEEE计算机协会,拉斯维加斯,NV,2016年6月。查看在:出版商网站|谷歌学术搜索
- Liu W., D. angelov, D. Erhan et al., " SSD:单镜头多盒探测器," in欧洲计算机视觉会议论文集,第21-37页,施普林格,Cham,瑞士,2016年10月。查看在:谷歌学术搜索
- “基于深度卷积网络的视觉识别的空间金字塔池”,“基于深度卷积网络的视觉识别”,模式分析与机器智能学报,第37卷,第2期9, pp. 1904-1916, 2015。查看在:出版商网站|谷歌学术搜索
- M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman,《pascal视觉对象类(VOC)挑战》,国际计算机视觉杂志,卷。88,不。2,pp。303-338,2010。查看在:出版商网站|谷歌学术搜索
- 李志和周飞,“FSSD:特征融合单镜头多盒探测器”,2017,https://arxiv.org/abs/1712.00960.查看在:谷歌学术搜索
- Fu c.y., Liu W., A. Ranga et .,“DSSD:反卷积单点探测器,”2017,https://arxiv.org/abs/1701.06659.查看在:谷歌学术搜索
- 何凯,张昕,任胜等,“基于深度残差学习的图像识别”计算机愿景和模式识别的IEEE会议课程,第770-778页,西雅图,华盛顿州,美国,2016年6月。查看在:出版商网站|谷歌学术搜索
- J. Jeong, H. Park, N. Kwak,“通过连接特征地图来增强SSD的目标检测”,2017,https://arxiv.org/abs/1705.09587.查看在:谷歌学术搜索
- 曹刚,谢旭东,杨文等,“基于特征融合的固态物体快速检测”,计算机工程与应用,vol . 32, no . 3, no . 3第九届国际图形和图像处理会议论文集,第14-16页,中国青岛,2018年10月。查看在:谷歌学术搜索
- 张树文,肖波等,“目标检测的单次细化神经网络”计算机视觉与模式识别会议论文集,pp.4203-4212,盐湖城,US,2018年6月。查看在:出版商网站|谷歌学术搜索
- Z. Zhang,S. Qiao,C.Xie,W. Shen,B. Wang和A. L. Yuille,“单次对象检测与丰富的语义”,在计算机视觉与模式识别会议论文集2018年6月,美国犹他州盐湖城,第5813-5821页。查看在:出版商网站|谷歌学术搜索
- T. Lin, P. Dollár, R. Girshick等,“目标检测的特征金字塔网络”,2016,https://arxiv.org/abs/1612.03144.查看在:谷歌学术搜索
- O. Ronneberger,P.Fischer和T.Brox,“U-Net:生物医学图像分割的卷积网络”国际医学图像计算和计算机辅助干预会议论文集,pp.234-241,德国慕尼黑,2015年10月。查看在:谷歌学术搜索
- J. Redmon和A. Farhadi的《YOLO9000:更好、更快、更强》计算机视觉与模式识别会议论文集,第7263-7271页,夏威夷,美国,2017年7月。查看在:出版商网站|谷歌学术搜索
- J. Redmon和A. Farhadi,《YOLOv3:渐进改进》,2018,https://arxiv.org/abs/1804.02767.查看在:谷歌学术搜索
- 沈哲,刘哲,李军,杨刚。Jiang, Y. Chen, and X. Xue,“Dsod:从零学习深度监督对象探测器”,发表于IEEE计算机愿景国际会议的诉讼程序2017年10月,意大利威尼斯,第1919-1927页。查看在:出版商网站|谷歌学术搜索
版权
版权所有©2020小家张等人。这是分布下的开放式访问文章知识共享署名许可协议如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。