CIN 计算智能和神经科学 1687 - 5273 1687 - 5265 Hindawi 10.1155 / 2020/2936920 2936920 研究文章 通过跳过连接的方法改善SSD的多尺度特征图 https://orcid.org/0000 - 0001 - 9961 - 6443 Xiaoguo https://orcid.org/0000 - 0003 - 3477 - 199 x https://orcid.org/0000 - 0002 - 7593 - 3011 https://orcid.org/0000 - 0002 - 6283 - 3468 Qihan https://orcid.org/0000 - 0002 - 9786 - 546 x 开心网 Yanez-Marquez Cornelio 仪器科学与工程学院 东南大学 南京210096 中国 seu.edu.bd 2020年 16 3 2020年 2020年 31日 10 2019年 24 01 2020年 16 3 2020年 2020年 版权©2020 Xiaoguo Zhang et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

SSD(单镜头MultiBox探测器)是最好的目标检测算法,能够提供高精度实时目标检测性能。然而,SSD显示相对贫穷的小目标检测性能,因为它浅预测层,负责检测小对象,缺乏足够的语义信息。SKIPSSD解决这个问题,一种改进的SSD的小说跳过连接地图多尺度特性,本文提出了提高语义信息和预测的细节层通过跳过融合高级和低级特征图。细节的融合方法,我们设计两个特征融合模块和多个融合策略来提高SSD检测器的灵敏度和感知能力。实验结果在帕斯卡VOC2007测试集证明SKIPSSD大大提高了检测性能优于很多先进的对象探测器。输入大小为300×300,SKIPSSD地图达到79.0%(平均平均精度为38.7 FPS(每秒帧数)在一个1080年的GPU, SSD的地图高出1.8%,同时仍然保持实时检测速度。

国家重点研究和开发计划的项目 2016年yfb0502103 江苏省自然科学基金 BK20160696
1。介绍

基于深度学习的目标检测算法大致可以分为两类:基于区域建议和基于端到端。众所周知,前者模型通常包括R-CNN [ 1),快R-CNN [ 2),快R-CNN [ 3],R-FCN [ 4],它首先生成一套category-independent地区建议后续的特征提取和分类。后面的两个最受欢迎的模型基于端到端YOLO(你只看一次)[意思 5和SSD(单镜头MultiBox探测器) 6),这需要设置默认的盒子,训练网络,并建立的关系前框,默认的盒子,盒子和地面真理。

两阶段方法如SPP-net [ 7),快R-CNN [ 2],和更快的R-CNN [ 3),通常只使用最后一层一层的预测,但固定的层接受域大小不适合太大,小对象检测。SSD创新使用事先的金字塔特征层次结构和组合来自多个特征图的预测具有不同分辨率的处理对象探测器的尺度变化问题。一般来说,SSD不仅能够实现实时检测,还以其检测精度高。2007年帕斯卡VOC测试( 8),SSD的速度达到77.2%地图46 FPS与输入大小300×300使用单一NVIDIA泰坦X GPU ( 6]。然而,SSD的多尺度预测层之间的联系并没有充分考虑,和低级特征图缺乏足够的语义信息对小目标检测;因此,SSD显示表现不佳在小目标检测( 9]。如图 1,一些小型对象,例如船只在红盒子,没有检测到SSD。

我们SKIPSSD的框架。SKIPSSD跳过保险丝高级和低级特征图来提高模型的语义信息。

处理这个问题,SSD显示表现不佳在小目标检测和保持一个令人满意的检测速度的同时,我们采用一种新颖的跳过连接的多尺度特性映射到SSD,和整体架构如图 2。总结了主要贡献如下:(1)SKIPSSD,一种改进的SSD的小说跳过连接地图多尺度特性,提出了提高语义信息和预测的细节层通过跳过融合高端和低端的功能;(2)6个多尺度特征图谱SSD网络融合结构,和两个功能融合模块和多个融合策略旨在调查最优特征融合框架;(3)实验2007年帕斯卡VOC测试集进行比较与其他先进的对象SKIPSSD探测器的性能。

我们SKIPSSD的框架。SKIPSSD跳过保险丝高级和低级特征图来提高模型的语义信息。

实验结果表明,SKIPSSD大大提高了检测性能优于很多先进的对象探测器。输入大小为300×300,SKIPSSD地图达到79.0%(平均平均精度为38.7 FPS(每秒帧数)在一个1080年的GPU, SSD的地图高出1.8%,同时仍然保持实时检测速度。

2。方法 2.1。相关工作

领域的对象检测、图像金字塔通常用来解决检测性能的退化所造成的改变的对象。然而,这种算法是非常耗时的。SSD创新使用一个事先的锥体功能层次结构和组合来自多个层的预测不同的尺度,在一定程度上减轻对象规模变化的问题( 6]。然而,SSD的多尺度预测层之间的联系并没有充分考虑,和低级特征图缺乏足够的语义信息对小目标检测;因此,SSD显示表现不佳在小目标检测( 9]。

为了处理上述问题的SSD, DSSD (Deconvolutional单射探测器) 10)使用resnet - 101 ( 11)代替VGG用于SSD和添加deconvolutional层引入大规模上下文。虽然DSSD改善SSD的性能的小目标检测,其检测速度比SSD慢得多,它不能实现实时检测。之后,已经有很多做平衡的小目标检测的准确度和速度的SSD。RSSD [ 12)采用weight-sharing策略不同层之间的SSD和提高精度0.8%的速度下降到35帧,因为计算复杂性的增加。FSSD [ 9)使用一个轻量级的、高效的特性融合模块和达到78.8%地图VOC2007测试设置为65.8 FPS,优于RSSD300精度和速度。Feature-Fused SSD300 [ 13]简单地进行elt_sum函数之间Conv4_3 Conv5_3 SSD和地图达到78.9%,高于FSSD很小。结合两级和单程方法的优点,RefineDet [ 14)使用ARM模块以减少搜索空间,转移的特性从手臂到ODM模块通过TCB连接模块,并达到81.8%映射为40.3 FPS与输入大小512×512,超过DSSD513。为了进一步提高SSD的准确性,DES(检测具有丰富语义) 15]不仅介绍了细分模块获取面具,客观上增强了浅层的语义信息的特性,还介绍了全球激活模块提高语义信息的高级特性。DES512促进VOC2007测试集上的地图为31.7 FPS的81.7%。DES512的准确性提高速度的成本。

上述算法提高SSD的检测精度。然而,他们的推理时间增加很多。总体来说,它是很有价值的获取高精度实时目标检测性能令人满意的性能。

2.2。多尺度特征融合结构设计

许多作品发现,从网络的不同层次是互补的特性,和集成的多尺度特性可以受益对象多尺度检测( 9, 10, 16]。更具体地说,DCNN模型的不变性特性使高层特征图谱的DCNN学好抽象特性的数据适合对象识别,但副作用对象位置显示和低级特征图含有丰富的空间结构有利于定位对象的细节。灵感来自一个encoder-decoder网络U-Net [ 17),它使用跳过连接副低级特征图和高级特性映射到实现定位在像素级别,我们采用的想法跳过连接SSD增强语义信息。在本文中,我们设计并评估一系列的多尺度特征图融合结构在SSD探索最优融合结构:多尺度预测特征图谱跳过连接(SKIPSSD),跳过一部分连接(Part-SKIPSSD),双向跳过连接(Bi-SKIPSSD),跳过与局部特征图谱的基础网络(Base-SKIPSSD),相邻的连接(AdjacentSSD)和多尺度金字塔网络(FPNSSD)预测功能。

3(一个)显示了跳过地图多尺度预测特性之间的联系,在SKIPSSD upsamples Conv9_2融合与Conv7_2 Conv7_2_ff, upsamples Conv8_2融合与Conv6_2 Conv6_2_ff, upsamples Conv7_2与fc7 fc7_ff,保险丝和upsamples Conv6_2 Conv4_3_ff与Conv4_3保险丝。多尺度预测特征图谱skip-connection网络称为SKIPSSD本文。图 3 (b)显示的结构预测层SKIPSSD, Conv8_2, Conv9_2,地图Conv4_3_ff和熔融特性,fc7_ff, Conv6_2_ff, Conv7_2_ff作为多尺度预测层。

多尺度预测特征图谱跳过连接(SKIPSSD)。(一)跳过连接结构。(b)多尺度预测层。

如图 4(一),Part-SKIPSSD的结构描述。与SKIPSSD相比,Part-SKIPSSD删除功能的融合Conv7_2层和只用Conv4_3_ff, fc7_ff, Conv6_2_ff Conv7_2, Conv8_2, Conv9_2最初的SSD的多尺度预测特征图。

多尺度预测特征图(part-SKIPSSD)跳过部分连接。(a)部分跳过连接结构。(b)多尺度预测层。

结构在图 5(一个)被称为Bi-SKIPSSD本文。与SKIPSSD相比,Bi-SKIPSSD融合层Conv8_2和Conv9_2添加特性,分别。Conv6_2经历卷积和汇聚层,然后与Conv8_2生成Conv8_2_ff合并。同样,Conv7_2,经历了卷积和汇聚层,然后用Conv9_2生成Conv9_2_ff合并。这个数字 5 (b)表明Bi-SKIPSSD使用Conv4_3_ff fc7_ff、Conv6_2_ff Conv7_2_ff, Conv8_2_ff和Conv9_2_ff地图多尺度预测功能。

多尺度预测特征图谱双向跳过连接(Bi-SKIPSSD)。(一)双向跳过连接结构。(b)多尺度预测层。

不同于上述三个网络,Base-SKIPSSD图 6进行跳过VGG基础网络层之间的连接和预测层。Conv4_1经历卷积和汇聚层,然后与Conv4_3生成Conv4_3_ff合并,后者fc7, Conv6_2, Conv7_2, Conv8_2, Conv9_2与相应的基本特征合并层以类似的方式。融合特征地图Conv4_3_ff fc7_ff、Conv6_2_ff Conv7_2_ff, Conv8_2_ff, Conv9_2_ff作为多尺度预测特征图。

跳过与局部特征图谱的基础网络(base-SKIPSSD)。(一)跳过连接结构局部特征图谱的基础网络。(b)多尺度预测层。

结构在图 7(一)被称为AdjacentSSD。与SKIPSSD相比,AdjacentSSD进行相邻连接而不是跳过连接。层fc7经历upsampling层,与Conv4_3生成Conv4_3_ff合并,而后者层Conv6_2 Conv7_2, Conv8_2, Conv9_2合并相邻层以类似的方式。这个数字 7 (b)表明AdjacentSSD使用Conv4_3_ff fc7_ff、Conv6_2_ff Conv7_2_ff, Conv8_2_ff, Conv9_2地图多尺度预测功能。

多尺度预测特征图相邻连接(adjacentSSD)。(一)多尺度预测特征图相邻的连接结构。(b)多尺度预测层。

结构在图 8(一个)被称为FPNSSD。不同于AdjacentSSD,高级层与相邻层Conv8_2 Conv9_2只是融合生成Conv8_2_ff, FPNSSD采用自顶向下的架构与横向连接称为红外系统( 16),如图 9和高级层Conv9_2融合一层一层地,导致代Con8_2_ff Conv7_2_ff等等。这个数字 8 (b)表明FPNSSD使用Conv4_3_ff fc7_ff、Conv6_2_ff Conv7_2_ff, Conv8_2_ff, Conv9_2地图多尺度预测功能。

多尺度金字塔网络(FPNSSD)预测功能。(一)多尺度金字塔网络结构预测功能。(b)多尺度预测层。

金字塔网络特性。

上述六个多尺度特征图融合结构在SSD分析和评估中设置的帕斯卡VOC2007测试部分 3.4探索最优多尺度特征图融合结构。

2.3。特征融合模块设计

本文两个特征融合模块是为高级和低级特性设计的融合,融合效果比较在我们的实验。Concat和eltsum是两种常见的特征融合方法。Concat操作通道连接两个特征图。在咖啡中,有三个操作的Eltwise层:产品(积),和(加或减),和马克斯(取大值),选择和操作。

如图 10,融合模块 一个首先upsamples map_up高级特性映射到生成高级特性,经历3×3卷积层和relu map_fused激活函数来获得高级特性。此外,低级特征映射,它经历了3×3卷积层和relu激活函数,转换成map_fused低级特征。然后,concat或eltsum功能应用进行特征融合低层特征map_fused和高级功能map_fused获得high-low-level特性映射concat /总和。最后,high-low-level特性映射concat /金额,也经历了一个1×1卷积层减少通道尺寸,激活relu激活函数获取地图map_fused high-low-level特性预测功能。

融合模块 一个

相比之下,融合模块 一个在图 10,融合模块 b在图 11情报官。首先,融合模块 bupsamples高级特性映射到生成高级特性map_up和变换低级特征映射到底层特征map_reduce通过1×1卷积层。然后,concat或eltsum功能应用进行特征融合低层特征map_reduce和高级功能map_up获得high-low-level特性映射concat /总和。最后,high-low-level特性映射concat /总和,经历了一个3×3卷积层减少混叠效应,激活relu激活函数获取地图map_fused high-low-level特性预测功能。

融合模块 b

3所示。结果与讨论

评价提出改进的SSD的性能网络和找到最优多尺度特征图融合框架,四种类型的测试用例设计摘要:

比较不同特征融合SKIPSSD当使用性能的模块。通过这个实验,可以找到最有效的特征融合模块。

比较不同的融合策略对SKIPSSD模型性能的影响。通过这个实验,可以选择最有效的融合策略。

比较不同SKIPSSD upsampling方法模型的影响性能。通过这个实验,最有效的upsampling方法可以选择。

比较不同特征图融合SSD的性能与结构。通过这个实验,可以找到最有效的特征融合结构。

实验的硬件和软件配置表中列出 1。为了评估SKIPSSD的性能,VOC2007的结合 trainval和VOC2012 trainval作为训练数据,VOC2007测试作为测试数据。公平的比较,实验都是基于VGG16,预处理为SSD中进行,而且SKIPSSD受过SSD一样。参数设置表中列出 2。地图和FPS作为评价的指标采用检测性能。

实验硬件和软件配置。

硬件和软件 配置文件
CPU 英特尔xeone5 - 2620 v4@2.10ghz
GPU GeForce GTX 1080
操作系统 Ubuntu 16.04
深度学习框架 咖啡

训练参数设置。

参数 大小
输入的大小 300×300
的迭代次数 240000步
批量大小 16
最初的学习速率 0.0005(在步骤160000,除以10,200000年和240000年)
重学习速率 0.0005
动力 0.9
3.1。两个功能融合模块对模型性能的影响

为了找到最优特征融合模块,SKIPSSD具有不同特征融合模块评估2007年帕斯卡VOC测试和性能评估与输入大小300×300记录在表中 3。在这个实验中,SKIPSSD如图的网络 3和BN(批正常化)层添加毕竟融合中的卷积的内核模块。

特性的影响融合连接模块对模型性能。

模型 数据 Pretrained模型 融合模块 融合方法 帧/秒 地图(%)
固态硬盘 07年+ 12 VGGNet × × 41.4 77.2
SKIPSSD 07年+ 12 VGGNet 一个 Eltsum 32.3 78.1
SKIPSSD 07年+ 12 VGGNet b Eltsum 37.8 78.3

结果显示在表中 3,SKIPSSD融合模块 一个达到78.1%的地图,比SSD高出0.9%,和SKIPSSD地图融合模块 b地图是1.1%高于SSD,证明跳过连接的多尺度特征图的确提高了固态硬盘的性能。自SKIPSSD融合模块 b优于融合模块 一个精度和速度,融合模块 b摘要选择高低水平特征融合。

3.2。融合策略对模型性能的影响

在这个实验中,比较两个方面的因素:(1)concat和eltsum融合方法;(2)完全和部分利用BN层。实验结果记录在表中 4。在实验中,upsampling方法是反褶积和扩张卷积,融合模块 b

不同的融合策略对模型性能的影响。

模型 数据 Pretrained模型 融合模型 BN 地图(%)
SKIPSSD 07年+ 12 VGGNet Concat 毕竟卷积层融合模块的使用 77.9
SKIPSSD 07年+ 12 VGGNet Eltsum × 78.0
SKIPSSD 07年+ 12 VGGNet Eltsum 毕竟卷积层融合模块的使用 78.3
SKIPSSD 07年+ 12 VGGNet Eltsum 只有在使用eltsum函数 78.4

从数据表的第一和第三行 4,可以得出结论,在同一网络结构,eltsum融合方法比concat提供更好的精度。比较第二、第三和第四行表 4,添加BN层可以改善SKIPSSD的准确性。当只使用BN层eltsum函数后,地图SKIPSSD达到78.4%,高出0.1% SKIPSSD使用BN层毕竟卷积层融合模块。SKIPSSD综合分析后,本文采用eltsum融合方法,在卷积层和只使用BN层后面eltsum函数。

3.3。Upsampling方法对模型性能的影响

为了研究upsampling方法SKIPSSD的性能的影响,我们采用两种特性融合模块SKIPSSD upsampling方法。第一个方法是反褶积和扩张卷积,特定的网络结构参数如图 12。第二种方法是双线性插值,特定的网络结构参数在图所示 13

配置采样参数对反褶积和扩张的卷积。

双线性插值采样参数的配置。

5表明,与双线性插值upsampling SKIPSSD方法达到79.0%地图为38.7 FPS帕斯卡VOC2007测试集,优于反褶积和扩张upsampling卷积方法在速度和准确性。因此,双线性插值upsampling方法在本文中被选中。

不同的upsampling方法对模型性能的影响。

模型 数据 Pretrained模型 Upsampling方法 帧/秒 地图(%)
SKIPSSD 07年+ 12 VGGNet 反褶积+扩张卷积 36.8 78.4
SKIPSSD 07年+ 12 VGGNet 双线性插值 38.7 79.0
3.4。特征融合结构模型性能的影响

这个实验比较了2007年帕斯卡VOC性能测试集六种不同特性的融合结构:SKIPSSD, Part-SKIPSSD, Bi-SKIPSSD, Base-SKIPSSD AdjacentSSD, FPNSSD。在这个实验中,双线性插值upsampling方法,融合模块 b、融合方法是eltsum和BN层只用于卷积层后eltsum函数。

如表所示 6地图,Base-SKIPSSD达到78.6%,高出1.4% SSD进行跳过VGG基础网络层之间的连接和预测层。然而,较低的预测层Conv4_3_ff仍然缺乏足够的语义信息等小物件检测。FPNSSD采用自顶向下的架构与横向连接建立高层语义特征映射在所有尺度适合多尺度对象检测,但融合功能一层一层地不够高效虽然有很多层结合在一起。FPNSSD和AdjacentSSD达到几乎相同的性能,表明没有必要人口特征层融合层通过自顶向下的架构。与FPNSSD相比,通过融合低级和高级特性映射跳过,SKIPSSD更轻量级的和有效的。Part-SKIPSSD的性能和Bi-SKIPSSD表明少跳过连接不带来明显的优势的速度,和更多的跳过连接会导致冗余和不带显著地提高精度。因此,最终,SKIPSSD网络选为最优特征融合结构。

不同的功能融合网络结构对模型性能的影响。

模型 数据 Pretrained模型 帧/秒 地图(%)
SKIPSSD 07年+ 12 VGGNet 38.7 79.0
Part-SKIPSSD 07年+ 12 VGGNet 39.2 78.7
Bi-SKIPSSD 07年+ 12 VGGNet 38.1 78.8
Base-SKIPSSD 07年+ 12 VGGNet 39.2 78.6
AdjacentSSD 07年+ 12 VGGNet 38.0 78.8
FPNSSD 07年+ 12 VGGNet 37.9 78.8
3.5。实验于2007年帕斯卡VOC

的损失曲线SKIPSSD图所示 (14日)。在培训过程中不断减少损失。在第一个50000步,大幅减少损失。16000步后,进一步下降速度减慢,损失曲线趋向于200000步后保持不变。因此,如图 14 (b)在50000年第一个步骤,准确性大幅增加,倾向于保持不变2000步之后,在22500年达到79.0%的步骤。

损失和精度曲线。(一)Iterations-training损失曲线。(b) Iterations-test精密曲线。

7显示了目标检测的结果2007年帕斯卡VOC测试集。与SSD相比,为18类SKIPSSD显示一个巨大的改进,包括小物体像瓶子,船,鸟类,植物,等等,证明小目标检测的弱点在SSD是改善。低维输入300×300,地图没有铃铛和口哨SKIPSSD达到79.0%,优于很多先进的目标检测算法更快R-CNN [ 3],YOLOv2 [ 18],YOLOv3 [ 19],DSSD [ 10]。虽然SKIPSSD地图比RefineDet320低1% ( 14地图),RefineDet_SKIP320达到0.4%高于RefineDet320采用跳过地图连接的多尺度特性,证明跳过连接提出了有效,也可以集成到其他对象探测器。

对象检测结果2007年帕斯卡VOC测试集。

方法 地图 航空 自行车 公共汽车 椅子 Mbike 植物 沙发 火车 电视
快( 2] 70.0 77.0 78.1 69.3 59.4 38.3 81.6 78.6 86.7 42.8 78.8 68.9 84.7 82.0 76.6 69.9 31.8 70.1 74.8 80.4 70.4
快( 3] 73.2 76.5 79.0 70.9 65.5 52.1 83.1 84.7 86.4 52.0 81.9 65.7 84.8 84.6 77.5 76.7 38.8 73.6 73.9 83.0 72.6
YOLOv2 416 18] 76.8 87.9 87.5 78.2 61.5 57.9 84.9 82.9 90.6 54.9 83.6 66.5 90.1 85.2 85.8 82.9 54.2 78.9 65.2 87.3 69.8
YOLOv3 416 19] 78.3 88.7 84.3 76.1 67.6 62.8 85.7 88.8 88.9 60.4 83.6 71.6 86.0 87.9 86.4 81.7 49.1 81.1 76.6 84.9 74.7
SSD300 [ 6] 77.2 79.2 83.5 75.7 70.0 51.0 86.7 86.0 86.8 60.1 80.9 76.8 85.8 85.8 84.2 79.6 52.7 78.6 77.4 86.9 77.3
DSSD321 [ 10] 78.6 81.9 84.9 80.5 68.4 53.9 85.6 86.2 88.9 61.1 83.5 78.7 86.7 88.7 86.7 79.7 51.7 78.0 80.9 87.2 79.4
Feature-fused SSD ( 13] 78.9 82.0 86.5 78.0 71.7 52.9 86.6 86.9 88.3 63.2 83.0 76.8 86.1 88.5 87.5 80.4 53.9 80.6 79.5 88.2 77.9
RefineDet320 [ 14] 80.0 83.9 85.4 81.4 75.5 60.2 86.4 88.1 89.1 62.7 83.9 77.0 85.4 87.1 86.7 82.6 55.3 82.7 78.5 88.1 79.4
SKIPSSD300 79.0 82.5 85.1 78.8 73.0 51.2 86.6 87.0 89.2 63.8 85.2 77.8 87.0 87.3 86.0 79.4 53.4 79.1 79.8 88.0 79.3
RefineDet_SKIP320 80.4 83.3 85.3 79.5 74.2 60.9 87.8 88.3 87.9 65.8 85.8 77.5 85.3 87.5 86.4 83.6 57.0 81.5 80.2 88.4 81.2
3.6。推理时间

8显示的速度和精度的比较SKIPSSD和最先进的对象探测器2007年帕斯卡VOC测试集。公平的比较,我们也测试SSD300 [ 6],RSSD300 [ 12],RefineDet320 [ 14GeForce GTX的1080年。

比较帕斯卡VOC2007速度和准确度的测试数据集。

模型 数据 基础网络 地图(%) 帧/秒 GPU 输入的大小
快R-CNN [ 3] 07年+ 12 VGGNet 73.2 7 泰坦X ∼600×1000
R-FCN [ 4] 07年+ 12 resnet - 101 79.5 9 泰坦X ∼600×1000
YOLOv2 [ 18] 07年+ 12 VGGNet 76.8 67年 泰坦X 416×416
YOLOv3 [ 19] 07年+ 12 VGGNet 78.3 57.7 泰坦Xp 416×416
SSD300 [ 6] 07年+ 12 VGGNet 77.2 46 泰坦X 300×300
DSSD321 [ 10] 07年+ 12 resnet - 101 78.6 9.5 泰坦X 321×321
DSOD300 [ 20.] 07年+ 12 DS / 64-192-48-1 77.7 17.4 泰坦X 300×300
RSSD300 [ 12] 07年+ 12 VGGNet 78.5 35 泰坦X 300×300
FSSD300 [ 9] 07年+ 12 VGGNet 78.8 35 泰坦X 300×300
RefineDet [ 14] 07年+ 12 VGGNet 80.0 40.3 泰坦X 320×320
SSD300 [ 6] 07年+ 12 VGGNet 77.2 41.4 1080年 300×300
RSSD300 [ 12] 07年+ 12 VGGNet 78.5 34.8 1080年 300×300
RefineDet [ 14] 07年+ 12 VGGNet 80.0 36.0 1080年 320×320
SKIPSSD300 07年+ 12 VGGNet 79.0 38.7 1080年 300×300
RefineDet_SKIP 07年+ 12 VGGNet 80.4 37.0 1080年 320×320

在一个1080年的GPU,地图地图为38.7 FPS SKIPSSD300达到79.0%,1.8%高于原始SSD和超过大多数其他先进的目标检测模型包括两级和单程方法和其他改进的SSD模型。尽管SKIPSSD的检测速度有点慢于SSD由于额外的特性融合高端和低端的特性,它仍然是速度比RSSD [ 12]和RefineDet [ 14),能够实现实时检测。和RefineDet_SKIP优于RefineDet [ 14]对精度和速度,证明跳过连接提出了本文工作比红外系统的目标检测的任务。

3.7。可视化

如图 15与数据相比, (15日) 15 (b),SKIPSSD检测比SSD同一个类的多个目标时,目标是密集。与数据 15 (c)- - - - - - 15 (h),SKIPSSD可以检测小物体比原来的SSD,也可以“捕捉”远处的物体,这证明了多尺度特性的提出基于跳过SKIPSSD连接地图可以提高整个模型的性能和检测性能的小对象。

比较SSD和SKIPSSD模型的检测性能,测试样品。第一列显示了SSD的结果,第二列是SKIPSSD的结果。

4所示。结论

本文改进的SSD算法SKIPSSD跳过连接的基础上提出了多尺度特征图。为了有效融合高级和低级特征,多种功能融合模块和融合连接模块设计和比较。实验结果表明,与一个输入大小300×300 1080 GPU,地图为38.7 FPS SKIPSSD达到79.0%,比SSD高1.8%,仍然可以保持实时检测速度。此外,虽然只跳过连接采用SSD和RefineDet本文也可以集成到其他对象探测器。

在未来的工作中,通道的注意机制将采用过滤掉不重要的渠道,提高卓越的特性通过学习每个通道的重要性。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者要感谢江苏海外访问学者计划大学杰出青年和中年教师和校长的支持。这项工作一直是国家重点支持的项目研究和开发中国计划(授予数量:2016 yfb0502103)和中国江苏省自然科学基金(批准号:BK20160696)。

Girshick R。 多纳休 J。 达雷尔 T。 马利克 J。 丰富的特性准确的对象层次结构和语义分割检测 学报2014年IEEE计算机视觉与模式识别会议 2014年6月 美国华盛顿特区 CVPR 580年 587年 10.1109 / cvpr.2014.81 2 - s2.0 - 84911400494 Girshick R。 快R-CNN 《IEEE计算机视觉国际会议 2015年12月 圣地亚哥,智利 1440年 1448年 10.1109 / ICCV.2015.169 2 - s2.0 - 84964588182 年代。 K。 Girshick R。 太阳 J。 更快的R-CNN:对实时检测与地区建议网络 诉讼进展的神经信息处理系统 2015年12月 加拿大蒙特利尔 麻省理工学院出版社 91年 99年 10.1109 / TPAMI.2016.2577031 2 - s2.0 - 85019258369 J。 l K。 通过提出完全卷积网络R-fcn:目标检测 诉讼进展的神经信息处理系统 2016年12月 西班牙巴塞罗那 379年 387年 Redmon J。 Divvala 年代。 Girshick R。 哈蒂 一个。 你只看一次:统一、实时检测 《IEEE计算机视觉与模式识别会议 2016年6月 美国内华达州拉斯维加斯 IEEE计算机协会 779年 788年 10.1109 / cvpr.2016.91 2 - s2.0 - 84986308404 W。 Anguelov D。 Erhan D。 SSD:单发射击multibox探测器 欧洲计算机视觉学报》上 2016年10月 可汗、瑞士 施普林格 21 37 K。 X。 年代。 太阳 J。 空间金字塔池深卷积网络视觉识别 IEEE模式分析与机器智能 2015年 37 9 1904年 1916年 10.1109 / tpami.2015.2389824 2 - s2.0 - 84939247735 Everingham M。 范干傻事 l 威廉姆斯 c . k . I。 韦恩 J。 Zisserman 一个。 帕斯卡的视觉对象类(VOC)的挑战 国际计算机视觉杂志》上 2010年 88年 2 303年 338年 10.1007 / s11263 - 009 - 0275 - 4 2 - s2.0 - 77951298115 Z。 F。 FSSD:功能融合单发射击multibox探测器 2017年 https://arxiv.org/abs/1712.00960 c . Y。 W。 Ranga 一个。 DSSD: deconvolutional单发射击探测器 2017年 https://arxiv.org/abs/1701.06659 K。 X。 年代。 深层残留图像识别的学习 学报IEEE计算机视觉与模式识别会议 2016年6月 美国西雅图,华盛顿州 770年 778年 10.1109 / CVPR.2016.90 2 - s2.0 - 84986274465 J。 公园 H。 夸克 N。 增强的SSD连接对象检测的特征图谱 2017年 https://arxiv.org/abs/1705.09587 G。 X。 W。 为小对象Feature-fused SSD:快速检测 学报》第九次国际会议上的图形和图像处理 2018年10月 中国青岛 14 16 年代。 l B。 单发细化目标检测的神经网络 《IEEE计算机视觉与模式识别会议 2018年6月 美国犹他盐湖城 4203年 4212年 10.1109 / CVPR.2018.00442 2 - s2.0 - 85062889140 Z。 年代。 C。 W。 B。 Yuille a . L。 单发对象检测与丰富的语义 《IEEE计算机视觉与模式识别会议 2018年6月 美国犹他盐湖城 5813年 5821年 10.1109 / CVPR.2018.00609 2 - s2.0 - 85061695526 T。 美元 P。 Girshick R。 检测特征金字塔网络对象 2016年 https://arxiv.org/abs/1612.03144 Ronneberger O。 费舍尔 P。 Brox T。 U-net:卷积网络生物医学图像分割 《医学影像计算和计算机辅助介入的国际会议 2015年10月 德国慕尼黑 234年 241年 Redmon J。 哈蒂 一个。 YOLO9000:更好,更快,更强 《IEEE计算机视觉与模式识别会议 2017年7月 美国檀香山,嗨 7263年 7271年 10.1109 / CVPR.2017.690 2 - s2.0 - 85041900441 Redmon J。 哈蒂 一个。 YOLOv3:增量改进 2018年 https://arxiv.org/abs/1804.02767 Z。 Z。 J。 Y.-G。 Y。 X。 从头Dsod:学习深入监督对象探测器 《IEEE计算机视觉国际会议 2017年10月 意大利的威尼斯 1919年 1927年 10.1109 / ICCV.2017.212 2 - s2.0 - 85041925039