1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection

论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection

时间:2024-01-30 18:20:33

相关推荐

论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection

Hello, 今天是论文阅读计划的第19天啦~

也是我在这30天中要介绍的最后一篇目标检测的论文啦

一、背景

最显著的目标检测方法使用的基本结构是三角网或特征金字塔网络(FPN)。这些方法忽略了编码器与解码器交换信息时的两个关键问题:一是它们之间缺乏干扰控制,二是没有考虑不同编码器块贡献的差异。在这项工作中,我们提出了一个简单的门控网络来同时解决这两个问题。

众所周知,解码器中预测的高质量显著图严重依赖于编码器提供的有效特征。然而,上述方法直接使用all-pass skip-layer结构来将编码器的特征连接到解码器,并且不同级别的特征聚集的有效性没有被量化。这些限制不仅将误导性的上下文信息引入解码器,而且导致真正有用的特征不能被充分利用。在认知科学中,杨等人表明,抑制性神经元在人类大脑如何选择处理呈现给我们的所有信息中最重要的信息方面起着重要作用。抑制性神经元通过抑制其他神经元和平衡刺激神经元活动的兴奋性神经元来确保人类对外部刺激做出适当的反应。受此启发,我们认为在显著性检测中,有必要在每对编码器和解码器块之间建立一个信息筛选单元。它可以帮助区分显著区域的最强烈特征,并抑制背景干扰。

此外,由于感受野有限,单尺度卷积编码难以捕捉大小变化物体的上下文信息。然而,当使用大膨胀率的卷积时,由于插入太多的零,核下的信息严重缺乏相关性。这可能不利于细微图像结构的辨别。

二、研究内容 & 贡献

本文提出了一种用于显著目标检测的简单选通网络,设计了一种新颖的门控双分支结构来建立不同层次特征之间的协作,提高整个网络的可区分性。基于特征金字塔网络(FPN),我们构建了多级门单元来组合来自解码器和编码器的特征。我们使用卷积运算和非线性函数来计算特征之间的相关性,并将门值分配给不同的块。在此过程中,不同块之间通过权重分配建立伙伴关系,解码器可以从编码器获得更有效的信息,并更加关注显著区域。由于编码器网络的顶层特征包含丰富的上下文信息,我们构建了一个折叠的ASPP空间金字塔汇集模块来收集多尺度高级显著性线索。通过“折叠”操作,atrous卷积在一组局部邻域上实现,而不是在一组孤立的采样点上实现,这有助于生成更稳定的特征和更充分地描绘更精细的结构。此外,我们还设计了一个并行分支,将FPN分支的输出和门控编码器的特征连接起来,从而补充FPN分支的剩余信息,生成最终的显著图。

我们提出了一个简单的门控网络,用于自适应地控制从每个编码器模块流入解码器的信息量。利用多级门单元,网络可以平衡每个编码器块对解码器块的贡献,并抑制不显著区域的特征。我们设计了一个Fold-ASPP模块,以获取更丰富的上下文信息,并定位各种大小的突出对象。通过“折叠”操作,我们可以获得更有效的特征表示。

我们构建双分支架构。它们形成一个残差结构,通过门控处理相互补充,产生更好的结果。在五个具有挑战性的数据集上,我们将提出的模型与十七种最先进的方法进行了比较。结果表明,我们的方法比其他竞争对手的性能好得多。并且,它实现了30 fps的实时速度。

三、方法

选通网络架构如图2所示,其中编码器块、过渡层、解码器块和选通单元分别表示为Ei、Ti、Di和Gi (i ∈ {1,2,3,4,5}索引不同的级别)。它们的输出特性图分别用Ei、Ti、Di和Gi表示。最终的预测是通过结合FPN分支和并行分支获得的。在这一节中,我们首先描述了整体架构,然后详细介绍了门控双分支结构和折叠atrous空间金字塔池模块。

编码器网络。在我们的模型中,编码器基于一个公共的预训练骨干网络,例如VGG。我们以VGG-16网络为例,它包含十三个Conv层、五个最大池层和两个完全连接的层。为了适应显著性检测任务,类似于大多数以前的方法,我们丢弃了VGG-16的所有完全连接的层,并移除最后一个池化层以保留最后一个卷积层的细节。

解码器网络。解码器包括三个主要部件。1、FPN分支,它通过逐元素添加不断融合T1∨T5的不同级别特征。2、并行分支,其通过跨通道连接将FPN分支的显著性图与过渡层的特征图相结合。同时,在过渡层和解码器层之间插入了多级门单元(G1∨G5)。3、Fold-ASPP模块,通过使用“折叠”操作改进了原始的阿特罗斯空间金字塔汇集(ASPP)。它可以利用从E5学习的语义特征向解码器提供多尺度信息。

门单元可以控制在比例匹配编码器和解码器块之间传递的信息。通过组合先前解码器块的特征映射,门值还表征编码器的当前块能够提供的贡献。

折叠操作图解:

效果可视化:

四、结论

本文提出了一种新的用于显著性检测的门控网络结构。我们首先采用多级门单元来平衡每个编码块的贡献,抑制非显著区域特征的激活,这可以在最小化干扰的同时为解码器提供有用的上下文信息。门控单元简单而有效,因此,门控FPN网络可用作密集预测任务的新基线。接下来,我们使用Fold-ASPP为解码器收集多尺度语义信息。通过折叠操作,atrous卷积实现了局部对局部的效果,这不仅扩展了感受野,而且保持了本地采样点之间的相关性。最后,为了进一步补充细节,我们并行地组合所有编码器特征,并构造残差结构。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。