1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 一种多数据融合的草图图像分割方法 系统 装置及存储介质与流程

一种多数据融合的草图图像分割方法 系统 装置及存储介质与流程

时间:2019-09-30 00:19:41

相关推荐

一种多数据融合的草图图像分割方法 系统 装置及存储介质与流程

本发明涉及图像处理技术领域,尤其涉及一种多数据融合的草图图像分割方法、系统、装置及存储介质。

背景技术:

随着数字技术的快速发展和数码设备的广泛普及,以图像、视频、三维模型等为代表的可视媒体数据呈现出了爆发式的增长态势。这些数据不仅体量庞大,种类繁多,而且信息模态和结构也存在着巨大差异。如何有效地管理、存储和访问这些数字资源已经成为计算机多媒体领域所面临的重要挑战。作为协助人们从海量数据仓储中获取有价值信息的重要手段,信息检索技术已经引起了广泛关注并得到了系统深入地研究。然而,由于可视媒体内容的特点,传统的基于关键词和内容的检索技术仍然存在着很大的局限性。触控设备和人机交互技术的巨大进步使得基于手绘草图的跨域检索技术成为可能。

同时,通过对草图部件进行分割,并通过草图分割的部件和图像或者三维模型分割的部件建立部件之间的对应关系进行三维模型的检索,该算法成功的应用了草图精细化分析的结果。草图的应用分析也成为计算机视觉和图形领域的一个活跃的研究课题。其中,草图分割是精细化草图分析的一个重要步骤,主要任务是把草图分割为具有语义的部件,然后识别出每个部件完成对草图内容、语义的理解。目前,草图分割与标注被广泛的应用于诸多领域,如草图部件建模[1],草图编辑[2],草图解析[3]。同时,手绘草图分割问题推动了许多新颖的应用,如草图字幕[4],基于手绘草图部件的三维模型检索[5]和草图的生成[6]。

深度卷积神经网络最近几年在图像分割领域得到了广泛的应用,特别是处理具有丰富信息的自然图像,能充分引用图像的不同层次的特征信息从而得到图像的语义分割。然而,对于草图语义分割来说是一项非常具有挑战性的任务。虽然草图是一种简单的图像,但是草图不同于图像,草图包含有非常稀疏和单一的像素信息,并且草图是一种特殊的几何结构,尤其是当草图笔画不完整、笔画抖动强烈、抽象性程度高和歧义性大的时候,会使得对草图的分割变得更加困难,从而造成各个部件之间的语义模糊。因此,同时探索草图的像素信息和草图轮廓的几何结构对草图语义分割准确率的提高是一项值得研究的重要内容。

现有技术一的技术方案:

目前图像分割领域最具有代表性的是chen等人[7]提出的deeplab卷积网络通过改进fcn[8]中卷积和上采样操作导致的图像特征丢失问题。如图1所示,利用带孔的卷积(atrousconvolution),增加特征密度,多孔卷积可以在深度卷积网络中计算特征响应时,有效的增加了网络的感受野捕获到更多的图像特征信息合成有效的细节特征,而且不会增加参数数量或计算量。通过结合空洞卷积与双线性插值将低分辨率图在保证完整特征信息的基础之上还原为原图大小,并且可以采用不同尺度的空洞卷及操作捕获图像的特征。并且在最后采用后处理的方式连接一个crf模型,增强对物体边界的处理,进一步提升了该模型抓取细节特征的能力,优化了分割效果。

基于deeplab图像分割的步骤如下:

(1)输入一张任意大小的自然图片;

(2)采用了fcn得到粗糙分割图并插值到原图像大小;

(3)通过空洞卷积(atrousconvolution)算法应用到图像分割模型上来扩展感受野,获取更多的上下文特征信息;

(4)采用完全连接条件随机场(fullyconnectedcrfs)模型对从fcn得到的分割结果进行更细腻的分割。

现有技术二的技术方案:

基于多尺度深度学习的草图部件分割mcpnet[9](multi-columnpoint-cnn)网络与传统图像分割方法不同的是,mcpnet并没有直接去处理草图像素信息,而是将草图的轮廓线转换为点集并通过二维的点集卷积神经网络进行特征点的学习。同时,利用不同尺度大小的滤波器,将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,输出每个点的语义部件标签。

基于点集特征的草图分割的步骤如下:

(1)草图轮廓转变为坐标点集;

(2)点集的深度学习表示;

(3)多尺度的草图部件分割方法。

现有技术一和二的草图分割有两方面的缺陷:

1.较低的基于轮廓点集特征的分割准确率:

基于多尺度的深度学习网络mcpnet,通过该网络可以获取草图轮廓点的局部和全局特征信息来解决草图分割准确率问题。然而,由于草图的高度抽象性以及绘画过程导致的草图噪声给草图分割技术带来巨大的挑战。同时,spointnet网络框架是建立在草图轮廓特征点集上的,轮廓点采样的方式对分割的结果影响很大。此外,mcpnet关注的是草图本身的几何结构信息,却忽视了草图的像素特征信息。

2.较低的基于图像像素特征的分割准确率:

随着深度学习在图像分割领域的发展,提出了越来越多的基于深度学习的图像分割模型[10],它们非常适合处理色彩和纹理信息都很丰富的自然图像。相反,草图作为一种高度抽象的,像素信息极其稀少的图像,而且大部分的草图只有简单的黑白两种曲线构成,而且背景区域占了整张草图的绝大部分区域。因此,直接使用现有的深度神经网络进行草图分割得到的结果并不能达到令人满意的分割效果。

缩略语和关键术语定义:

1)sketchsegmentation:草图分割。

2)imagesegmentation:图像分割。

3)sketchnet(multi-columnpoint-cnn):多尺度点云卷积草图分割。

1)spointnet(sketchsegmentationdatabase):草图分割数据集。

2)spfusionnet:点云分割网络。

3)sier(spatialinvarianceenhancedresidual)空间不变性增强残差结构。

4)p-metric(pixel-basedaccuracy):像素的准确率。

5)c-metric(component-basedaccuracy):部件的准确率。

参考文献:

[1]l.fan,r.wang,l.xu,j.deng,andl.liu,“modelingbydrawingwithshadowguidance,”computergraphicsforum,vol.32,no.7,,157~166.

[2]g.noris,d.sykora,a.shamir,s.coros,a.hornung,r.sumner,m.simmons,b.whited,andm.gross,“smartscribblesforsketchsegmentation,”computergraphicsforum,vol.31,no.8,,2516~2527.

[3]r.k.sarvadevabhatla,i.dwivedi,a.biswas,s.manocha,andr.v.babu,“sketchparse:towardsrichdescriptionsforpoorlydrawnsketchesusingmulti-taskhierarchicaldeepnetworks,”,1~6.

[4]y.choi,“sketch-to-textgeneration:towardcontextual,creative,andcoherentcomposition,”inproceedingsofthe9thinternationalnaturallanguagegenerationconference,,40~40.

[5]l.fan,r.wang,l.xu,j.deng,andl.liu,“modelingbydrawingwithshadowguidance,”computergraphicsforum,vol.32,no.7,,157~166.

[6]j.song,k.pang,y.-z.song,t.xiang,andt.hospedales,“learningtosketchwithshortcutcycleconsistency,”,801~810.

[7]l.c.chen,g.papandreou,i.kokkinos,k.murphy,anda.l.yuille,“deeplab:semanticimagesegmentationwithdeepconvolutionalnets,atrousconvolution,andfullyconnectedcrfs.”ieeetransactionsonpatternanalysisandmachineintelligence,vol.40,no.4,,834~848.

[8]j.long,e.shelhamer,andt.darrell,“fullyconvolutionalnetworksforsemanticsegmentation,”ieeetransactionsonpatternanalysisandmachineintelligence,vol.39,no.4,,640~651.

[9]wangf,lins,lih,etal.multi-columnpoint-cnnforsketchsegmentation[j]..

[10]a.chaurasiaande.culurciello,“linknet:exploitingencoderrepresentationsforefficientsemanticsegmentation,”inieeevisualcommunicationsandimageprocessing(vcip),,1~4.

[11]j.long,e.shelhamer,andt.darrell,“fullyconvolutionalnetworksforsemanticsegmentation,”ieeetransactionsonpatternanalysisandmachineintelligence,vol.39,no.4,,640~651

12.iglovikovv,shvetsa.ternausnet:u-netwithvgg11encoderpre-trainedonimagenetforimagesegmentation[j].。

技术实现要素:

本发明提供了一种多数据融合的草图图像分割方法,包括如下步骤:

草图像素特征处理步骤:通过sketchnet网络处理草图图像像素信息,sketchnet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;

草图轮廓点集特征处理步骤:通过spointnet网络处理草图轮廓线的几何结构信息,spointnet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;

融合步骤:通过多数据融合的草图分割深度学习网络spfusionnet将spointnet网络和sketchnet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

作为本发明的进一步改进,在所述融合步骤中,将sketchnet网络和spointnet网络的输出结果统一转换为基于像素级的分割结果,然后将sketchnet网络和spointnet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

作为本发明的进一步改进,在所述草图像素特征处理步骤中,空间不变性增强残差结构包括空间变换模块和残差学习模块,空间变换模块包括本地网络、网格生成器和采样器,

所述本地网络用于将将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数;

网格生成器是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出,网格生成器用于将目标图v中的坐标位置,通过矩阵运算,计算出目标图v中的每个位置对应原图u中的坐标位置;

采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置;

残差学习模块通过恒等映射函数h(x)=x保证随着spfusionnet网络层数的增加不会造成精度下降。

作为本发明的进一步改进,所述编码器包括三个残差块和两个仿射不变块,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成,第二残差块由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3;sktchnet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32;在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块;

所述解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图uk,k=1,2,3。

作为本发明的进一步改进,在所述草图轮廓点集特征处理步骤中,spointnet网络在最大池化层之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64、128、1024,得到一个n×1024全局特征图,复制n组全局特征图得到n×1088的特征图,最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024、512,、256、128和24。

作为本发明的进一步改进,在所述融合步骤中,得到一个大小为25×800×800像素概率分割图s,通过spointnet网络得到点集所对应的部件概率图为p,大小为n×c,其中c为部件个数,在这里总共有24个部件;首先将点集部件概率图p转化为像素概率分割图sp,在进行像素分割的时候,空白部分也是整张草图的一部分,看作为一个空白部件;在分割图p的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样就得到一个特征大小为n×25的点集部件分割图pc+1,矩阵中的元素为1≤i≤n,1≤c≤c+1,点pi表示的是属于部件c的概率;在800×800的图像上转换为一张像素部件概率图其中的元素1≤i,k≤800,1≤c≤c+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。

本发明还提供了一种多数据融合的草图图像分割系统,包括:

草图像素特征处理模块:用于通过sketchnet网络处理草图图像像素信息,sketchnet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;

草图轮廓点集特征处理模块:用于通过spointnet网络处理草图轮廓线的几何结构信息,spointnet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;

融合模块:用于通过多数据融合的草图分割深度学习网络spfusionnet将spointnet网络和sketchnet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

作为本发明的进一步改进,在所述融合模块中,将sketchnet网络和spointnet网络的输出结果统一转换为基于像素级的分割结果,然后将sketchnet网络和spointnet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

本发明还提供了一种多数据融合的草图图像分割装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权本发明所述的草图图像分割方法的步骤。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的草图图像分割方法的步骤。

本发明的有益效果是:本发明通过sketchnet网络处理草图图像并转换为像素级的特征图,通过spointnet网络将草图转换为点集最终得到点级的分割结果图,通过对草图点集特征和像素信息特征进行融合,从而提高图像分割的准确率。

附图说明

图1是背景技术的基本流程图;

图2是多数据融合的草图分割深度学习网络spfusionnet的原理图;

图3是本发明的网络框架图;

图4是空间不变性增强残差结构的原理框图;

图5是空间变换模块的原理图。

具体实施方式

为了解决现有草图像素特征信息稀疏和草图线性几何特征单一带来的较低的分割准确率问题,本发明公开了一种多数据融合的草图图像分割方法,解决了以下技术问题:

1.本发明提出了一种sketchnet网络处理草图图像像素信息。sketchnet目的是为了探索草图图像的特点,并以编码器-解码器的方式工作。在编码阶段,利用空间不变性增强残差结构(spatialinvarianceenhancedresidual,sier)学习和提取层次抽象的特征表示。然后,在解码阶段将这些多级表示结合在一起,以生成像素级别的特征分割图。

2.本发明提出了一种spointnet网络处理草图轮廓线的几何结构信息。spointnet计算草图轮廓点的几何特征。图像经过多次卷积操作以后使得图像的分辨率逐渐降低。然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图。

3.本发明提出了一种多数据融合的草图分割深度学习网络spfusionnet。spfusionnet同时将sketchnet和spointnet两部分网络进行融合。其中sketchnet处理草图图像并转换为像素级的特征图,spointnet将草图转换为点集最终得到点级的分割结果图。最后,将这两种类型的特征图以像素级的形式进行转换和连接,并进一步通过融合网络块得到草图分割结果。为了融合两种不同类型的数据结构,spointnet的输出基于点级分割图转化为基于像素的分割图,将两个网络的输出结果统一转换为基于像素级的分割结果,同时将两种不同网络的分割结果进行级联操作。最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。因此,通过sketchnet和spointnet两种处理不同数据格式的深度学习框架得到最终的融合网络spfusionnet可以提高草图分割的准确率。

综上,本发明通过考虑到手绘草图的两种数据形式,草图轮廓点集特征和草图像素特征。如图2所示,本发明提出了一种基于草图部件分割的深度学习网络spfusionnet,通过融合图像像素特征和轮廓结构特征进一步提高了草图分割的准确率。

对图像像素特征而言,图像特征网络sketchnet学习不同层次的抽象鲁棒性特征,并利用多级表示法生成逐像素特征分割结果;对草图轮廓的几何特征而言,点集网络spointnet捕获采样点集的局部特征和全局上下文特征信息生成逐点的特征分割结果;对融合步骤而言,为了融合两种不同类型的数据结构,将spointnet和sketchnet两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

在所述草图像素特征处理步骤中,如图4所示,空间不变性增强残差结构包括:

空间变换模块:空间变换模块的运作机制可以分为三个部分,如图5所示:1)本地网络(localisationnetwork);2)网格生成器(gridgenator);3)采样器(sampler)。

本地网络(localisationnetwork):是一个简单的回归网络。将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数θ,θ的维度取决于网络选择的具体变换类型,在这里我们是仿射变换,θ就是一个6维(2×3)向量的输出,θ=floc(u)。

网格生成器(gridgenerator)是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出。负责将v中的坐标位置,通过矩阵运算,计算出目标图v中的每个位置对应原图u中的坐标位置,即生成tθ(g),网格生成器其实得到的是一种映射关系。

经过本地网络和网格生成器操作之后,采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置。

残差学习模块:残差学习模块也可称为深度残差网络(deepresidualnetwork)通过加上几个恒等映射层就能增加网络的深度获得图像更抽象的语义特征信息。通过采用残差学习模块增加spfusionnet网络的层数提高草图的分割准确率。残差学习模块通过恒等映射函数h(x)=x可以保证随着网络层数的增加不会造成精度下降。

sketchnet网络以草图像素作为输入,并产生像素级别的分割结果。

sketchnet网络包括编码器(encoder)和解码器(decoder)。

编码器:在编码器阶段,我们的网络采用resnet的34层残差网络中的一部分。编码器过程主要有三个残差块(block)和两个仿射不变块(block)构成,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成。第二残差块主要是由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3。sktchnet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32。同时,为了保证图像平移,旋转,缩放和笔画的扭曲不变性。我们在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块(stn)。假设通过三个不同残差块得到的特征图为rk,k=1,2,3,经过仿射块得到的特征图为tk,k=1,2。其中仿射不变块并不改变特征图的大小和通道数,r1和t1,t1,的特征大小分别为128×100×100和128×100×100,经过第二个残差块得到特征图为r2,大小为128×50×50,比原图分辨率缩小了32倍。

解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图uk,k=1,2,3。具体的,特征图r3上采样扩大2倍得到特征图u1,大小为128×50×50,继续扩大2倍上采样得到特征图u2和扩大8倍得到与原图大小相等的特征图u3。在反卷积的过程当中,将一些反卷积结果进行叠加,第一阶段的输出通过反射变换以后的t1与反卷积的第一层u1进行叠加,即t1+u1,而第二阶段的输出t2与反卷积层u2进行叠加,即t2+u2。最终sketchnet输出特征的大小为25×800×800的分割概率图。

在所述草图轮廓点集特征处理步骤中,spointnet网络通过以点集的方式捕捉草图的结构特征,点的坐标位置关系描述了草图的几何结构信息。spointnet在最大池化层(maxpooling)之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64,128,1024,得到一个n×1024全局特征图。为了结合前面的n×64的特征图以捕获更多的特征细节,我们复制了n组全局特征图得到n×1088的特征图。因此,spointnet保留了草图轮廓的局部特征信息和全局特征信息。最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024,512,256,128和24。

在所述融合步骤中,将草图点集特征和像素信息特征进行融合。

在融合步骤中,我们得到了一个大小为25×800×800像素概率分割图s,通过spointnet网络得到点集所对应的部件概率图为p,大小为n×c,其中c为部件个数,在这里总共有24个部件。然而,sketchnet和spointnet处理的是两种不同数据类型的数据。为了结合点集特征和像素特征的优势,首先将点集部件概率图p转化为像素概率分割图sp。值得注意的是,我们进行像素分割的时候,空白部分也是整张草图的一部分,可以看作为一个空白部件。因此,我们在分割图p的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样我们就得到一个特征大小为n×25的点集部件分割图pc+1,矩阵中的元素为1≤i≤n,1≤c≤c+1,点pi表示的是属于部件c的概率。因此,我们就能在800×800的图像上转换为一张像素部件概率图其中的元素1≤i,k≤800,1≤c≤c+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。

本发明还包括对草图分割深度学习网络spfusionnet的优化步骤,在优化步骤中,sketchseg数据集中有m个训练样本im表示的是第m张草图且大小为w×h。ym=(yw,h)w×h是对应的分割标签图,yw,h∈{0,...,c}是像素(w,h)的部件标签,c是分割的部件总数。点集是第m张草图的样点集合,对于草图im中的像素(w,h)我们进一步定义了一维的有效编码(one-hot)分布函数其中如果像素(w,h)对应的部件为c,则否则为0。因此交叉熵损失函数可以定义为:

其中,表示的是第m个预测矩阵sm的元素(w,h,c)值,λc(c=0,...,c)是第c个部件的权重。为了摆脱背景对分割结果的影响,我们设置背景的权重为λ0=0,λc(c=1,...,c)为部件在草图当中所占的像素比例。

本发明还公开了一种多数据融合的草图图像分割系统,包括:

草图像素特征处理模块:用于通过sketchnet网络处理草图图像像素信息,sketchnet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;

草图轮廓点集特征处理模块:用于通过spointnet网络处理草图轮廓线的几何结构信息,spointnet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;

融合模块:用于通过多数据融合的草图分割深度学习网络spfusionnet将spointnet网络和sketchnet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

在所述融合模块中,将sketchnet网络和spointnet网络的输出结果统一转换为基于像素级的分割结果,然后将sketchnet网络和spointnet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

在所述草图像素特征处理模块中,空间不变性增强残差结构包括空间变换模块和残差学习模块,空间变换模块包括本地网络、网格生成器和采样器,

所述本地网络用于将将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数;

网格生成器是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出,网格生成器用于将目标图v中的坐标位置,通过矩阵运算,计算出目标图v中的每个位置对应原图u中的坐标位置;

采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置;

残差学习模块通过恒等映射函数h(x)=x保证随着spfusionnet网络层数的增加不会造成精度下降。

所述编码器包括三个残差块和两个仿射不变块,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成,第二残差块由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3;sktchnet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32;在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块;

所述解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图uk,k=1,2,3。

在所述草图轮廓点集特征处理模块中,spointnet网络在最大池化层之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64、128、1024,得到一个n×1024全局特征图,复制n组全局特征图得到n×1088的特征图,最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024、512,、256、128和24。

在所述融合模块中,得到一个大小为25×800×800像素概率分割图s,通过spointnet网络得到点集所对应的部件概率图为p,大小为n×c,其中c为部件个数,在这里总共有24个部件;首先将点集部件概率图p转化为像素概率分割图sp,在进行像素分割的时候,空白部分也是整张草图的一部分,看作为一个空白部件;在分割图p的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样就得到一个特征大小为n×25的点集部件分割图pc+1,矩阵中的元素为1≤i≤n,1≤c≤c+1,点pi表示的是属于部件c的概率;在800×800的图像上转换为一张像素部件概率图其中的元素1≤i,k≤800,1≤c≤c+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。

本发明还公开了一种多数据融合的草图图像分割装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权本发明所述的草图图像分割方法的步骤。

本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的草图图像分割方法的步骤。

表1和表2给出了本发明的spfusionnet方法与图像分割方法的性能对比。从该表可以看出,spfusionnet在基于像素的平均分割准确率达到了92.9%,在基于部件的平均分割准确率达到了90.7%。

表1:spfusionnet与其它主流分割算法之间的基于部件准确率的对比。

表2:spfusionnet与其它主流分割算法之间的基于像素准确率的对比结果。

多数据融合的草图分割深度学习网络spfusionnet和单独每个网络框架spointnet和sketchnet的对比结果。实验结果如表3所示,当sketchnet单独只处理一种基于草图图像信息的时候,平均像素准确率和平均部件准确率分别只有89.9%和87.1%,分别比spfusionnet降低了3.0%和3.6%。相反,当只考虑spointnet处理二维轮廓点集时,平均准确率下降的更为明显,基于像素的准确率和基于部件的准确率分别比spfusionnet下降了17.2%和31.6%。

表3融合的网络框架和单独每个网络框架的对比结果(%)。

本发明有益效果:本发明通过sketchnet网络处理草图图像并转换为像素级的特征图,通过spointnet网络将草图转换为点集最终得到点级的分割结果图,通过对草图点集特征和像素信息特征进行融合,从而提高图像分割的准确率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

技术特征:

1.一种多数据融合的草图图像分割方法,其特征在于,包括如下步骤:

草图像素特征处理步骤:通过sketchnet网络处理草图图像像素信息,sketchnet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;

草图轮廓点集特征处理步骤:通过spointnet网络处理草图轮廓线的几何结构信息,spointnet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;

融合步骤:通过多数据融合的草图分割深度学习网络spfusionnet将spointnet网络和sketchnet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

2.根据权利要求1所述的草图图像分割方法,其特征在于,在所述融合步骤中,将sketchnet网络和spointnet网络的输出结果统一转换为基于像素级的分割结果,然后将sketchnet网络和spointnet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

3.根据权利要求1所述的草图图像分割方法,其特征在于,在所述草图像素特征处理步骤中,空间不变性增强残差结构包括空间变换模块和残差学习模块,空间变换模块包括本地网络、网格生成器和采样器,

所述本地网络用于将将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数;

网格生成器是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出,网格生成器用于将目标图v中的坐标位置,通过矩阵运算,计算出目标图v中的每个位置对应原图u中的坐标位置;

采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置;

残差学习模块通过恒等映射函数h(x)=x保证随着spfusionnet网络层数的增加不会造成精度下降。

4.根据权利要求3所述的草图图像分割方法,其特征在于,

所述编码器包括三个残差块和两个仿射不变块,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成,第二残差块由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3;sktchnet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32;在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块;

所述解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图uk,k=1,2,3。

5.根据权利要求1所述的草图图像分割方法,其特征在于,在所述草图轮廓点集特征处理步骤中,spointnet网络在最大池化层之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64、128、1024,得到一个n×1024全局特征图,复制n组全局特征图得到n×1088的特征图,最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024、512,、256、128和24。

6.根据权利要求1所述的草图图像分割方法,其特征在于,在所述融合步骤中,得到一个大小为25×800×800像素概率分割图s,通过spointnet网络得到点集所对应的部件概率图为p,大小为n×c,其中c为部件个数,在这里总共有24个部件;首先将点集部件概率图p转化为像素概率分割图sp,在进行像素分割的时候,空白部分也是整张草图的一部分,看作为一个空白部件;在分割图p的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样就得到一个特征大小为n×25的点集部件分割图pc+1,矩阵中的元素为1≤i≤n,1≤c≤c+1,点pi表示的是属于部件c的概率;在800×800的图像上转换为一张像素部件概率图其中的元素1≤i,k≤800,1≤c≤c+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。

7.一种多数据融合的草图图像分割系统,其特征在于,包括:

草图像素特征处理模块:用于通过sketchnet网络处理草图图像像素信息,sketchnet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;

草图轮廓点集特征处理模块:用于通过spointnet网络处理草图轮廓线的几何结构信息,spointnet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;

融合模块:用于通过多数据融合的草图分割深度学习网络spfusionnet将spointnet网络和sketchnet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

8.根据权利要求7所述的草图图像分割系统,其特征在于,在所述融合模块中,将sketchnet网络和spointnet网络的输出结果统一转换为基于像素级的分割结果,然后将sketchnet网络和spointnet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。

9.一种多数据融合的草图图像分割装置,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-6中任一项所述的草图图像分割方法的步骤。

10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-6中任一项所述的草图图像分割方法的步骤。

技术总结

本发明提供了一种多数据融合的草图图像分割方法、系统、装置及存储介质,该草图图像分割方法包括草图像素特征处理步骤:生成像素级别的特征分割图;草图轮廓点集特征处理步骤:得到特征点级的分割图;融合步骤:通过多数据融合的草图分割深度学习网络SPFusionNet将SPointNet网络和SketchNet网络两种格式不同的输出结果统一转化为基于像素的分割结果,得到最终的草图分割结果。本发明有益效果是:本发明通过SketchNet网络处理草图图像并转换为像素级的特征图,通过SPointNet网络将草图转换为点集最终得到点级的分割结果图,通过对草图点集特征和像素信息特征进行融合,从而提高图像分割的准确率。

技术研发人员:汪飞;盛建强;蔡铁

受保护的技术使用者:深圳信息职业技术学院

技术研发日:.10.16

技术公布日:.02.28

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。